资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

发起数据集导入任务

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;本文内容不再更新,由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

本接口用于发起数据集导入任务。

接口调用成功后,在数据集管理页面,可以查看导入状态变化,如下图所示:

image.png

注意事项

通过API发起数据集导入任务,和控制台页面展示字段不同:

  • 本文API参数有的字段,可能在控制台页面无
  • 控制台页面的部分字段,可能在本文API参数中无
  • 后续会持续完善API功能,请关注API文档更新

SDK调用

使用说明

调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程

调用示例

  • 使用bos导入
import os

# 使用bos进行数据导入
from qianfan.resources.console.consts import DataSourceType
from qianfan import resources

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

ds_id="ds-7pkzh1exthpuy10n"
# 导入
import_resp = resources.Data.create_data_import_task(dataset_id=ds_id,
                             is_annotated=True,
                             import_source=DataSourceType.PrivateBos,
                             file_url="bos:/xxx/xx/xxx/dataset01.jsonl")
print(import_resp)
  • 使用共享链接导入
import os

# 使用bos进行数据导入
from qianfan.resources.console.consts import DataSourceType
from qianfan import resources

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

ds_id="ds-7pkzh1exthpuy10n"
# 导入
import_resp = resources.Data.create_data_import_task(dataset_id=ds_id,
                             is_annotated=True,
                             import_source=DataSourceType.SharedZipUrl,
                             file_url="http[s]://bucketName.bj.bcebos.com/fileName.zip?authorization=bce-auth-v1/c786...")
print(import_resp)

返回示例

QfResponse(code = 200, headers = {...
    },
    body = {
        'log_id': '482ntzjscqg1as02',
        'result': 'task-dio1j3jkcor3k4556',
        'status': 200,
        'success': True
    })

请求参数

名称 类型 必填 描述
dataset_id string 要导入的数据集版本ID,示例:ds-xxx,说明:
(1)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示:
image.png
(2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取
is_annotated bool 是否带标注导入,可选值如下:
· True:表示带标注信息
· False:表示不带
import_source DataSourceType 上传方式,可选值如下:
· DataSourceType.PrivateBos:对象存储BOS目录/文件上传
· DataSourceType.SharedZipUrl:网络分享链接,将全部文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接
file_url string 导入文件名称,数量随import_source字段变化,说明:
· import_source为DataSourceType.PrivateBos,值为bos:/bucketName/some/path/ (可为目录或文件)
· import_source为DataSourceType.SharedZipUrl,值为http[s]://bucketName.bj.bcebos.com/fileName.zip?authorization=bce-auth-v1/c786...

返回参数

名称 类型 描述
success bool 是否操作成功
result string 数据集导入任务ID
status int 状态码
log_id string 操作记录id
上一篇
发起数据集发布任务
下一篇
获取数据集详情