资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

获取数据集状态详情

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;V1版本相关接口不再升级,本文档于2024年8月30日迁移至历史文档;由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

本接口用于批量查询数据集状态。

注意事项

(1)通过API获取数据集状态详情,和控制台页面展示字段不同:

  • 本文API参数有的字段,可能在控制台页面无
  • 控制台页面的部分字段,可能在本文API参数中无

(2)权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 只读访问千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataReadAccessPolicy

HTTP调用

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求说明

  • 基本信息

请求地址:https://qianfan.baidubce.com/wenxinworkshop/dataset/statusList

请求方式:POST

  • Header参数
名称 类型 必填 描述
Content-Type String HTTP请求内容的类型,固定值:application/json
x-bce-date String 当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z
Authorization String 用于验证请求合法性的认证信息。更多参见鉴权认证,签名工具可参考IAM签名工具
  • Body参数
参数名 类型 必填 说明
datasetIds []string 数据集版本ID列表,示例:["ds-xxx","ds-yyy"],说明:
(1)可以通过以下任一方式获取数据集版本ID值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示:

image.png
(2)数据集版本ID新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取

响应说明

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 说明
success bool 是否操作成功
status int 状态码
log_id string 操作记录Id
result object 数据集状态详情

result说明

名称 类型 说明
importStatus int 数据集导入状态,说明:
· -1:未发起导入
· 0:新建
· 1:导入中
· 2:导入完成
· 3:导入失败
· 4:导入中止
importProgress int 导入进度百分比,说明:
· 只有当导入状态为 运行中 或 已完成 时,返回的值才有意义。
· 值范围是0-100,例如返回90表示导入进度为90%
releaseStatus int 发布状态,说明:
· 0:未发布
· 1:发布中
· 2:已发布
· 3:发布失败
releaseProgress int 发布进度,说明:值范围是0-100,例如返回90表示进度为90%
exportStatus int 导出状态,说明:
· -1:未发起导出
· 0:待导出
· 1:导出中
· 2:导出完成
· 3:导出失败
exportProgress int 导出进度,说明:值范围是0-100,例如返回90表示进度为90%
enhanceStatus int 增强状态,说明:
· -1:无状态,表示没有任务
· 0:准备中
· 1:进行中
· 2:已完成
· 3:已终止
· 4:任务异常
etlStatus int 清洗状态,说明:
· 0:无状态,表示没有任务
· 1:进行中
· 2:已完成
· 3:已终止
· 4:清洗失败
· 5:任务暂停
importErrorInfo array 导入错误信息,示例:[{errCode: 2, errCount: 15}],说明:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的样本数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件
entityCount int 样本数量,导入过程中准实时更新
annotatedEntityCount int 已标注的样本数
labelCount int 标签数量
characterCount int 字符数
modifyTime string 修改时间

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/dataset/statusList' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a52640015de61bc55ca2e6d8cc23d080016e374525543' \ 
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \ 
--data '{
    "datasetIds": ["ds-7pkzh1exthpuy10n","ds-b8pr0im9d0tfuk64"]
}

响应示例

{
    "log_id": "sn0m8ahdnkfnfshf",
    "result": {
        "ds-7pkzh1exthpuy10n": {
            "importStatus": 1,
            "importProgress": 1,
            "releaseStatus": 0,
            "releaseProgress": 0,
            "exportStatus": 255,
            "exportProgress": 0,
            "enhanceStatus": -1,
            "etlStatus": 0,
            "importErrorInfo": null,
            "entityCount": 0,
            "annotatedEntityCount": 0,
            "labelCount": 1,
            "characterCount": 0,
            "modifyTime": "2023-10-26 12:34:08"
        },
        "ds-b8pr0im9d0tfuk64": {
            "importStatus": 1,
            "importProgress": 37,
            "releaseStatus": 0,
            "releaseProgress": 0,
            "exportStatus": 255,
            "exportProgress": 0,
            "enhanceStatus": -1,
            "etlStatus": 0,
            "importErrorInfo": null,
            "entityCount": 310,
            "annotatedEntityCount": 0,
            "labelCount": 1,
            "characterCount": 39286,
            "modifyTime": "2023-10-26 12:34:07"
        }
    },
    "status": 200,
    "success": true
}

SDK调用

平台支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用本文API,SDK调用说明文档请参考获取数据集状态详情

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如参数错误返回:

{
  "code": 500001,
  "message": "param invalid"
}

更多错误码,请查看错误码说明

上一篇
获取数据集详情
下一篇
发起数据集导出任务