资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

获取数据集详情

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;V1版本相关接口不再升级,本文档于2024年8月30日迁移至历史文档;由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

本接口用于查看某数据集详情,如数据集名称、数据类型、版本信息等。

注意事项

(1)通过API获取数据集详情,和控制台页面展示字段不同:

  • 本文API参数有的字段,可能在控制台页面无
  • 控制台页面的部分字段,可能在本文API参数中无

(2)权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 只读访问千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataReadAccessPolicy

HTTP调用

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求说明

  • 基本信息

请求地址: https://qianfan.baidubce.com/wenxinworkshop/dataset/info

请求方式: POST

  • Header参数
名称 类型 必填 描述
Content-Type string 固定值:application/json
x-bce-date string 当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z
Authorization string 用于验证请求合法性的认证信息,更多内容请参考鉴权认证机制,签名工具可参考IAM签名工具
  • Body参数
名称 类型 必填 描述
datasetId string 查询的数据集版本的ID,示例:ds-7pkzh1exthpuy10n,说明:
(1)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示:
image.png
(2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取

响应说明

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 说明
log_id string 操作记录id
result object 返回结果
status int 状态码
success bool 是否操作成功

result说明

名称 类型 说明
groupId int 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK
groupPK string 数据集字符串ID
name string 数据集名称
dataType int 数据类型
versionInfo object 版本信息

versionInfo说明

名称 类型 说明
groupId int 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK
datasetid int 数据集版本ID,注意:该字段后续将废弃,如需使用数据集ID,请使用datasetPK
datasetPK string 数据集版本字符串ID
importRecordCount int 导入次数
exportRecordCount int 导出次数
userId int 用户id
versionId int 版本号
displayName string 展示名称
importStatus int 导入状态,说明:
· -1:未发起导入
· 0:新建
· 1:导入中
· 2:导入完成
· 3:导入失败
· 4:导入终止
importProgress int 导入进度,说明:值范围0-100,例如返回90表示进度为90%
exportStatus int 导出状态,说明:
· -1:未发起导出
· 0:待导出
· 1:导出中
· 2:导出完成
· 3:导出失败
exportProgress int 导出进度,说明:值范围0-100,例如返回90表示进度为90%
dataType int 数据类型
projectType int 标注类型
templateType int 数据格式,即控制台页面的数据类型
errCode array 导入错误码,一次导入可能有多个错误,说明:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的样本数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件
uniqueType int 是否去重
importErrorInfo object[] 导入错误详情
storageType string 保存位置,示例:sysBos
storage object 存储信息
releaseStatus int 发布状态:说明:
· 0:未发布
· 1:发布中
· 2:已发布
· 3:发布失败
releaseErrCode int 发布错误状态码
releaseStoragePath string 发布存储目录
releaseProgress int 发布进度,说明:值范围0-100,例如返回90表示进度为90%
remark string 版本备注
annotatedEntityCount int 已标注样本数量
entityCount int 样本数量
labelCount int 标签数量
memorySize float 数据集大小,单位MB
characterCount int 字符数
isEnhancing bool 是否正在增强
enhanceStatus int 增强状态,说明:
· -1:无状态,表示没有任务
· 0:准备中
· 1:进行中
· 2:已完成
· 3:已终止
· 4:任务异常
hasEnhance bool 是否增强过
isSelfInstructEnhance bool 是否自监督式增强
interAnnoRunning bool 是否正在智能标注
hardSampleCount int 智能标注的难例
etlStatus int 清洗状态,说明:
· 0:无状态,表示没有任务
· 1:进行中
· 2:已完成
· 3:已终止
· 4:清洗失败
· 5:任务暂停
hasEtl bool 是否清洗过
isPipelineEtl bool 是否pipeline清洗
teamAnnoStatus int 多人标注状态,说明:
· 0:已创建、任务分配中
· 1:待标注
· 2:标注中
· 3:标注完成(所有子任务提交)
· 4:已终止(保留标注)、验收中
· 5:已终止
· 6:验收完成
· 8:已创建、分配完成
· 9:智能标注中
· 16:任务处理失败
hasTeamAnno bool 是否在多人标注
promptOptimizeStatus int 是否在prompt优化,说明:
· 1:进行中
· 2:已完成
· 3:失败
demandStatus string 众测标注
view int 浏览量
usage int 使用量
description string 描述
tag object[] 数据集相关标签数组
license string 证书
copyright string 版权
copyrightLink string 版权链接
createTime string 创建时间
modifyTime string 更新时间

storage说明

名称 类型 说明
storageId string bucket名称
storagePath string 完整存储路径
storageName string bucket名称
rawStoragePath string bucket中的目录
region string 存储区域,示例:bj

tag说明

名称 类型 说明
name string 标签名称

importErrorInfo说明

名称 类型 说明
errCode int 导入错误码,说明:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的样本数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件
errCount int 错误行数

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/dataset/info' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a52640015de61bc55ca2e6d8cc23d080016e374525543' \ 
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \ 
--data '{
   "datasetId": "ds-7pkzh1exthpuy10n"
}'

响应示例

{
    "log_id": "3w5113jbbdsb4iis",
    "result": {
        "groupId": 14510,
        "groupPK": "dg-xxxxxxx",
        "name": "ChineseMedicalDialogueData中文医疗问答数据集",
        "dataType": 4,
        "versionInfo": {
            "groupId": 14510,
            "datasetId": 17786,
            "datasetPK": "ds-7pkzh1exthpuy10n",
            "importRecordCount": 1,
            "exportRecordCount": 0,
            "userId": 0,
            "versionId": 1,
            "displayName": "",
            "importStatus": 2,
            "importProgress": 100,
            "exportStatus": -1,
            "exportProgress": 0,
            "dataType": 4,
            "projectType": 20,
            "templateType": 2000,
            "errCode": null,
            "uniqueType": 0,  
            "importErrorInfo": null,
            "createTime": "2023-09-08 17:10:11",
            "modifyTime": "2023-10-25 20:45:23",
            "storageType": "sysBos",
            "storage": {
                "storageId": "easydata",
                "storageName": "easydata",
                "storagePath": "/easydata/_system_/dataset/ds-7pkzh1exthpuy10n/texts",
                "rawStoragePath": "",
                "region": "bj"
            },
            "releaseStatus": 2,
            "releaseErrCode": 0,
            "releaseStoragePath": "/easydata/_system_/dataset/ds-7pkzh1exthpuy10n/texts/jsonl",
            "releaseProgress": 0,
            "remark": "",  
            "annotatedEntityCount": 792099,
            "entityCount": 792099,
            "labelCount": 1,
            "memorySize": 513.42,  
            "characterCount": 173338860,
            "isEnhancing": false,
            "enhanceStatus": -1,
            "hasEnhance": false,
            "isSelfInstructEnhance": false,
            "interAnnoRunning": false,  
            "hardSampleCount": 0,  
            "etlStatus": 0,
            "hasEtl": false,
            "isPipelineEtl": false,  
            "teamAnnoStatus": -1,
            "hasTeamAnno": false,
            "promptOptimizeStatus": 0,  
            "demandStatus": "",  
            "view": 2446,
            "usage": 262,
            "description": "中文医疗对话数据集由792099个问答对组成,包括男科、内科、妇产科、肿瘤科、儿科和外科",
            "tag": [
                {
                    "name": "文本对话非排序"
                },
                {
                    "name": "限定式问答"
                },
                {
                    "name": "调优"
                }
            ],
            "license": "MIT",
            "copyright": "toyhom",
            "copyrightLink": "https://github.com/Toyhom/Chinese-medical-dialogue-data"
        }
    },
    "status": 200,
    "success": true
}

SDK调用

平台支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用本文API,SDK调用说明文档请参考获取数据集详情

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如参数错误返回:

{
  "code": 500001,
  "message": "param invalid"
}

更多错误码,请查看错误码说明

上一篇
发起数据集导入任务
下一篇
获取数据集状态详情