资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

获取数据集详情

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;本文内容不再更新,由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

本接口用于查看某数据集详情,如数据集名称、数据类型、版本信息等。

注意事项

(1)通过API获取数据集详情,和控制台页面展示字段不同:

  • 本文API参数有的字段,可能在控制台页面无
  • 控制台页面的部分字段,可能在本文API参数中无
  • 后续会持续完善API功能,请关注API文档更新

(2)调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程

SDK调用

调用示例

import os
from qianfan import resources

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

resp = resources.Data.get_dataset_info(dataset_id="ds-7pkzh1exthpuy10n")
print(resp)

返回示例

QfResponse(code = 200, headers = {...
}, body = {
    'log_id': 'qsh5mdrbch73eusy',
    'result': {
        'groupId': 1111,
        'isPublic': False,
        'name': '33d',
        'dataType': 4,
        'versionInfo': {
            'groupId': 1111,
            'groupPK': 'dg-xxxxxxx',
            'datasetId': 1111,
            'datasetPK':  'ds-7pkzh1exthpuy10n',
            'importRecordCount': 0,
            'exportRecordCount': 0,
            'userId': 1493592,
            'versionId': 1,
            'displayName': '',
            'importStatus': -1,
            'importProgress': 0,
            'exportStatus': -1,
            'exportProgress': 0,
            'dataType': 4,
            'projectType': 20,
            'templateType': 2000,
            'errCode': None,
            'uniqueType': 0,
            'importErrorInfo': None,
            'createTime': '2023-11-08 20:46:17',
            'modifyTime': '2023-11-08 20:46:17',
            'storageType': 'sysBos',
            'storage': {
                'storageId': 'easydata',
                'storageName': 'easydata',
                'storagePath': '/easydata/_system_/dataset/ds-qhcig2e6qswxg76v/texts',
                'rawStoragePath': '',
                'region': 'bj'
            },
            'releaseStatus': 0,
            'releaseErrCode': 0,
            'releaseStoragePath': '/easydata/_system_/dataset/ds-qhcig2e6qswxg76v/texts/jsonl',
            'releaseProgress': 0,
            'remark': '',
            'annotatedEntityCount': 0,
            'entityCount': 0,
            'labelCount': 1,
            'memorySize': 0,
            'characterCount': 0,
            'isEnhancing': False,
            'enhanceStatus': -1,
            'hasEnhance': False,
            'isSelfInstructEnhance': False,
            'interAnnoRunning': False,
            'hardSampleCount': 0,
            'etlStatus': 0,
            'hasEtl': False,
            'isPipelineEtl': False,
            'teamAnnoStatus': -1,
            'hasTeamAnno': False,
            'promptOptimizeStatus': 0,
            'demandStatus': '',
            'view': 0,
            'usage': 0,
            'description': '',
            'tag': None,
            'license': '',
            'copyright': '',
            'copyrightLink': ''
        }
    }
}, 'status': 200, 'success': True
})

请求参数

名称 类型 必填 描述
dataset_id string 查询的数据集版本的ID,示例:ds-7pkzh1exthpuy10n,说明:
(1)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示:
image.png
(2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取

返回参数

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 说明
log_id string 操作记录id
result dict 返回结果
status int 状态码
success bool 是否操作成功

result说明

名称 类型 说明
groupId int 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK
groupPK string 数据集字符串ID
name string 数据集名称
dataType int 数据类型
versionInfo dict 版本信息

versionInfo说明

名称 类型 说明
groupId int 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK
datasetid int 数据集版本ID,注意:该字段后续将废弃,如需使用数据集ID,请使用datasetPK
datasetPK string 数据集版本字符串ID
importRecordCount int 导入次数
exportRecordCount int 导出次数
userId int 用户id
versionId int 版本号
displayName string 展示名称
importStatus int 导入状态,说明:
· -1:未发起导入
· 0:新建
· 1:导入中
· 2:导入完成
· 3:导入失败
· 4:导入终止
importProgress int 导入进度,说明:值范围0-100,例如返回90表示进度为90%
exportStatus int 导出状态,说明:
· -1:未发起导出
· 0:待导出
· 1:导出中
· 2:导出完成
· 3:导出失败
exportProgress int 导出进度,说明:值范围0-100,例如返回90表示进度为90%
dataType int 数据类型
projectType int 标注类型
templateType int 数据格式,即控制台页面的数据类型
errCode list 导入错误码,一次导入可能有多个错误,说明:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的样本数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件
uniqueType int 是否去重
importErrorInfo list[dict] 导入错误详情
storageType string 存储类型,示例:sysBos
storage dict 存储信息
releaseStatus int 发布状态:说明:
· 0:未发布
· 1:发布中
· 2:已发布
· 3:发布失败
releaseErrCode int 发布错误状态码
releaseStoragePath string 发布存储目录
releaseProgress int 发布进度,说明:值范围0-100,例如返回90表示进度为90%
remark string 版本备注
annotatedEntityCount int 已标注样本数量
entityCount int 样本数量
labelCount int 标签数量
memorySize int 数据集大小,单位MB
characterCount int 字符数
isEnhancing bool 是否正在增强
enhanceStatus int 增强状态,说明:
· -1:无状态,表示没有任务
· 0:准备中
· 1:进行中
· 2:已完成
· 3:已终止
· 4:任务异常
hasEnhance bool 是否增强过
isSelfInstructEnhance bool 是否自监督式增强
interAnnoRunning bool 是否正在智能标注
hardSampleCount int 智能标注的难例
etlStatus int 清洗状态,说明:
· 0:无状态,表示没有任务
· 1:进行中
· 2:已完成
· 3:已终止
· 4:清洗失败
· 5:任务暂停
hasEtl bool 是否清洗过
isPipelineEtl bool 是否pipeline清洗
teamAnnoStatus int 多人标注状态,说明:
· 0:已创建、任务分配中
· 1:待标注
· 2:标注中
· 3:标注完成(所有子任务提交)
· 4:已终止(保留标注)、验收中
· 5:已终止
· 6:验收完成
· 8:已创建、分配完成
· 9:智能标注中
· 16:任务处理失败
hasTeamAnno bool 是否在多人标注
promptOptimizeStatus int 是否在prompt优化,说明:
· 1:进行中
· 2:已完成
· 3:失败
demandStatus string 众测标注
view int 浏览量
usage int 使用量
description string 描述
tag list[dict] 数据集相关标签列表
license string 证书
copyright string 版权
copyrightLink string 版权链接
createTime string 创建时间
modifyTime string 更新时间

storage说明

名称 类型 说明
storageId string bucket名称
storagePath string 完整存储路径
storageName string bucket名称
rawStoragePath string bucket中的目录
region string 存储区域,示例:bj

tag说明

名称 类型 说明
name string 标签名称

importErrorInfo说明

名称 类型 说明
errCode int 导入错误码,说明:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的样本数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件
errCount int 错误行数
上一篇
发起数据集导入任务
下一篇
获取数据集状态详情