资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

获取数据集导入错误详情

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;本文内容不再更新,由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

获取数据集导入时错误的详情。

注意事项

(1)通过API获取获取数据集导入时错误,和控制台页面展示字段不同:

  • 本文API参数有的字段,可能在控制台页面无
  • 控制台页面的部分字段,可能在本文API参数中无
  • 后续会持续完善API功能,请关注API文档更新

(2)调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程

SDK调用

调用示例

import os
from qianfan import resources

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

# 获取数据集导入错误详情:
dataset_id = "ds-7pkzh1exthpuy10n",
import_err_code = xx,
resp = resources.Data.get_dataset_import_error_detail(dataset_id, import_err_code)
print(resp)

返回示例

QfResponse(code = 200, headers = {...
    },
    body = {
        'log_id': 'z7w7g6wbac3rfk29',
        'result': {
            'dataType': 'file',
            'downloadUrl': 'https://bj.bcebos.com/buck/xx/xxx/_system_/dataset/ds-xxx',
            'isZip': 0,
            'projectType': 20,
            'content': [{
                'sequence': 1,
                'sampleFileName': '1.txt',
                'sampleName': '1.txt',
                'textLocation': 0,
                'textContent': ''
            }]
        },
        'status': 200,
        'success': True
    }
)

请求参数

名称 类型 必填 描述
dataset_id string 数据集版本ID,示例:ds-7pkzh1exthpuy10n,说明:
(1)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的datasetId字段获取
· 方式二,在控制台-数据集管理列表页面,点击详情,在版本信息页查看,如下图所示:
image.png
(2) 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建数据集接口,返回的id字段获取,请替换为接口返回的datasetId字段获取
error_code int 错误码,调用获取数据集状态详情接口时,如果有错误会返回导入错误信息importErrorInfo字段;一般有以下值:
· 1:上传的文件大小超过限制
· 2:上传的数据集缺少JSON文件
· 3:上传的文件存在格式错误
· 4:您的账户数据集额度已超限
· 5:上传的样本中存在不合法标签
· 6:上传的样本中存在不合法字符
· 7:上传的样本中存在标签数与文本token数不匹配
· 8:上传的样本标签未在label_map中找到
· 9:文本内容格式与要求不匹配,请重新上传
· 10:上传的压缩包解压失败
· 11:上传的数据集缺少xml文件
· 12:上传的已标注文本缺少标注内容
· 13:上传的文本内容为空或存在空行
· 14:上传的文本编码格式仅支持UTF-8,请重新上传
· 15:上传内容中没有可标注的源文件,请重新上传
· 16 :上传的文件内容不符合要求
· 17:当前数据集标签额度已超限
· 18:上传的视频或音频时长超过限制
· 19:分享的压缩包链接无效
· 20:视频转码失败
· 21:文本区间坐标不合法
· 22:order不合法
· 23:传入文件大小为0
· 24:上传的数据集缺少ocr txt标注
· 25:上传的数据集缺少标注文件
· 26:当前数据集的实体数量超过上限
· 27:上传的分辨率不符合要求
· 50:导入数据失败,数据文件列数不能超过1000列
· 51:导入数据失败,数据集总行数不能超过1000万行
· 52:导入数据失败,数据文件大小超过限制
· 53:导入数据失败,请确保文件编码格式为UTF-8或GBK
· 54:导入数据失败,新导入文件与数据集schema不一致
· 55:文档解析失败
· 100:网络异常或服务异常
· 300:BOS没有找到文件

返回参数

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 描述
success bool 是否操作成功
result dict 返回结果
status int 状态码
log_id string 操作记录id

result说明

名称 类型 描述
dataType string 导入类型,说明:
· file:从文件导入
· copy:从其他数据集复制
downloadUrl string 下载地址
isZip int 是否为压缩文件,说明:
· 0:否
· 1:是
projectType int 标注类型说明:
· 20:文本对话
· 401:泛文本无标注
· 402:query问题集
· 705:文生图
content list[dict] 错误的具体信息

content说明

名称 类型 描述
sequence int 序号,从1开始累加,计数用
sampleFileName string 如果是压缩包导入,返回压缩包名;其他返回空
sampleName string 文件名
textLocation int 如果是文本,返回行号;其他返回空
textContent string 如果是文本,返回文本内容;其他返回空
上一篇
获取数据集导出记录
下一篇
删除样本