资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集

注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;本文档内容不再更新,由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。

功能介绍

本接口用于创建数据集。

接口调用成功后,会在数据集管理页面,新增一条数据集记录。例如,创建一条名称为“SFT_data_2024”的数据集,接口调用成功后,在数据集管理页面,可以查看到该数据集相关信息。

image.png

注意事项

(1)通过API创建数据集,和控制台-创建数据集页面展示字段可能不同:

  • 本文API参数有的字段,可能在控制台-创建数据集页面无,如projectType等
  • 控制台-创建数据集页面的部分字段,可能在本文API参数中无,如FAQ挖掘功能等
  • 后续会持续完善API功能,请关注API文档更新

(2)调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程

SDK调用

调用示例

import os
from qianfan.resources.console.consts import DataSetType, DataProjectType, DataTemplateType, DataStorageType
from qianfan import resources

# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

resp = resources.Data.create_bare_dataset(
    "test_dataset_name",
    DataSetType.TextOnly, # 文本数据集
    DataProjectType.Conversation, # 对话,Prompt+Response 或者 Prompt+多Response排序 
    DataTemplateType.NonSortedConversation, # 表示Prompt+Response
    DataStorageType.PrivateBos, # 用户私有Bos
    "bos_bucket_name", # bos bucket
    "bos_path", # bos path
)
print(resp)

返回示例

QfResponse(code = 200,
    headers = {...
    },
    body = {
        "log_id": "vyckunn0gyg8d5rb",
        "result":
        {
            "id": 123,
            "datasetId": "ds-xxx",
            "groupId": 34,
            "groupPK": "gd-xxx",
            "groupName": "hello_dataset",
            "versionId": 3,
            "projectId": "prj-cc",
            "orgId": "org-yy",
            "visibility": "Project",
            "dataType": 4,
            "projectType": 20,
            "templateType": 2000,
            "storageType": "sysBos",
            "storageInfo":
            {
                "storageId": "easydata",
                "storagePath": "/easydata/_system_/dataset/ds-z07hkq2kyvsmrmdw/texts",
                "storageName": "easydata"
            },
            "createTime": "2023-10-25T16:16:38.430058683+08:00"
        },
        "status": 200,
        "success": True
    })

请求参数

名称 类型 必填 描述
name string 数据集名称,当创建新数据集时必传非空,示例:数据集名称
data_set_type DataSetTypeI(enum) 数据类型,可选值如下:
· DataSetType.TextOnly:表示文本
· DataSetType.MultiModel:表示跨模态
project_type DataProjectType 标注类型,可选值如下:
· DataProjectType.Conversation:表示Prompt+Response 或者 Prompt+多Response排序
· DataProjectType.GenericText:表示纯文本
· DataProjectType.QuerySet:表示Prompt集
· DataProjectType.Text2Image:表示Prompt集+图片
template_type DataTemplateType 数据格式(即控制台页面的数据类型),可选值如下:
· DataTemplateType.NonSortedConversation:表示Prompt+Response
· DataTemplateType.SortedConversation:表示Prompt+多Response排序
· DataTemplateType.GenericText:表示纯文本
· DataTemplateType.QuerySet:表示Prompt集
· DataTemplateType.Text2Image:表示Prompt集+图片
storage_type DataStorageType 保存位置,示例:sysBos,可选值如下:
· 对象存储BOS,固定值DataStorageType.PrivateBos
· 平台共享存储,固定值DataStorageType.PublicBos
storage_id string 使用对象存储BOS时需要填写使用的bucket
storage_path string 使用对象存储BOS时需要填写使用的目录

返回参数

说明:返回的部分字段如下,未说明的字段暂无需关注。

名称 类型 描述
log_id string 请求ID
status int 状态码
success bool 是否操作成功,说明:
· true:成功
· false:失败
result dict 返回结果

result说明

名称 类型 描述
datasetId string 数据集版本ID,全局唯一的随机字符串
id int 数据集版本ID,注意:该字段后续将废弃,如需使用数据集版本ID,请使用datasetId
groupId int 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK
groupPK string 数据集ID,全局唯一
versionId int 版本号
groupName string 数据集名称
displayName string 展示名称
userId int 用户id
dataType int 数据类型
projectType int 标注类型
templateType int 数据格式(即控制台页面的数据类型)
storageInfo dict 存储信息
createTime string 创建时间

storageInfo说明

名称 类型 说明
storageId string bucket名称
storagePath string 完整存储路径
storageName string bucket名称
rawStoragePath string bucket下文件夹名称,格式为前后加斜杠,示例:"/yourDir/"
region string 存储所在区域,当数据集存储类型是对象存储BOS时才返回该字段
上一篇
实例资源自动续费
下一篇
发起数据集发布任务