创建数据集
更新时间:2024-12-23
注意:为提升开发者使用体验,平台升级了数据集管理接口。推荐使用数据集管理V2版本接口,功能更全面、且接口更规范,详见数据集管理API列表;本文档内容不再更新,由于V1版本接口后续可能下线停止服务,为避免影响使用,建议接入V2版本接口。
功能介绍
本接口用于创建数据集。
接口调用成功后,会在数据集管理页面,新增一条数据集记录。例如,创建一条名称为“SFT_data_2024”的数据集,接口调用成功后,在数据集管理页面,可以查看到该数据集相关信息。
注意事项
(1)通过API创建数据集,和控制台-创建数据集页面展示字段可能不同:
- 本文API参数有的字段,可能在控制台-创建数据集页面无,如projectType等
- 控制台-创建数据集页面的部分字段,可能在本文API参数中无,如FAQ挖掘功能等
- 后续会持续完善API功能,请关注API文档更新
(2)调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
SDK调用
调用示例
import os
from qianfan.resources.console.consts import DataSetType, DataProjectType, DataTemplateType, DataStorageType
from qianfan import resources
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
resp = resources.Data.create_bare_dataset(
"test_dataset_name",
DataSetType.TextOnly, # 文本数据集
DataProjectType.Conversation, # 对话,Prompt+Response 或者 Prompt+多Response排序
DataTemplateType.NonSortedConversation, # 表示Prompt+Response
DataStorageType.PrivateBos, # 用户私有Bos
"bos_bucket_name", # bos bucket
"bos_path", # bos path
)
print(resp)
返回示例
QfResponse(code = 200,
headers = {...
},
body = {
"log_id": "vyckunn0gyg8d5rb",
"result":
{
"id": 123,
"datasetId": "ds-xxx",
"groupId": 34,
"groupPK": "gd-xxx",
"groupName": "hello_dataset",
"versionId": 3,
"projectId": "prj-cc",
"orgId": "org-yy",
"visibility": "Project",
"dataType": 4,
"projectType": 20,
"templateType": 2000,
"storageType": "sysBos",
"storageInfo":
{
"storageId": "easydata",
"storagePath": "/easydata/_system_/dataset/ds-z07hkq2kyvsmrmdw/texts",
"storageName": "easydata"
},
"createTime": "2023-10-25T16:16:38.430058683+08:00"
},
"status": 200,
"success": True
})
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | string | 是 | 数据集名称,当创建新数据集时必传非空,示例:数据集名称 |
data_set_type | DataSetTypeI(enum) | 是 | 数据类型,可选值如下: · DataSetType.TextOnly:表示文本 · DataSetType.MultiModel:表示跨模态 |
project_type | DataProjectType | 是 | 标注类型,可选值如下: · DataProjectType.Conversation:表示Prompt+Response 或者 Prompt+多Response排序 · DataProjectType.GenericText:表示纯文本 · DataProjectType.QuerySet:表示Prompt集 · DataProjectType.Text2Image:表示Prompt集+图片 |
template_type | DataTemplateType | 是 | 数据格式(即控制台页面的数据类型),可选值如下: · DataTemplateType.NonSortedConversation:表示Prompt+Response · DataTemplateType.SortedConversation:表示Prompt+多Response排序 · DataTemplateType.GenericText:表示纯文本 · DataTemplateType.QuerySet:表示Prompt集 · DataTemplateType.Text2Image:表示Prompt集+图片 |
storage_type | DataStorageType | 是 | 保存位置,示例:sysBos,可选值如下: · 对象存储BOS,固定值DataStorageType.PrivateBos · 平台共享存储,固定值DataStorageType.PublicBos |
storage_id | string | 否 | 使用对象存储BOS时需要填写使用的bucket |
storage_path | string | 否 | 使用对象存储BOS时需要填写使用的目录 |
返回参数
说明:返回的部分字段如下,未说明的字段暂无需关注。
名称 | 类型 | 描述 |
---|---|---|
log_id | string | 请求ID |
status | int | 状态码 |
success | bool | 是否操作成功,说明: · true:成功 · false:失败 |
result | dict | 返回结果 |
result说明
名称 | 类型 | 描述 |
---|---|---|
datasetId | string | 数据集版本ID,全局唯一的随机字符串 |
id | int | 数据集版本ID,注意:该字段后续将废弃,如需使用数据集版本ID,请使用datasetId |
groupId | int | 数据集ID,注意:该字段后续将废弃,如需使用数据集ID,请使用groupPK |
groupPK | string | 数据集ID,全局唯一 |
versionId | int | 版本号 |
groupName | string | 数据集名称 |
displayName | string | 展示名称 |
userId | int | 用户id |
dataType | int | 数据类型 |
projectType | int | 标注类型 |
templateType | int | 数据格式(即控制台页面的数据类型) |
storageInfo | dict | 存储信息 |
createTime | string | 创建时间 |
storageInfo说明
名称 | 类型 | 说明 |
---|---|---|
storageId | string | bucket名称 |
storagePath | string | 完整存储路径 |
storageName | string | bucket名称 |
rawStoragePath | string | bucket下文件夹名称,格式为前后加斜杠,示例:"/yourDir/" |
region | string | 存储所在区域,当数据集存储类型是对象存储BOS时才返回该字段 |