资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集

接口描述

本接口用于创建新的数据集,数据集创建完成后自带版本V1。

调用本接口和控制台创建数据集页面功能类似,如下图所示。说明:如下图页面与控制台页面不同,请以控制台页面为准。

image.png

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /v2/dataset?Action=CreateDataset HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "datasetName": "hello_dataset",
    "dataFormat": "PromptResponse",
    "storageType": "BOS",
    "storagePath":"bos:/yourBucket/yourDir/"
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Query参数
名称 类型 必填 描述
Action string 方法名称,固定值CreateDataset
  • Body参数
名称 类型 必填 描述
datasetName string 数据集名称,示例:"helloDataset"
dataFormat string 数据格式,可选值如下:
· PromptResponse:表示Prompt+Response
· Role:表示Role(user+assistant)
· Text:表示纯文本
· DPO_PromptChosenRejected:表示DPO或SimPO数据格式
· KTO_PromptChosenRejected:表示KTO数据格式
· PromptSortedresponses:表示Prompt+多Response排序
· Prompt:表示Prompt集
· PromptImage:表示Prompt+图片
· PromptImageResponse:表示Prompt+Image+Response
storageType string 存储类型,可选值:
· BOS:表示对象存储BOS
· sysStorage:表示平台共享存储
storagePath string 存储类型为对象存储BOS时,说明:
(1)对应的完整存储路径即:bos:/bucket/dir
(2)示例:将数据集存储到 bucket:yourBucket,dir:yourDir/text需填写的bosPath为 bos:/yourBucket/yourDir/text/,注意:以左斜杠结尾

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
requestId string 请求ID
result object 请求结果,请求成功时返回
code string 错误码,错误时返回
message string 错误信息,请求失败时返回

result说明

名称 类型 说明
datasetId string 数据集ID
versionId string 数据集版本ID
versionNumber int 数据集版本序号
datasetName string 数据集名称
dataFormat string 数据格式,说明:
· PromptResponse:表示Prompt+Response
· Role:表示Role(user+assistant)
· Text:表示纯文本
· DPO_PromptChosenRejected:表示DPO或SimPO数据格式
· KTO_PromptChosenRejected:表示KTO数据格式
· PromptSortedresponses:表示Prompt+多Response排序
· Prompt:表示Prompt集
· PromptImage:表示Prompt+图片
· PromptImageResponse:表示Prompt+Image+Response
storageType string 存储类型,说明:
· BOS:表示对象存储BOS
· sysStorage:表示平台共享存储
storagePath string 存储类型为对象存储BOS时,对应的完整存储路径
creator string 创建人
createTime string 创建时间,格式:YYYY-MM-DD hh:mm:ss

示例(创建"Prompt+Response"类型数据集)

  • 请求示例

创建"Prompt+Response"数据集,保存位置为平台共享存储。

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/dataset?Action=CreateDataset'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxxx016e374525543'\ 
--header 'x-bce-date: 2023-09-19T13:37:10Z'\
--header 'Content-Type: application/json'\ 
--data '{
    "datasetName": "hello_dataset",
    "dataFormat": "PromptResponse",
    "storageType": "BOS",
    "storagePath":"bos:/yourBucket/yourDir/"
}'
  • 响应示例
{
    "requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
    "result": {
        "versionId": "ds-xxx",
        "datasetId": "dg-xxx",
        "datasetName":"hello_dataset",
        "versionNumber": 1,
        "dataFormat": "PromptResponse",
        "storageType": "BOS",
        "storagePath": "bos:/yourBucket/yourDir/_system_/ds-4saih7rhmcqrp2gu/texts",
        "creator":"accountName",
        "createTime": "2023-10-25 16:16:38"
    }
}

示例(创建"Prompt+Image"类型数据集)

  • 请求示例

创建Prompt+Image类型数据集,保存位置为对象存储BOS(需开通),需填写存储所在的bosUri。

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/dataset?Action=CreateDataset'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxxx016e374525543'\ 
--header 'x-bce-date: 2023-09-19T13:37:10Z'\
--header 'Content-Type: application/json'\ 
--data '{
	"datasetName": "goodBye_dataset",
	"dataFormat": "PromptImage",
	"storagePath": "bos:/yourBucket/yourDir/",
    "storageType": "BOS"
}'
  • 响应示例
{
	"requestId": "1bef3f87-c5b2-4419-936b-50f9884f10d4",
	"result": {
		"versionId": "ds-xxx",
		"datasetId": "dg-xxx",
		"datasetName": "goodBye_dataset",
		"versionNumber": 1,
		"dataFormat": "PromptImage",
		"storageType": "BOS",
		"storagePath": "bos:/yourBucket/yourDir/_system_/dataset/ds-xxx/images",
		"createTime": "2023-11-02 14:50:30"
	}
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
requestId 请求ID
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如错误返回:

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码,也可以查看错误码说明

上一篇
介绍
下一篇
获取数据集列表