资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据增强任务

接口描述

本接口用于创建数据增强任务。

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /wenxinworkshop/enhance/create HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "name": "3334",
	"isSelfInstruct": true,
	"sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
	"destDatasetId": "ds-3tfe1q3g7ncdmsh2",
    "devApiId": 1431,
	"appId": 14xxx,
	"numSeedFewshot": 6,
	"numInstancesToGenerate": 200,
	"similarityThreshold": 0.6
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Body参数
名称 类型 必填 描述
name string 增强任务名称
isSelfInstruct bool 是否self-instruct自监督,固定值为ture
sourceDatasetId string 源数据集版本ID,注意:
该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型
destDatasetId string 目标数据集版本ID,注意:
该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续将逐步废弃int类型
devApiId string 可选值如下:
· 1191:表示EB3.5-8k
· 1431:表示ERNIE-Lite-8K
· 1306:表示ERNIE-4.0-8K
· 1378:表示ERNIE-Speed-8K
appId int 应用ID,应用由用户创建
numSeedFewshot int 指令生成依赖样本数,说明:
· 生成指令时需要从处理前数据集(种子池)选出的样本数量,实际数量可能根据模型允许输入的长度有所调整
· 取值范围:[1,10]
numInstancesToGenerate int 生成样本数,说明:
· 建议生成后数据集总样本数大于200,每个任务最多生成不超过2000条样本
· 取值范围:[1,5000]
similarityThreshold float 过滤相似度阈值,说明:
· 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低
· 取值范围:[0,1]

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
log_id string 操作记录id
result object 返回结果
status int 状态码
success bool 是否操作成功,说明:
· true:成功
· false:失败

result说明

名称 类型 描述
enhanceTaskId string 创建的数据增强任务ID

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/enhance/create' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a5264xxxxx' \ 
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \ 
--data '{
	"name": "3334",
	"isSelfInstruct": true,
	"sourceDatasetId": "ds-9tff1q3h7ngdmgh4",
	"destDatasetId": "ds-3tfe1q3g7ncdmsh2",
    "devApiId": 1431,
	"appId": 14xxx,
	"numSeedFewshot": 6,
	"numInstancesToGenerate": 200,
	"similarityThreshold": 0.6
}'

响应示例

{
    "log_id": "hfnfguqdesni42mk",
    "result": {
        "enhanceTaskId": "task-p2fqh6j75ytje7js"
    },
    "status": 200,
    "success": true
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如参数错误返回:

{
  "code": 500001,
  "message": "param invalid"
}

更多错误码,请查看错误码说明

上一篇
数据清洗V1
下一篇
查看数据增强详情