创建数据增强任务

更新时间：2025-07-14

接口描述

本接口用于创建数据增强任务，当前支持Prompt生成。

权限说明

调用本文API，需符合以下权限要求，权限介绍及分配，请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限：

完全控制千帆大模型平台的权限：QianfanFullControlAccessPolicy
完全控制千帆大模型平台数据管理（除数据标注外）的权限：QianfanDataFullControlAccessPolicy

鉴权说明

调用本文API，使用“基于安全认证AK/SK”进行签名计算鉴权，即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权，具体鉴权认证机制参考HTTP调用鉴权说明。

请求结构

Bash

POST /v2/dataprocessing?Action=CreateTextAugmentTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
      "taskName": "增强任务示例xxx",
      "srcDatasetVersionId": "ds-xxx",
      "dstDatasetVersionId": "ds-xxx",
      "promptModel": "deepseek-v3",
      "promptContext": "描述xxx",
      "promptIteration": {
        "enable": true,
        "maxIterations": 3
      },
      "similarityThreshold": 0.85,
      "promptEvol": {
        "genType": 200,
        "genWord": 100
      }
}

请求头域

除公共头域外，无其它特殊头域。

请求参数

Query参数

名称	类型	必填	描述
Action	string	是	方法名称，固定值CreateTextAugmentTask

Body参数

名称	类型	必填	描述
taskName	string	是	增强任务名称
srcDatasetVersionId	string	是	增强前的源数据集版本ID
dstDatasetVersionId	string	是	增强后的目标数据集版本ID
promptModel	string	是	用于Prompt生成的模型ID，说明：（1）预置服务，可选值参考支持模型列表（2）平台训练模型，可以通过查看服务地址获取该字段值，详情请查看新手指南-平台使用快速开始：model值为在创建服务时对应的API地址，如下图所示：
promptContext	string	否	Prompt生成的业务场景描述参数，说明：（1）在增强过程中，此描述会作为业务场景信息拼接至增强指令，填写该参数有助于生成与业务需求精准适配的Prompt （2）建议采用【行业+业务+目标问题】的结构描述，示例如下： · “家电行业，业务为智能洗碗机制造，产品功能缺陷和使用体验问题引发的客户投诉” · “在线教育，业务为K12编程培训APP，家长对课程质量的质疑与退费诉求”
promptEvol	Object	是	Prompt生成进化增强方向的字典，说明：（1）至少需要填写一个增强方向，且生成样本数大于0 （2）示例格式：`{"genType": 100, "genWord": 200}`
promptIteration	Object	否	迭代增强的选项，说明：默认不传关闭
similarityThreshold	Double	否	过滤相似度阈值，说明： · 不传该参数，则不会进行去重过滤 · 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池，阈值越低，样本重复概率越低 · 取值范围：[0.5, 1]

promptEvol说明

名称	类型	必填	描述
genType	int	否	同类泛化生成样本数，说明：（1）同类泛化：问题类型不变，变换发生的场景和情境（2）取值范围[1,1000]
genWord	int	否	同义泛化生成样本数，说明：（1）同义泛化：语义不变，调整词汇、句式、语气等表达方式（2）取值范围[1,1000]
addConst	int	否	增加约束生成样本数，说明：（1）增加约束：针对问题，增加时间、顺序、范围等若干约束条件（2）取值范围[1,1000]
transScene	int	否	复杂场景变换生成样本数，说明：（1）复杂场景变换：基于相似的问题，引入更加具体、复杂的生活场景或行业背景（2）取值范围[1,1000]
transFocus	int	否	考察方向变换生成样本数，说明：（1）考察方向变换：基于相同的背景信息，变换提问方式、考察方向、考察范围等（2）取值范围[1,1000]
transCtx	int	否	前提条件变换生成样本数，说明：（1）前提条件变换：基于相似的问题，改变前提条件的取值范围、关键信息、逻辑关系等（2）取值范围[1,1000]

promptIteration说明

名称	类型	必填	描述
enable	boolean	否	是否开启迭代增强功能，默认false，说明：如果关闭迭代增强，最小迭代次数和最大迭代次数都不会返回
maxIterations	Int	否	最大迭代次数，说明：（1）enable为true时，该参数生效且必填（2）取值范围：[1, 10]

响应头域

除公共头域外，无其它特殊头域。

响应参数

名称	类型	描述
requestId	string	请求ID，可用于排查问题
result	object	请求结果，请求成功时返回
code	string	错误码，错误时返回
message	string	错误信息，请求失败时返回

result说明

名称	类型	说明
enhanceTaskId	string	创建的数据增强任务ID

请求示例

Bash

# 替换下列示例中的Authorization值
curl -i --location 'https://qianfan.baidubce.com/v2/dataprocessing?Action=CreateTextAugmentTask'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44axxxxx4525543'\ 
--header 'Content-Type: application/json'\ 
--data '{
      "taskName": "增强任务示例xxx",
      "srcDatasetVersionId": "ds-xxx",
      "dstDatasetVersionId": "ds-xxx",
      "promptModel": "deepseek-v3",
      "promptContext": "描述xxx",
      "promptIteration": {
        "enable": true,
        "maxIterations": 3
      },
      "similarityThreshold": 0.85,
      "promptEvol": {
        "genType": 200,
        "genWord": 100
      }
}'

响应示例

JSON

{
    "requestId": "787f0901-9999-4c84-69e1-03c97779bf76",
    "result": {
        "enhanceTaskId": "task-xxx"
    }
}

错误码

若请求错误，服务器将返回的JSON文本包含以下参数：

名称	描述
requestId	请求ID
code	错误码
message	错误描述信息，帮助理解和解决发生的错误

例如错误返回：

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码，也可以查看错误码说明。

数据集管理

获取增强任务列表