资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据增强任务

功能介绍

用于创建数据增强任务,当前支持Prompt生成。

使用说明

本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考SDK安装及使用流程

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy

SDK调用

调用示例

import os
from qianfan  import resources

# 通过环境变量初始化认证信息
# 使用安全认证AK/SK调用,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"


resp = resources.console.utils.call_action(
    # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
    "/v2/dataprocessing", 
    # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action 
    "CreateTextAugmentTask", 
    # 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
    {
      "taskName": "增强任务示例xxx",
      "srcDatasetVersionId": "ds-xxx",
      "dstDatasetVersionId": "ds-xxx",
      "promptModel": "deepseek-v3",
      "promptContext": "描述xxx",
      "promptIteration": {
        "enable": True,
        "maxIterations": 3
      },
      "similarityThreshold": 0.85,
      "promptEvol": {
        "genType": 200,
        "genWord": 100
      }
}
)

print(resp.body)
package main

import (
    "context"
    "fmt"
    "os"

    "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
)

func main() {
     // 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
    os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
    os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
    
    ca := qianfan.NewConsoleAction()
    
    res, err := ca.Call(context.TODO(),
    // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
    "/v2/dataprocessing",
    // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action 
    "CreateTextAugmentTask",
    // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
    map[string]interface{}{
      "taskName": "增强任务示例xxx",
      "srcDatasetVersionId": "ds-xxx",
      "dstDatasetVersionId": "ds-xxx",
      "promptModel": "deepseek-v3",
      "promptContext": "描述xxx",
      "promptIteration": map[string]any{
        "enable": true,
        "maxIterations": 3
      },
      "similarityThreshold": 0.85,
      "promptEvol": map[string]any{
        "genType": 200,
        "genWord": 100
      }
   })
    if err != nil {
        panic(err)
    }
    fmt.Println(string(res.Body))
    
}
import com.baidubce.qianfan.Qianfan;
import com.baidubce.qianfan.model.console.ConsoleResponse;
import com.baidubce.qianfan.util.CollUtils;
import com.baidubce.qianfan.util.Json;
import java.util.Map;

public class Dome {
    public static void main(String args[]){
        // 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
        Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
        
        ConsoleResponse<Map<String, Object>> response = qianfan.console()
                // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
                .route("/v2/dataprocessing")
                // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action 
                .action("CreateTextAugmentTask")
                // 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
                // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
                // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
                .body(CollUtils.mapOf(
                  "taskName","增强任务示例xxx",
                  "srcDatasetVersionId","ds-xxx",
                  "dstDatasetVersionId","ds-xxx",
                  "promptModel","deepseek-v3",
                  "promptContext","描述xxx",
                  "promptIteration",CollUtils.mapOf(
                    "enable",true,
                    "maxIterations",3
                  ),
                  "similarityThreshold",0.85,
                  "promptEvol",CollUtils.mapOf(
                    "genType",200,
                    "genWord",100
                  )
                ))
                .execute();

        System.out.println(Json.serialize(response));
    }
}
import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";

// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');

async function main() {

  //base_api_route:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
  //action:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action 
  //data:请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数

  const res = await consoleAction({base_api_route: '/v2/dataprocessing', action: 'CreateTextAugmentTask', data: {
      "taskName": "增强任务示例xxx",
      "srcDatasetVersionId": "ds-xxx",
      "dstDatasetVersionId": "ds-xxx",
      "promptModel": "deepseek-v3",
      "promptContext": "描述xxx",
      "promptIteration": {
        "enable": true,
        "maxIterations": 3
      },
      "similarityThreshold": 0.85,
      "promptEvol": {
        "genType": 200,
        "genWord": 100
      }
    }
  });    
    
  console.log(res);
}

main();

返回示例

{
    "requestId": "787f0901-9999-4c84-69e1-03c97779bf76",
    "result": {
        "enhanceTaskId": "task-xxx"
    }
}
{
    "requestId": "787f0901-9999-4c84-69e1-03c97779bf76",
    "result": {
        "enhanceTaskId": "task-xxx"
    }
}
{
    "requestId": "787f0901-9999-4c84-69e1-03c97779bf76",
    "result": {
        "enhanceTaskId": "task-xxx"
    }
}
{
    requestId: '787f0901-9999-4c84-69e1-03c97779bf76',
    result: {
        enhanceTaskId: 'task-xxx'
    }
}

请求参数

名称 类型 必填 描述
taskName string 增强任务名称
srcDatasetVersionId string 增强前的源数据集版本ID
dstDatasetVersionId string 增强后的目标数据集版本ID
promptModel string 用于Prompt生成的模型ID,说明:
(1)预置服务,可选值参考支持模型列表
(2)平台训练模型,可以通过查看服务地址获取该字段值,详情请查看新手指南-平台使用快速开始:model值为在创建服务时对应的API地址,如下图所示:
image.png
promptContext string Prompt生成的业务场景描述参数,说明:
(1)在增强过程中,此描述会作为业务场景信息拼接至增强指令,填写该参数有助于生成与业务需求精准适配的Prompt
(2)建议采用【行业+业务+目标问题】的结构描述,示例如下:
· “家电行业,业务为智能洗碗机制造,产品功能缺陷和使用体验问题引发的客户投诉”
· “在线教育,业务为K12编程培训APP,家长对课程质量的质疑与退费诉求”
promptEvol Object Prompt生成进化增强方向的字典,说明:
(1)至少需要填写一个增强方向,且生成样本数大于0
(2)示例格式:{"genType": 100, "genWord": 200}
promptIteration Object 迭代增强的选项,说明:默认不传关闭
similarityThreshold Double 过滤相似度阈值,说明:
· 不传该参数,则不会进行去重过滤
· 只有生成样本的ROUGE-L小于阈值的样本才会添加到种子池,阈值越低,样本重复概率越低
· 取值范围:[0.5, 1]

promptEvol说明

名称 类型 必填 描述
genType int 同类泛化生成样本数,说明:
(1)同类泛化:问题类型不变,变换发生的场景和情境
(2)取值范围[1,1000]
genWord int 同义泛化生成样本数,说明:
(1)同义泛化:语义不变,调整词汇、句式、语气等表达方式
(2)取值范围[1,1000]
addConst int 增加约束生成样本数,说明:
(1)增加约束:针对问题,增加时间、顺序、范围等若干约束条件
(2)取值范围[1,1000]
transScene int 复杂场景变换生成样本数,说明:
(1)复杂场景变换:基于相似的问题,引入更加具体、复杂的生活场景或行业背景
(2)取值范围[1,1000]
transFocus int 考察方向变换生成样本数,说明:
(1)考察方向变换:基于相同的背景信息,变换提问方式、考察方向、考察范围等
(2)取值范围[1,1000]
transCtx int 前提条件变换生成样本数,说明:
(1)前提条件变换:基于相似的问题,改变前提条件的取值范围、关键信息、逻辑关系等
(2)取值范围[1,1000]

promptIteration说明

名称 类型 必填 描述
enable boolean 是否开启迭代增强功能,默认false,说明:
如果关闭迭代增强,最小迭代次数和最大迭代次数都不会返回
maxIterations Int 最大迭代次数,说明:
(1)enable为true时,该参数生效且必填
(2)取值范围:[1, 10]

返回参数

名称 类型 描述
requestId string 请求ID,可用于排查问题
result object 请求结果,请求成功时返回
code string 错误码,错误时返回
message string 错误信息,请求失败时返回

result说明

名称 类型 说明
enhanceTaskId string 创建的数据增强任务ID
上一篇
数据集管理
下一篇
获取增强任务列表