资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据增强

什么是数据增强?

在大模型训练中,训练数据的样本量和多样性直接影响模型的表现和泛化能力。在一些垂类场景应用中,受限于成本过高、隐私保护和领域数据稀缺等因素,获取数量充足且质量优良的训练数据往往很难。这种情况下,可以通过数据增强(Data Augmentation)的方式,对已有数据进行一定程度的扩充和丰富。其核心目的是在原始数据量有限或质量不足时,通过创造多样化的“新”数据,提升模型的泛化能力、鲁棒性和性能。

数据增强是指通过对已有的种子数据施加特定的变换、扰动或生成策略,创造出一系列内容合理、语义和风格保持一致但形式多样的增强数据。通过这种方式扩大训练数据规模,增强训练数据的多样性,引导模型在训练中学习到更丰富的语言模式与语义变体,从而降低过拟合风险,增强模型在真实场景中的泛化能力。

本平台支持对文本数据集进行灵活的增强操作,支持分步生成多样化的Prompt和高质量的Response训练数据,改善模型训练效果。

数据增强适用场景

1. 数据量不足或标注成本高

小样本学习:当训练数据量极少时,数据增强可快速便捷生成大量样本,缓解数据稀缺问题。 标注成本敏感:在需要大量标注数据的任务中,通过自动批量生成Response可减少人工标注数据需求。

2. 数据类别不平衡

在实验过程中发现,数据类别分布与测试集及真实线上数据分布的匹配度往往比数据量更重要。

长尾分布问题:理想情况下,训练集数据分布比例应当与测试集数据分布相符。当某些类别样本极少时,通过定向采样该类别的数据进行增强,可以生成合成样本、平衡数据分布。 异常检测:在欺诈检测、故障诊断等任务中,通过增强异常样本,提升模型对边界情况的识别能力。

3. 提升模型泛化能力

过拟合问题:当模型在训练集表现好但测试集效果差时,通过数据增强增加数据多样性,帮助模型学习更通用的特征。 跨领域适配:在领域迁移任务中,通过模拟不同环境的数据增强,提升模型鲁棒性。

4. 垂直领域数据合规性要求高

隐私保护:在医疗、金融等领域,通过数据增强生成脱敏的合成数据,满足数据隐私法规。 领域特异性增强:针对专业领域,通过领域知识指导的增强策略(如术语替换),生成符合业务逻辑的合成数据。

数据增强实战

创建数据增强任务

在数据洞察与处理-数据增强页面中,选择“创建任务”。

创建任务.png

具体操作流程如下:

1. 上传数据集

  • 进入通用数据集页面,点击创建数据集:请填写数据集名称,选择“文本生成 - 有监督微调SFT”数据用途,数据格式可选择Prompt+Response或Role(user+assistant)。接着,您可发起数据上传并指定目标存储位置。
  • 请上传用户原始输入Query数据集,无需提前进行标注,建议增强前数据集不要拼接提示词模板。

创建完成后您可在数据增强创建任务页面选择上传的数据集。

  • 处理前数据集:指定增强前的源数据。
  • 处理后数据集:用于存储增强后的数据。

基本信息.png

注意事项

  1. 处理前数据集将在增强任务中作为种子数据,为保证增强效果,请确保该数据集中包含至少20条单轮对话样本,且数据质量符合您的业务场景要求。
  2. 如您需要将多轮对话样本用于增强,可以通过数据洞察将想要作为增强种子的Prompt另存至新的数据集;或利用提示词模板拼接,将需要的字段进行组合拼接,调整为单轮样本后再作为处理前数据集。

2. Prompt生成

prompt生成.png

选择服务

该模型服务将用于数据增强生成Prompt,支持选择预置的海量大模型(包括ERNIE、DeepSeek等系列模型)以及用户精调后模型,具体计费规则参考文本生成模型按量后付费

场景介绍

建议您采用【行业 + 业务 + 目标问题】的结构对业务场景进行描述。此描述会在增强过程中作为背景信息,有助于生成与业务需求精准适配的Prompt。

场景介绍
示例1 家电行业,业务为智能洗碗机制造,产品功能缺陷和使用体验问题引发的客户投诉
示例2 舆情监测行业,情感分析任务中需要进行情感色彩监测的文章、社媒观点或网友评论等
增强方向

平台提供同类泛化、增加约束等多种预置增强方向,且支持自定义增强方向。同时,您可以指定在每个方向上的生成样本数(0-1000,0为跳过该方向),建议单个方向生成数量不超过种子数据量的 4 倍。

增强方向.png

增强方向说明和示例如下:

增强类型 说明 示例1 示例2
同类泛化 保持问题类型(核心解决逻辑/方法)不变,但改变具体的情境、对象、数字或问题的具体“结果/目标”。
让模型掌握解决某一类问题的通用方法,并能将其迁移应用到该类问题下的各种具体变体中,提升模型的泛化能力和场景适应能力。
原始Prompt:
一堂语文课,小B比小C先到,小D比小A先到,小D比小B晚到;则他们四个人谁第一个到? A.小A B.小B C.小C D.小D (核心逻辑:先后顺序判断)
增强生成Prompt:
在一次公司会议上,张经理比李经理早到,王总比赵总早到,王总比张经理晚到;那么他们四个人中谁第一个到? A.赵总 B.张经理 C.李经理 D.王总 (逻辑不变:多人到达先后顺序判断,变换人物/情境)
原始Prompt:
小明在超市买了3个苹果,每个苹果2元,他一共花了多少钱? (核心逻辑:单价 x 数量 = 总价)
增强生成Prompt:
小红在网上书店买了5本相同的书,每本书售价30元,她需要支付的总金额是多少? (逻辑不变:单价 x 数量 = 总价,变换人物/物品/数字)
同义泛化 只改变语言表述方式,保持语义不变。
让模型理解问题的本质含义,而不被特定的词汇、句式、语气或表达风格所束缚,提升模型对语言多样性的鲁棒性。
原始Prompt:
如果a>b,那么a+c> b+c 是否正确?
增强生成Prompt:
假设有两个数a和b,且a大于b。在这种情况下,表达式 a+c 是否会大于b+c?(内容扩充)
原始Prompt:
计算圆的面积,已知半径 r=5cm。

增强生成Prompt:
已知一个圆的半径是5厘米,请求出它的面积是多少? (词汇替换)
增加约束 在原始问题的基础上,额外添加一些条件或限制。
比如加上时间要求(“在3天内完成”)、顺序要求(“先做A再做B”)、范围限制(“只考虑北方城市”)、数量限制(“最多选3个”)等。这会让问题变得更具体、更有挑战性,训练模型处理更精细的指令。
原始Prompt:
相邻两个面是正方形的长方体,一定是正方体是对的吗?
增强生成Prompt :
如果一个由木材制成的长方体,其相邻两个面是正方形,那么这个长方体一定是正方体吗?
原始Prompt:
推荐几部好看的科幻电影。

增强生成Prompt:
按照上映时间从早到晚,推荐三部豆瓣评分8.5分以上的经典科幻电影。 (顺序/范围约束)
复杂场景变换 把原始问题移植到一个更具体、更细节化或者不同行业背景的真实生活或工作场景中。
比如把简单的数学应用题变成电商运营中的库存计算,或者把基础逻辑推理变成医疗诊断中的步骤分析。增加复杂场景,有助于让模型适应更贴近实际应用的复杂环境。
原始Prompt:
三个同学比身高。 甲说:我比乙高; 乙说:我比丙矮; 丙:说我比甲高。 ( )最高,( )最矮
增强生成Prompt:
三个篮球队员候选人比身高以选拔中锋。甲说:我比乙更适合打中锋,因为我比他高;乙说:丙比我更适合,他比我高;丙:说我比甲更适合中锋位置,因为我身高占优势。 ( )最适合打中锋,( )身高最不符合要求
原始Prompt:
有100个产品,合格率是95%,有多少个不合格?
增强生成Prompt:
某电商仓库入库了1000件商品,质检发现次品率是2.5%。考虑到运输损耗预计还有1%的额外损坏,仓库实际能用于销售的正品最少有多少件?
考察方向变换 基于相同或相似的背景信息,改变提问的角度、侧重点或范围。
原来问原因,现在问结果;原来问整体,现在问局部;原来问优点,现在问缺点。可以训练模型从不同视角理解和分析信息。
原始Prompt :
陈玉可是陈秋墨的姐姐,那陈秋墨是陈玉可的什么呢?
增强生成Prompt:
如果陈玉可比陈秋墨大两岁,那么在兄弟姐妹的年龄顺序中,陈秋墨排在第几,假设他们只有两个人?
原始Prompt :
分析一下公司Q3销售额增长20%的主要原因可能是什么?
增强生成Prompt:
根据公司Q3销售额增长20%这一情况,预测一下Q4的营销预算可能会如何调整
前提条件变换 改变原始问题所依赖的基础条件或关键信息。
比如把数字的范围改了(年龄从“18-35岁”变成“40岁以上”),把逻辑关系反了(“如果A则B”变成“如果不A则B”),或者把某个关键事实替换了。有助于提高模型在信息发生变化时的推理和适应能力。
原始Prompt :
大盘跳水了,我急着想问策略,结果等了半天没人说话!
增强生成Prompt:
市场突然大涨了,我满心期待想分享喜悦,结果等了半天没人回应!
原始Prompt :
张三,25岁,月收入8000元,工作2年,他能申请到个人消费贷款吗?为什么?
增强生成Prompt:
李四,62岁,退休金每月6000元,他能申请到个人消费贷款吗?为什么?

注意:不同业务场景适用的增强方向不同。如果不确定您的场景应该选择哪些方向,建议您基于单个增强方向生成少量样本,然后观察生成结果判断是否符合您的需求。

您也可以增加自定义增强方向,比如定向生成某个类别的样本时可能更适合适用自定义增强方向,说明如下:

自定义增强方向

根据定制化需求自行编写增强Prompt,同一个任务最多增加10个自定义方向。

自定义增强方向1.png

示例:在情感分析任务中,发现情感色彩为“中性”的样本数量不足,因此,可以添加一个指定生成中性情感色彩样本的增强Prompt。

自定义增强—情感分析.png

迭代增强

启用迭代增强策略后,每条原始种子样本将历经数轮迭代过程。在每一轮迭代中,系统会随机选取一个您所指定的增强方向,据此生成新样本,逐步提升提示词复杂度。

迭代轮次范围默认为1-5,可设定最大值为10。

使用建议:

  1. 在种子样本数较少、且对提示词丰富性、多样性和复杂性要求比较高的时候,建议开启迭代增强功能。
  2. 当开启迭代增强时,建议确保使用的每个增强方向都适配该任务场景,您可分别单独测试准备使用的增强方向生成效果是否满意。
去重过滤

设定过滤相似度阈值后,生成指令的ROUGE-L相似度小于阈值的样本才会被采纳,重复样本将会被直接过滤

阈值越低,样本重复概率越低,但过滤掉的样本数量增多,可能会造成增强后数据样本留存量较少,建议按需谨慎调整。

过滤相似度设置范围为0.5-1。

3. Prompt筛选优化

prompt筛选优化——码.png

数据增强的样本可用率可达到90%以上,但为保证训练效果,仍需要对数据集进行人工审核及筛选过滤。建议您在任务完成后,对增强结果进行洞察,并挑选满意的样本保存至训练数据集中。

针对增强生成的Prompt可能存在部分低质样本(如语义偏离、格式错误等),数据洞察提供多种数据指标帮助您快速定位可疑项,减少人工逐条筛查成本,提效人工审查流程。

具体步骤如下:

Step 1: 数据洞察筛选 → 定位问题样本,借助筛选器批量删除问题数据

增强结果中,问题数据往往会呈现一些规律,比如:字符数或特殊字符率极高/极低,或包含某些特定字符串。洞察工作台支持从字符数、特殊字符率等多个维度洞察数据,且支持排序及设置多条件/条件组筛选逻辑,可以帮助您批量删除问题数据,详情见数据洞察

prompt洞察1.png

筛选1.png 筛选2.png

选择根据条件筛选出的样本:

  • 您可以删除不符合条件的样本,支持一键全选和跨页选中。
  • 也可以根据数据洞察结果选择对应的数据选项另存至新的数据集。(注意:数据洞察不会影响原数据集,且长时间无操作会自动销毁,请及时将符合要求的样本另存至数据集)

另存.png

Step 2: 确认优质样本 → 提示词模板拼接

在样本挑选完成后即可进行提示词模板拼接。对通过审查的样本,用提示词模板拼接标准化输出格式。

使用 {{ }} 设置变量,并在变量映射中选择对应的数据集字段,详情见提示词模版拼接帮助文档。比如在以下情感分析任务的示例中,query代指增强生成的样本,在query前后拼接提示词模板。

提示词模版拼接query.png

总之,在增强任务完成后,使用数据洞察功能有助于您快速定位增强结果中的问题,提供可视化界面为您精准聚焦字符数异常、特殊符号密集等问题,并提供批量优化功能提效人工审查流程,便于推进后续的Response生成步骤以及后续的模型精调/蒸馏。

4. Response生成

调用模型服务生成高质量的模型回答。为了确保增强质量,推荐您先进行Prompt生成,待确认Prompt可用后,再生成Response。 若您已经在上述步骤中完成Prompt生成,在这一环节只需要打开Response生成配置。

Response生成.png

增强样本范围

默认为仅无标注样本,您也可以根据需求选择全部样本(请注意:如果选择标注全部样本,原有的标注结果将会被覆盖)。

输出格式要求

支持文本、JSON Object、JSON Schema三种格式输出,默认为文本输出。当指定模型回答为JSON Schema格式时,需明确指定Schema中各变量的名称及其数据类型,否则可能出现不满足预期效果的情况。

JSON Schema 调用示例

{
    "model": "ernie-3.5-8k",
    "messages": [
        {
            "role": "user",
            "content": "您好,请帮我从以下自我介绍中提取个人信息:大家好,我叫李华,是一名资深的市场营销专家。在职业道路上,我始终秉持着创新与热情,致力于为企业打造独特的市场策略。性格上,我是一个开朗且富有团队精神的人。我相信,良好的沟通与合作是解决问题的关键。因此,无论是与同事还是客户,我都能够建立起良好的关系,共同推动项目的成功。谈及工作经历,我在市场营销领域积累了丰富的经验。曾在知名企业A担任市场经理,负责策划并执行了多个大型营销活动;在知名企业B担任公关经理,负责主要产品的市场宣传;均取得了显著的成绩。这些经历不仅锻炼了我的专业技能,更让我学会了如何在复杂多变的市场环境中寻找机遇,应对挑战。未来,我期待能够在新的平台上继续发挥我的专长,为企业创造更大的价值。谢谢大家!"
        }
    ],
    "response_format": {
        "type": "json_schema",
        "json_schema": {
            "name": "个人信息提取",
            "schema": {
                "type": "object",
                "properties": {
                    "职业": { "type": "string" },
                    "姓名": {"type": "string" },
                    "性格": {
                        "type": "array",
                        "items": { "type": "string" }
                    },
                    "工作经历": {
                        "type": "array",
                        "items": { "type": "string" }
                    }
                },
                "required": ["职业","姓名","性格","工作经历"]
            }
      }
    }
}

至此,数据增强全流程完成!

在数据增强完成后,建议您人工审核标注结果以及数据分布情况,确保数据质量及分布均满足要求,然后发起模型精调。

上一篇
提示词模板拼接
下一篇
数据清洗