资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本增强(不依赖模型)

策略简介

支持环境:py2.7+paddle1.7.1 / py3.7+paddle1.7.1

目前文心数据增强工具提供5种增强策略:

  1. 遮盖、删除、同词性词替换、词向量近义词替换、ERNIE语言模型替换
  2. 可通过入口参数配置各增强策略的概率比例,在数据的一次增强中使用多种增强策略,

依赖说明

模块 依赖 原理简介
unk no 随机mask
truncate no 随机删除
pos lac 同词性词替换,依赖LAC算子进行分词和词性标注
w2v lac, gensim, tqdm 词向量近义词替换
ernie lac, 动态ERNIE ERNIE语言模型替换:输入了带mask的文本,然后预测mask对应的词

其中,lac和动态ERNIE由文心框架提供下载脚本,gensim, tqdm需要用户自行通过pip install安装即可;

脚本接口参数说明

usage: data_aug.py [-h] [-n AUG_TIMES] [-c COLUMN_NUMBER] [-u UNK]
                   [-t TRUNCATE] [-r POS_REPLACE] [-w W2V_REPLACE]
                   [-e ERNIE_REPLACE] [--unk_token UNK_TOKEN]
                   input output
 
main
 
positional arguments:
  input
  output
 
optional arguments:
  -h, --help            show this help message and exit
  -n AUG_TIMES, --aug_times AUG_TIMES
  -c COLUMN_NUMBER, --column_number COLUMN_NUMBER
  -u UNK, --unk UNK
  -t TRUNCATE, --truncate TRUNCATE
  -r POS_REPLACE, --pos_replace POS_REPLACE
  -w W2V_REPLACE, --w2v_replace W2V_REPLACE
  -e ERNIE_REPLACE, --ernie_replace ERNIE_REPLACE
  --unk_token UNK_TOKEN

如上依次为,

  • input:原始待增强数据文件,带label的,一个或多个文本列
  • output:输出文件路径
  • 放大倍数n:放大n倍,output行数为input的n+1倍
  • 增强列序号:多列用逗号分割 eg: 1 or 1,2
  • 各增强策略概率,建议和为1

lac和动态ERNIE的预制模型下载方式

cd tasks/model_files/
# LAC预制模型下载

sh download_lac.sh
# 动态ERNIE的预制模型下载
sh download_data_aug_ernie.sh