资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

进阶任务:数据增强文本分类

简介

深度学习需要大量的标记数据,来获得一个很好的效果。然而,在很多情况下,尤其是在为特定应用开发文本分类功能时,带标签的数据往往是稀缺且昂贵的。为此,文心提供了常用数据增强策略对数据样本进行扩充,然后再进行文本分类的运行代码示例。

开始使用

数据增强文本分类任务位于wenxin/tasks/text_classification目录

cd wenxin/tasks/text_classification

运行脚本文件

sh run_with_data_aug.sh

脚本文件步骤说明:

# 进入文心数据处理目录
cd ../../wenxin/data/ || exit
# 执行数据增强,具体参数配置可参考数据策略-数据增强部分
python data_aug/data_aug.py ../../tasks/text_classification/data/train_data ../../tasks/text_classification/data/train_data_aug
# 打乱增强后的数据
cd ../../tasks/text_classification/data/train_data_aug || exit
for file in ./*; do
  shuf $file -o $file
done
cd ../../
# 训练模型,配置文件可参考cls_ernie_2.0_base_cnn_ch_with_data_aug.json
python run_with_json.py --param_path ./examples/cls_ernie_2.0_base_cnn_ch_with_data_aug.json
exit 0
上一篇
进阶任务:小样本文本分类
下一篇
文本匹配任务