进阶任务：数据增强文本分类

更新时间：2021-06-02

简介

深度学习需要大量的标记数据，来获得一个很好的效果。然而，在很多情况下，尤其是在为特定应用开发文本分类功能时，带标签的数据往往是稀缺且昂贵的。为此，文心提供了常用数据增强策略对数据样本进行扩充，然后再进行文本分类的运行代码示例。

开始使用

数据增强文本分类任务位于wenxin/tasks/text_classification目录

cd wenxin/tasks/text_classification

运行脚本文件

sh run_with_data_aug.sh

脚本文件步骤说明：

# 进入文心数据处理目录
cd ../../wenxin/data/ || exit
# 执行数据增强，具体参数配置可参考数据策略-数据增强部分
python data_aug/data_aug.py ../../tasks/text_classification/data/train_data ../../tasks/text_classification/data/train_data_aug
# 打乱增强后的数据
cd ../../tasks/text_classification/data/train_data_aug || exit
for file in ./*; do
  shuf $file -o $file
done
cd ../../
# 训练模型，配置文件可参考cls_ernie_2.0_base_cnn_ch_with_data_aug.json
python run_with_json.py --param_path ./examples/cls_ernie_2.0_base_cnn_ch_with_data_aug.json
exit 0

进阶任务：小样本文本分类

文本匹配任务