进阶任务:数据增强文本分类
更新时间:2021-06-02
简介
深度学习需要大量的标记数据,来获得一个很好的效果。然而,在很多情况下,尤其是在为特定应用开发文本分类功能时,带标签的数据往往是稀缺且昂贵的。为此,文心提供了常用数据增强策略对数据样本进行扩充,然后再进行文本分类的运行代码示例。
开始使用
数据增强文本分类任务位于wenxin/tasks/text_classification目录
cd wenxin/tasks/text_classification运行脚本文件
sh run_with_data_aug.sh脚本文件步骤说明:
# 进入文心数据处理目录
cd ../../wenxin/data/ || exit
# 执行数据增强,具体参数配置可参考数据策略-数据增强部分
python data_aug/data_aug.py ../../tasks/text_classification/data/train_data ../../tasks/text_classification/data/train_data_aug
# 打乱增强后的数据
cd ../../tasks/text_classification/data/train_data_aug || exit
for file in ./*; do
shuf $file -o $file
done
cd ../../
# 训练模型,配置文件可参考cls_ernie_2.0_base_cnn_ch_with_data_aug.json
python run_with_json.py --param_path ./examples/cls_ernie_2.0_base_cnn_ch_with_data_aug.json
exit 0