数据清洗
更新时间:2021-05-13
- 数据清洗是自然语言处理中非常典型的操作,如去除emoji表情、去除URL、繁体转简体、大写转小写等。数据清洗工作做得好有时候能显著提升模型效果。
- 为此,文心提供了一个数据清洗小工具,方便用户使用。
进入目录
- 首先进入数据清洗工具路径:wenxin/wenxin/data/data_cleaning/ 。
cd ./wenxin/wenxin/data/data_cleaning/
代码结构说明
.
├── data_cleaning.py # 数据清洗工具
├── file_encoding.py # 文件编码格式转换工具
├── input.txt # demo文本
└── install_env.sh # 环境准备
准备环境
- 对于第一次使用该工具的用户,需要先准备一下环境。
sh install_env.sh
使用工具
- 直接通过Python脚本及其命令行参数就可以进行数据清洗。
# 同时实现大小转小写、繁体转简体、去除emoji表情、去除URL功能
python data_cleaning.py -i input.txt -o output.txt --to_lower --trad_to_simp --remove_emoji --remove_url
- 通过选择不同的参数可以选不同的数据清洗方式。详细参数说明如下:
usage: data_cleaning.py [-h] [-i INPUT] [-o OUTPUT] [-l] [-t2s] [-re] [-ru]
main
optional arguments:
-h, --help show this help message and exit
-i INPUT, --input INPUT # 输入数据文件
-o OUTPUT, --output OUTPUT #输出数据文件
-l, --to_lower # 转小写
-t2s, --trad_to_simp # 繁体转简体
-re, --remove_emoji # 去除emoji表情
-ru, --remove_url # 删除URL