资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据清洗

  • 数据清洗是自然语言处理中非常典型的操作,如去除emoji表情、去除URL、繁体转简体、大写转小写等。数据清洗工作做得好有时候能显著提升模型效果。
  • 为此,文心提供了一个数据清洗小工具,方便用户使用。

进入目录

  • 首先进入数据清洗工具路径:wenxin/wenxin/data/data_cleaning/ 。
cd ./wenxin/wenxin/data/data_cleaning/

代码结构说明

.                                                      
├── data_cleaning.py     # 数据清洗工具
├── file_encoding.py     # 文件编码格式转换工具
├── input.txt            # demo文本
└── install_env.sh       # 环境准备

准备环境

  • 对于第一次使用该工具的用户,需要先准备一下环境。
sh install_env.sh

使用工具

  • 直接通过Python脚本及其命令行参数就可以进行数据清洗。
# 同时实现大小转小写、繁体转简体、去除emoji表情、去除URL功能
python data_cleaning.py -i input.txt -o output.txt --to_lower --trad_to_simp --remove_emoji --remove_url
  • 通过选择不同的参数可以选不同的数据清洗方式。详细参数说明如下:
usage: data_cleaning.py [-h] [-i INPUT] [-o OUTPUT] [-l] [-t2s] [-re] [-ru]
 
main
 
optional arguments:
  -h, --help            show this help message and exit
  -i INPUT, --input INPUT  # 输入数据文件
  -o OUTPUT, --output OUTPUT  #输出数据文件
  -l, --to_lower  # 转小写
  -t2s, --trad_to_simp  # 繁体转简体
  -re, --remove_emoji   # 去除emoji表情
  -ru, --remove_url     # 删除URL
上一篇
文本编码识别与转换
下一篇
进阶指南