文本编码识别与转换

更新时间：2021-05-13

简介

文本编码问题是自然语言处理中常见的问题。文心统一使用utf-8作为文本编码。
而中文编码另一种常见的编码为gb18030。为此，文心提供了一个轻便的文本编码识别与转换小工具，方便用户使用。

进入目录

首先进入工具路径：wenxin/wenxin/data/data_cleaning/ 。

cd ./wenxin/wenxin/data/data_cleaning/

代码结构说明

.                                                      
├── data_cleaning.py     # 数据清洗工具
├── file_encoding.py     # 文件编码格式转换工具
├── input.txt            # demo文本
└── install_env.sh       # 环境准备

使用工具

识别输入文本的编码格式:

# -i 指定输入文件路径
python file_encoding.py -i input_file

如果文本编码是gb18030，可以通过以下命令将gb18030的文本转成utf8。如果输入文本不是gb18030格式的，直接报错返回。

python file_encoding.py -i input_file -o output_file --gb18030_to_utf8
# 或者
python file_encoding.py -i input_file -o output_file -g2u

文心的输出文本也是utf-8，需要转换为gb18030，可采用以下命令。如果输入文本不是utf8格式的，直接报错返回：

python file_encoding.py -i input_file -o output_file --utf8_to_gb18030
# 或者
python file_encoding.py -i input_file -o output_file -u2g

文心数据格式校验工具

数据清洗