文本编码识别与转换
更新时间:2021-05-13
简介
- 文本编码问题是自然语言处理中常见的问题。文心统一使用utf-8作为文本编码。
- 而中文编码另一种常见的编码为gb18030。为此,文心提供了一个轻便的文本编码识别与转换小工具,方便用户使用。
进入目录
- 首先进入工具路径:wenxin/wenxin/data/data_cleaning/ 。
cd ./wenxin/wenxin/data/data_cleaning/
代码结构说明
.
├── data_cleaning.py # 数据清洗工具
├── file_encoding.py # 文件编码格式转换工具
├── input.txt # demo文本
└── install_env.sh # 环境准备
使用工具
- 识别输入文本的编码格式:
# -i 指定输入文件路径
python file_encoding.py -i input_file
- 如果文本编码是gb18030,可以通过以下命令将gb18030的文本转成utf8。如果输入文本不是gb18030格式的,直接报错返回。
python file_encoding.py -i input_file -o output_file --gb18030_to_utf8
# 或者
python file_encoding.py -i input_file -o output_file -g2u
- 文心的输出文本也是utf-8,需要转换为gb18030,可采用以下命令。如果输入文本不是utf8格式的,直接报错返回:
python file_encoding.py -i input_file -o output_file --utf8_to_gb18030
# 或者
python file_encoding.py -i input_file -o output_file -u2g