资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本编码识别与转换

简介

  • 文本编码问题是自然语言处理中常见的问题。文心统一使用utf-8作为文本编码。
  • 而中文编码另一种常见的编码为gb18030。为此,文心提供了一个轻便的文本编码识别与转换小工具,方便用户使用。

进入目录

  • 首先进入工具路径:wenxin/wenxin/data/data_cleaning/ 。
cd ./wenxin/wenxin/data/data_cleaning/

代码结构说明

.                                                      
├── data_cleaning.py     # 数据清洗工具
├── file_encoding.py     # 文件编码格式转换工具
├── input.txt            # demo文本
└── install_env.sh       # 环境准备

使用工具

  • 识别输入文本的编码格式:
# -i 指定输入文件路径
python file_encoding.py -i input_file
  • 如果文本编码是gb18030,可以通过以下命令将gb18030的文本转成utf8。如果输入文本不是gb18030格式的,直接报错返回。
python file_encoding.py -i input_file -o output_file --gb18030_to_utf8
# 或者
python file_encoding.py -i input_file -o output_file -g2u
  • 文心的输出文本也是utf-8,需要转换为gb18030,可采用以下命令。如果输入文本不是utf8格式的,直接报错返回:
python file_encoding.py -i input_file -o output_file --utf8_to_gb18030
# 或者
python file_encoding.py -i input_file -o output_file -u2g
上一篇
文心数据格式校验工具
下一篇
数据清洗