文本数据清洗
更新时间:2021-02-02
您可以使用平台提供的数据清洗功能对文本数据集进行清洗。当您的文本数据中存在emoji(表情等符号),大量的url时,您可以使用该数据清洗的功能去除。您也可以试用该功能将文本数据中的繁体字转为简体字。需要注意的是,文本数据清洗功能仅支持未标注数据的清洗。您可以参考以下步骤完成文本数据的清洗。
1、创建清洗任务
点击左侧导航栏中的【清洗任务管理】,可进入清洗任务管理页面,点击【新建清洗任务】即可跳转到创建页面,清洗方式选择【文本数据清洗】。
2、选择数据集版本
为保证清洗任务顺利进行: 当您的清洗前后数据集版本为两个数据集时,两个数据集版本均会为您保留;在清洗前选择数据集及版本号,清洗后数据集的名称您可以选择和清洗前保持一致,新增该数据集版本号,也可以创建新的数据集名称,版本号为V1。在选择数据集版本时您需要注意以下几点:
- 清洗前的数据集需为非空且未标注的数据集;
- 目前本系统不支持清洗前后的数据集版本相同;您可以新建清洗后的数据集版本;
- 清洗后数据集版本标注信息需与清洗前保持一致;
- 清洗后数据集的名称可以和清洗前不同
3、选择数据集清洗方式
文本数据的清洗方式目前仅支持通用清洗方案,共有三种,根据您清洗文本数据的需要,您可同时选择1到多种清洗方式(最多可添加3种清洗方式),以下分别对三种清洗方式进行具体介绍。
- 去除emoji:是指去掉清洗前文本中的表情等符号
- 去除url:是指去掉文本数据中的网页链接
- 繁体转简体:是指讲文本中繁体字转为简体字,通常情况下在使用简体字可以取得更好的模型效果。
4、清洗任务管理
在完成以上步骤后,点击提交,即可完成清洗任务的创建,并返回清洗任务管理页面。
- 任务概览 通过列表页展示任务如下字段:任务序号、清洗类型、开始时间、清洗方式、清洗前后数据集版本、清洗状态、操作。如您在清洗状态为正在清洗中时,想结束清洗任务,您可以点击终止任务。
- 查看详情 点击查看任务详情可看到清洗的结果,如在本文的实例中试用的数据集已去除1个有emoji的样本,说明清洗前文本数据中有一个样本包含emoji,目前已将该样本中emoji去除。点击清洗后数据集即可查看清洗后数据的详细内容。需要注意的是,文本数据清洗后默认了数据去重策略,如您的数据中存在样本重复的情况,将自动去重。