资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本分类数据导入与标注

1. 创建数据集

您可以在左侧目录导航栏中选择【数据总览】并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“文本分类”,当前的文本分类的数据标注模板默认为单文本单标签格式。

image.png

2.导入未标注文本数据

进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以导入“未标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是已有数据集导入

image.png

通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

通过文本上传时,需注意:

  1. 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过512个,超出将被截断
  2. 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

相关的数据样例可在上传窗口内下载数据样例查看

通过压缩包上传时,需注意:

  1. 压缩包内的一个文本文件将作为一个样本上传
  2. 压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8

相关的数据样例可在上传窗口内下载数据样例查看

API导入时,可参考文档

文本标注

  1. 上传未标注文本后,进入到标注页面,您可以逐一查看每一篇未标注的文本,如下图:

image.png

  1. 设定分类对应的标签

  1. 创建标签后,即可以进行对文本的标注,在文本的上方标签字段处,会显示对应的分类标签,完成标注

image.png

3.导入已标注文本数据

如果您手中的数据为已经标注好的数据,可以导入到“已标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是从线上已有数据集导入。

通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

通过文本上传时,需注意:

  1. 文本分类的标注数据格式要求为"文本内容\t标注标签\n"(即每行一个未标注样本与一个标注标签,中间使用tab键间隔,每组数据使用回车换行),详见数据样例每一行表示一组数据,每组数据字符数不超过512个,超出将被截断
  2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件

相关的数据样例可在上传窗口内下载数据样例查看

通过压缩包上传时,需注意:

  1. 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内,文件编码仅支持UTF-8
  2. 压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

相关的数据样例可在上传窗口内下载数据样例查看

image.png

API导入时,可参考文档进行上传

上一篇
管理视觉数据
下一篇
数据标注说明