资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本数据导入

导入文本分类无标注数据

进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以在导入数据中,数据标注状态选择“无标注信息”。

平台提供两种方式导入数据,一种是从「本地上传」,一种是从「线上已有数据集」

在「本地上传」数据过程中需要注意以下几点:

  • 可支持单个txt文本文件上传或将多个文本文件以压缩包的方式统一上传
  • 上传过程中存在文本内容完全一样的样本,将会做去重处理
  • 文本文件类型为txt,单次上传限制100个文本文件
  • 单个文本大小限制在4M以内,文本文件大小限制长度最大4096个UTF-8字符
  • 单个数据集大小限制为10万文本文件,超出后会被忽略

「线上已有数据集」导入时,平台将筛选出同为「文本分类」的数据集以供挑选。

单个文本的样例,请见下图:

image.png

导入短文本匹配无标注数据

进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以在导入数据中,数据标注状态选择“无标注信息”。

image.png

平台提供两种方式导入数据,一种是从「本地上传」,一种是从「线上已有数据集」

从「本地上传」数据过程中需要注意以下几点:

以文本文件上传时:

  1. 支持上传文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件,单个数据集大小限制为10万条数据, 超出后会被平台忽略
  2. 短文本匹配的数据格式要求为“文本内容1\t文本内容2 \n”,一行表示一组数据,每组数据字符数建议不超过512个,可上传多个文本文件

关于文本数据的样例,如下图:

image.png

以压缩包方式上传时:

  1. 压缩包格式为.zip格式,单个压缩包限制5G以内
  2. 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\n”,一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过512个
  3. 单个文本文件大小限制在4M内,文本文件大小限制长度最大4096 UTF-8字符

「线上已有数据集」导入时,平台将筛选出同为「短文本匹配」的数据集以供挑选。

导入文本分类有标注数据

如果您手中的数据为已经标注好的数据,可以选择数据标注状态为“有标注信息”。平台提供两种方式导入数据,一种是从本地上传,一种是从「线上已有数据集」导入

image.png

已标注数据,需要以压缩包的形式进行上传,同时需要参考如下要求:

  • 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内
  • 压缩包内需要包括单个文本文件(txt)及同名的json格式标注文件
  • 文本文件大小限制长度最大4096个UTF-8字符。单个数据集大小限制为10万文本文件量,超出后将被忽略

压缩包的样例如下:

导入成功后,便可以在已标注数据空间中,查看数据。

导入短文本匹配有标注数据

如果您手中的数据为已经标注好的数据,可以选择数据标注状态为“有标注信息”。平台提供两种方式导入数据,一种是从本地上传,一种是从「线上已有数据集」导入

在本地上传时,仅支持压缩包的方式上传,您可以根据上传文件的弹窗提示来准备上传的文件,具体详细要求如下:

  1. 压缩包格式为.zip格式,单个压缩包限制5G以内
  2. 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过512个
  3. 单个文本文件大小限制在4M内,文本文件大小限制长度最大4096 UTF-8字符

导入成功后,便可以在已标注数据空间中,查看数据。

导入文本实体抽取无标注数据

选择数据类型为“文本”,标注类型选择“文本实体抽取”,标注模板中使用默认选项”文本实体抽取“。

如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”。平台暂不支持上传有标注信息的文本实体抽取数据。

本地上传,包括三种上传方式,分别为「上传TXT文本」、「上传压缩包」、「上传Excel」;

通过文本上传时,需注意:

文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过4096个字符(约2000个字),超出将被截断

文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

通过压缩包上传时,需注意:

压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

每组数据的数建议不超过4096个字符(约2000个字),超出将被截断

通过Excel文件上传时,需注意:

Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过4096个字符(约2000个字),超出将被截断

文件格式支持xlsx格式,单次可上传100个文件

文本实体抽取去重策略

一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

以下3条都是文本实体抽取任务的重复样本,样本示例如下:

文本内容 实体类别 今天北京的空气不错 北京:loc 今天北京的空气不错 今天:date 今天北京的空气不错 北京:local 上述两个表中,都代表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。

Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。

上一篇
图片数据导入
下一篇
音频数据导入