文本数据导入
导入文本分类无标注数据
进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以在导入数据中,数据标注状态选择“无标注信息”。
平台提供两种方式导入数据,一种是从「本地上传」,一种是从「线上已有数据集」
在「本地上传」数据过程中需要注意以下几点:
- 可支持单个txt文本文件上传或将多个文本文件以压缩包的方式统一上传
- 上传过程中存在文本内容完全一样的样本,将会做去重处理
- 文本文件类型为txt,单次上传限制100个文本文件
- 单个文本大小限制在4M以内,文本文件大小限制长度最大4096个UTF-8字符
- 单个数据集大小限制为10万文本文件,超出后会被忽略
「线上已有数据集」导入时,平台将筛选出同为「文本分类」的数据集以供挑选。
单个文本的样例,请见下图:
导入短文本匹配无标注数据
进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以在导入数据中,数据标注状态选择“无标注信息”。
平台提供两种方式导入数据,一种是从「本地上传」,一种是从「线上已有数据集」
从「本地上传」数据过程中需要注意以下几点:
以文本文件上传时:
- 支持上传文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件,单个数据集大小限制为10万条数据, 超出后会被平台忽略
- 短文本匹配的数据格式要求为“文本内容1\t文本内容2 \n”,一行表示一组数据,每组数据字符数建议不超过512个,可上传多个文本文件
关于文本数据的样例,如下图:
以压缩包方式上传时:
- 压缩包格式为.zip格式,单个压缩包限制5G以内
- 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\n”,一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过512个
- 单个文本文件大小限制在4M内,文本文件大小限制长度最大4096 UTF-8字符
「线上已有数据集」导入时,平台将筛选出同为「短文本匹配」的数据集以供挑选。
导入文本分类有标注数据
如果您手中的数据为已经标注好的数据,可以选择数据标注状态为“有标注信息”。平台提供两种方式导入数据,一种是从本地上传,一种是从「线上已有数据集」导入
已标注数据,需要以压缩包的形式进行上传,同时需要参考如下要求:
- 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内
- 压缩包内需要包括单个文本文件(txt)及同名的json格式标注文件
- 文本文件大小限制长度最大4096个UTF-8字符。单个数据集大小限制为10万文本文件量,超出后将被忽略
压缩包的样例如下:
导入成功后,便可以在已标注数据空间中,查看数据。
导入短文本匹配有标注数据
如果您手中的数据为已经标注好的数据,可以选择数据标注状态为“有标注信息”。平台提供两种方式导入数据,一种是从本地上传,一种是从「线上已有数据集」导入
在本地上传时,仅支持压缩包的方式上传,您可以根据上传文件的弹窗提示来准备上传的文件,具体详细要求如下:
- 压缩包格式为.zip格式,单个压缩包限制5G以内
- 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过512个
- 单个文本文件大小限制在4M内,文本文件大小限制长度最大4096 UTF-8字符
导入成功后,便可以在已标注数据空间中,查看数据。
导入文本实体抽取无标注数据
选择数据类型为“文本”,标注类型选择“文本实体抽取”,标注模板中使用默认选项”文本实体抽取“。
如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”。平台暂不支持上传有标注信息的文本实体抽取数据。
本地上传,包括三种上传方式,分别为「上传TXT文本」、「上传压缩包」、「上传Excel」;
通过文本上传时,需注意:
文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过4096个字符(约2000个字),超出将被截断
文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件
通过压缩包上传时,需注意:
压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。
每组数据的数建议不超过4096个字符(约2000个字),超出将被截断
通过Excel文件上传时,需注意:
Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过4096个字符(约2000个字),超出将被截断
文件格式支持xlsx格式,单次可上传100个文件
文本实体抽取去重策略
一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
以下3条都是文本实体抽取任务的重复样本,样本示例如下:
文本内容 实体类别 今天北京的空气不错 北京:loc 今天北京的空气不错 今天:date 今天北京的空气不错 北京:local 上述两个表中,都代表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。
Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。