资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

文本实体抽取数据导入

1. 创建数据集

您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,选择数据类型为“文本”,标注类型选择“文本实体抽取”。标注模板中使用默认选项”文本实体抽取“。

img

2.导入未标注文本数据

进入到新创建的文本实体抽取数据集中。如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”。平台暂不支持上传有标注信息的数据。

img

本地上传,包括三种上传方式,分别为「上传TXT文本」、「上传压缩包」、「上传Excel」;

通过文本上传时,需注意:

文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过10000个字符(约5000个字),超出将被截断

文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

通过压缩包上传时,需注意:

压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

每组数据的数建议不超过10000个字符(约5000个字),超出将被截断

通过Excel文件上传时,需注意:

Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过10000个字符(约5000个字),超出将被截断

文件格式支持xlsx格式,单次可上传100个文件

上一篇
序列标注数据
下一篇
数据标注