资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集并导入

1.创建数据集

  1. 选择【EasyDate数据服务】目录下数据总览,点击“创建数据集”。

image.png

  1. 输入数据集名称,选择数据集属性:是否对数据进行去重操作,详细方法见数据去重策略。
  2. 点击完成,在数据总览目录下可以看到生成一个空数据集项目。

image.png

2.导入未标注文本数据

点击【导入】进入到新创建的评论观点抽取数据集中,平台暂只支持上传无标注信息的数据。

image.png

导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」;

通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传

  • 通过文本上传时,需注意:

image.png

文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断

文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文本文件。

  • 通过压缩包上传时,需注意:

压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

每组数据的字数建议不超过512个字符,超出将被截断。

  • 通过Excel文件上传时,需注意:

Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断

文件格式支持xlsx格式,单次可上传100个文件。

通过BOS目录导入格式要求

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入

分享链接导入格式要求

请确保将全部文本文件保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

通过平台已有数据集导入

直接点选您需要的数据集即可导入。

其他:暂不支持API接口上传服务

上一篇
整体介绍
下一篇
数据去重策略