开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

创建数据集并导入

1.创建数据集

  1. 选择【EasyDate数据服务】目录下数据总览,点击“创建数据集”。

image.png

  1. 输入数据集名称,选择数据集属性:是否对数据进行去重操作,详细方法见数据去重策略。
  2. 点击完成,在数据总览目录下可以看到生成一个空数据集项目。

image.png

2.导入未标注文本数据

点击【导入】进入到新创建的评论观点抽取数据集中,平台暂只支持上传无标注信息的数据。

image.png

导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」;

通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传

  • 通过文本上传时,需注意:

image.png

文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断

文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文本文件。

  • 通过压缩包上传时,需注意:

压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

每组数据的字数建议不超过512个字符,超出将被截断。

  • 通过Excel文件上传时,需注意:

Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断

文件格式支持xlsx格式,单次可上传100个文件。

通过BOS目录导入格式要求

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入

分享链接导入格式要求

请确保将全部文本文件保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

通过平台已有数据集导入

直接点选您需要的数据集即可导入。

其他:暂不支持API接口上传服务

上一篇
整体介绍
下一篇
数据去重策略