资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集并导入

创建数据集

在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。

image.png

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入无标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

image.png

您可以使用3种方案上传数据,分别为:

  • 本地导入
  • BOS目录导入
  • 分享链接导入

本地导入

您可以通过以下三种方式进行本地数据的导入:

image.png

  • 以压缩包的方式上传
  • 以TXT文本文件方式上传
  • 以Excel文件的方式上传

通过压缩包上传时,需注意:

  • 压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8
  • 每组数据的数建议不超过512个字符,超出将被截断

通过TXT文本上传时,需注意:

  • 文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断
  • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文件

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

导入有标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

您可以使用本地上传的方案上传数据。 您可以通过以下三种方式进行本地数据的导入:

  • 以Excel文件的方式上传
  • 以API的形式导入

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

通过API上传时,需注意:

什么是实体类别?

实体类别(Entity Type)是指某类事物的集合,每一类数据对象的个体称为实体,如人/角色(例如学生),对象(例如发票),概念(例如简介)或事件(例如交易)。实体类别名标签名由数字、中英文、中/下划线组成,长度上限256字符

上一篇
API上传
下一篇
在线标注