开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

创建数据集并导入

创建数据集

在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。

image.png

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入无标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

image.png

您可以使用3种方案上传数据,分别为:

  • 本地导入
  • BOS目录导入
  • 分享链接导入

本地导入

您可以通过以下三种方式进行本地数据的导入:

image.png

  • 以压缩包的方式上传
  • 以TXT文本文件方式上传
  • 以Excel文件的方式上传

通过压缩包上传时,需注意:

  • 压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8
  • 每组数据的数建议不超过512个字符,超出将被截断

通过TXT文本上传时,需注意:

  • 文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断
  • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文件

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

导入有标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

您可以使用本地上传的方案上传数据。 您可以通过以下三种方式进行本地数据的导入:

  • 以Excel文件的方式上传
  • 以API的形式导入

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

通过API上传时,需注意:

什么是实体类别?

实体类别(Entity Type)是指某类事物的集合,每一类数据对象的个体称为实体,如人/角色(例如学生),对象(例如发票),概念(例如简介)或事件(例如交易)。实体类别名标签名由数字、中英文、中/下划线组成,长度上限256字符

上一篇
API上传
下一篇
在线标注