开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

数据导入

数据准备

准备训练所需的训练数据,结合期望得到的模型设计训练数据集的分类或标签

设计分类

对于图像分类任务,需确认分类如何设计,每个分类为你希望识别出的一种结果,如您需要识别动物,则可以以“dog”、“cat”等分别作为一个分类。

注意:每张图片都应属于一个分类,一个模型最多支持1000个分类,标签名由数字、中英文、中/下划线组成,长度上限256字符。

基于设计好的分类准备图片,有如下要求:

  1. 每个分类需要准备20张以上图片如果需要较好的效果,建议每个分类准备不少于100张图片
  2. 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练时也需要使用俯拍角度的图片
  3. 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强

设计标签

对于物体检测、实例分割任务,需要确认标签如何设计,每种需要识别的目标为一个标签,一张图片中可以有多种标签出现。

注意:单个数据集的标签上限为1000种,标签名由数字、中英文、中/下划线组成,长度上限256字符。

基于设计好的物体检测准备图片,有如下要求:

  1. 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练图片就不能用网上下载的目标正面图片
  2. 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强
  3. 每个模型训练图片量不得低于4张,每个标签建议标注50个框以上

数据导入

在数据总览页下找到创建完成的数据集点击【导入】

5.png

导入要求

图片要求:

  • 支持图片类型包括jpg、png、bmp、jpeg,图片大小限制在14M以内
  • 图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px

路径要求:

  • 无标注信息:导入请确保全部图片保存知同一层文件目录下
  • 有标注信息:导入请确保将全部图片与对应标注信息保存至同一层文件目录。该目录下子文件目录及非相关内容(例如压缩包)不导入

导入方式

数据导入无标注信息图片以及有标注信息图片的导入

注:数据导入后依然存储在您设备本地导入路径下,飞桨EasyDL桌面版不会调整您的数据存储路径,因此如更改本地存储路径下的图片将会导致数据集发生变动,如有正使用当前数据集训练的任务,将会导致任务失败.

无标注信息图片导入

进入数据导入界面,在数据标注状态中选择无标注信息

选择训练数据存储的文件夹,选择完成后数据集即导入完成

如需导入多个文件目录的数据,可多次导入

6.png

有标注信息图片导入

有标注信息导入支持以文件夹命名分类、VOC格式、COCO格式以及平台自定义格式四种

以文件夹命名分类导入

数据标注状态选择有标注信息,并选择标注格式为以文件夹命名分类

注:以文件夹命名分类仅支持图像分类任务

11.png

以文件夹命名分类方式导入,导入路径下的每一个子文件夹将代表一个分类,子文件夹的名称将代表分类名,子文件夹下的图片将被视为当前分类下的数据

12.png

VOC格式导入

数据标注状态选择有标注信息,并选择标注格式为VOC格式

7.png

以VOC格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储xml格式的标注文件,且图片与标注信息一一对应

8.png

COCO格式导入

数据标注状态选择有标注信息,并选择标注格式为COCO格式

13.png

以COCO格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储Json格式的一个标注文件,所有图片的标注信息均存储在一个Json文件中

9.png

平台自定义格式导入

数据标注状态选择有标注信息,并选择标注格式为平台自定义格式

14.png

以平台自定义格式导入,导入路径不包含子文件夹,图片数据及标注文件均直接存储在导入路径下,标注信息以Json格式与图片一一对应

10.png

导入路径选择完成后,点击【确认并返回】即完成数据导入

上一篇
创建数据集
下一篇
数据标注