资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据导入

数据准备

准备训练所需的训练数据,结合期望得到的模型设计训练数据集的分类或标签

设计分类

对于图像分类任务,需确认分类如何设计,每个分类为你希望识别出的一种结果,如您需要识别动物,则可以以“dog”、“cat”等分别作为一个分类。

注意:每张图片都应属于一个分类,一个模型最多支持1000个分类,标签名由数字、中英文、中/下划线组成,长度上限256字符。

基于设计好的分类准备图片,有如下要求:

  1. 每个分类需要准备20张以上图片如果需要较好的效果,建议每个分类准备不少于100张图片
  2. 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练时也需要使用俯拍角度的图片
  3. 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强

设计标签

对于物体检测、实例分割任务,需要确认标签如何设计,每种需要识别的目标为一个标签,一张图片中可以有多种标签出现。

注意:单个数据集的标签上限为1000种,标签名由数字、中英文、中/下划线组成,长度上限256字符。

基于设计好的物体检测准备图片,有如下要求:

  1. 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练图片就不能用网上下载的目标正面图片
  2. 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强
  3. 每个模型训练图片量不得低于4张,每个标签建议标注50个框以上

数据导入

在数据总览页下找到创建完成的数据集点击【导入】

5.png

导入要求

图片要求:

  • 支持图片类型包括jpg、png、bmp、jpeg,图片大小限制在14M以内
  • 图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px

路径要求:

  • 无标注信息:导入请确保全部图片保存知同一层文件目录下
  • 有标注信息:导入请确保将全部图片与对应标注信息保存至同一层文件目录。该目录下子文件目录及非相关内容(例如压缩包)不导入

导入方式

数据导入无标注信息图片以及有标注信息图片的导入

注:数据导入后依然存储在您设备本地导入路径下,飞桨EasyDL桌面版不会调整您的数据存储路径,因此如更改本地存储路径下的图片将会导致数据集发生变动,如有正使用当前数据集训练的任务,将会导致任务失败.

无标注信息图片导入

进入数据导入界面,在数据标注状态中选择无标注信息

选择训练数据存储的文件夹,选择完成后数据集即导入完成

如需导入多个文件目录的数据,可多次导入

6.png

有标注信息图片导入

有标注信息导入支持以文件夹命名分类、VOC格式、COCO格式以及平台自定义格式四种

以文件夹命名分类导入

数据标注状态选择有标注信息,并选择标注格式为以文件夹命名分类

注:以文件夹命名分类仅支持图像分类任务

11.png

以文件夹命名分类方式导入,导入路径下的每一个子文件夹将代表一个分类,子文件夹的名称将代表分类名,子文件夹下的图片将被视为当前分类下的数据

12.png

VOC格式导入

数据标注状态选择有标注信息,并选择标注格式为VOC格式

7.png

以VOC格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储xml格式的标注文件,且图片与标注信息一一对应

8.png

COCO格式导入

数据标注状态选择有标注信息,并选择标注格式为COCO格式

13.png

以COCO格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储Json格式的一个标注文件,所有图片的标注信息均存储在一个Json文件中

9.png

平台自定义格式导入

数据标注状态选择有标注信息,并选择标注格式为平台自定义格式

14.png

以平台自定义格式导入,导入路径不包含子文件夹,图片数据及标注文件均直接存储在导入路径下,标注信息以Json格式与图片一一对应

10.png

导入路径选择完成后,点击【确认并返回】即完成数据导入

上一篇
快速开始
下一篇
查看数据集