数据导入
数据准备
准备训练所需的训练数据,结合期望得到的模型设计训练数据集的分类或标签
设计分类
对于图像分类任务,需确认分类如何设计,每个分类为你希望识别出的一种结果,如您需要识别动物,则可以以“dog”、“cat”等分别作为一个分类。
注意:每张图片都应属于一个分类,一个模型最多支持1000个分类,标签名由数字、中英文、中/下划线组成,长度上限256字符。
基于设计好的分类准备图片,有如下要求:
- 每个分类需要准备20张以上图片,如果需要较好的效果,建议每个分类准备不少于100张图片
- 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练时也需要使用俯拍角度的图片
- 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强
设计标签
对于物体检测、实例分割任务,需要确认标签如何设计,每种需要识别的目标为一个标签,一张图片中可以有多种标签出现。
注意:单个数据集的标签上限为1000种,标签名由数字、中英文、中/下划线组成,长度上限256字符。
基于设计好的物体检测准备图片,有如下要求:
- 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,训练图片就不能用网上下载的目标正面图片
- 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强
- 每个模型训练图片量不得低于4张,每个标签建议标注50个框以上
数据导入
在数据总览页下找到创建完成的数据集点击【导入】
导入要求
图片要求:
- 支持图片类型包括jpg、png、bmp、jpeg,图片大小限制在14M以内
- 图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px
路径要求:
- 无标注信息:导入请确保全部图片保存知同一层文件目录下
- 有标注信息:导入请确保将全部图片与对应标注信息保存至同一层文件目录。该目录下子文件目录及非相关内容(例如压缩包)不导入
导入方式
数据导入无标注信息图片以及有标注信息图片的导入
注:数据导入后依然存储在您设备本地导入路径下,飞桨EasyDL桌面版不会调整您的数据存储路径,因此如更改本地存储路径下的图片将会导致数据集发生变动,如有正使用当前数据集训练的任务,将会导致任务失败.
无标注信息图片导入
进入数据导入界面,在数据标注状态中选择无标注信息
选择训练数据存储的文件夹,选择完成后数据集即导入完成
如需导入多个文件目录的数据,可多次导入
有标注信息图片导入
有标注信息导入支持以文件夹命名分类、VOC格式、COCO格式以及平台自定义格式四种
以文件夹命名分类导入
数据标注状态选择有标注信息,并选择标注格式为以文件夹命名分类
注:以文件夹命名分类仅支持图像分类任务
以文件夹命名分类方式导入,导入路径下的每一个子文件夹将代表一个分类,子文件夹的名称将代表分类名,子文件夹下的图片将被视为当前分类下的数据
VOC格式导入
数据标注状态选择有标注信息,并选择标注格式为VOC格式
以VOC格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储xml格式的标注文件,且图片与标注信息一一对应
COCO格式导入
数据标注状态选择有标注信息,并选择标注格式为COCO格式
以COCO格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储Json格式的一个标注文件,所有图片的标注信息均存储在一个Json文件中
平台自定义格式导入
数据标注状态选择有标注信息,并选择标注格式为平台自定义格式
以平台自定义格式导入,导入路径不包含子文件夹,图片数据及标注文件均直接存储在导入路径下,标注信息以Json格式与图片一一对应
导入路径选择完成后,点击【确认并返回】即完成数据导入