资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集

在训练之前需要在数据中心【创建数据集】,导入并标注数据。

如果训练数据需要多人分工标注,可以创建多个数据集。将训练数据分批上传到这些数据集后,再将数据集"共享"给自己的小伙伴,同步进行标注。

设计标签

在上传之前确定想要识别哪几种物体,并上传含有这些物体的图片。每个标签对应想要在图片中检测出的一种物体

注意:标签的上限为1000种

准备图片

基于设计好的标签准备图片:

  • 每种要识别的物体在所有图片中出现的数量需要大于50
  • 如果某些要区分的物体具有相似性,需要增加更多图片
  • 一个模型的图片总量限制4张~10万张
  • 单张图片中的目标数不能超过1000个

如有特殊需求,请提交工单联系我们

图片格式要求:

  • 目前支持图片类型为png、jpg、bmp、jpeg,图片大小限制在14M以内
  • 图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px

图片内容要求:

  • 训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,那训练图片就不能用网上下载的目标正面图片;如果是需要识别白天光照下的物体,就不能使用夜晚拍摄的图片数据
  • 每个标签的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强

如果需要寻求第三方数据采集团队协助数据采集,请在百度智能云控制台内提交工单反馈

上一篇
整体介绍
下一篇
上传数据集并在线标注