资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集并导入

创建数据集

在训练模型之前,需要先在数据总览【创建数据集】。输入数据集名称(限制50汉字),默认生成数据集版本V1,标注类型为图文匹配,配置后点击“完成”,成功创建一条空的图文匹配数据集。

41ebbdd935d43b0f773ce6906.png

导入数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面,可以通过以下方式导入数据:

  • 导入未标注的数据,在线进行数据标注
  • 直接导入标注好的数据

不论您上传无标注信息的数据或有标注信息的数据,都需要以下述格式要求进行上传。 同时目前 有标注信息 上传格式仅支持 json(平台通用)

导入未标注的数据

本地导入

支持上传图片、压缩包

  • 目前支持图片类型为jpg, png, bmp, jpeg,图片大小限制在14M以内。
  • 图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px。
  • 上传已标注文件要求格式为zip格式压缩包

已有数据集

支持选择百度云 BOS 导入、分享链接导入、平台已有数据集导入;支持选择线上已有的数据集,包括其他图像类模型的数据集

  • BOS目录导入格式要求:请确保将全部图片已保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入
  • 分享链接导入请确保将全部图片已保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接
  • 图片类型支持jpg/png/bmp/jpeg,单图需小于14M,长宽比小于 3:1,其中最长边需要小于4096px,最短边需要大于30px
  • 您的账户下图片数据集大小限制为10万张图片,如果需要提升数据额度,可在平台提交工单

image.png

导入已标注的数据

本地导入

上传压缩包,标注格式仅支持 json(平台通用)

  • 上传已标注文件要求格式为zip格式压缩包,同时压缩前源文件大小在5GB以内
  • 压缩包内需要包括图片源文件(jpg/png/bmp/jpeg)及同名的json格式标注文件,详细请见示例压缩包

已有数据集

支持选择百度云BOS导入、分享链接导入、平台已有数据集导入,标注格式仅支持 json(平台通用)

  • BOS目录导入格式要求:请确保将全部图片已保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入
  • 分享链接导入请确保将全部图片已保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接
  • 图片类型支持jpg/png/bmp/jpeg,单图需小于14M,长宽比小于 3:1,其中最长边需要小于4096px,最短边需要大于30px
  • 您的账户下图片数据集大小限制为10万张图片,如果需要提升数据额度,可在平台提交工单 image.png
上一篇
整体介绍
下一篇
在线标注