资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt+图片数据

登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。

数据格式说明

Prompt+图片:文生图对话数据,文本提问与图片回答一一对应。适用于模型精调的SFT文生图大模型训练。

  • 无标注数据集:数据集中仅包含图像。

平台支持上传无标注样例,您可在平台上进行数据标注,标注方式包括在线标注/多人标注。只有标注完成的数据集,才能被发布并用于训练。

  • 有标注数据集:数据集中图像和对应的标注文件一一对应。
生成小猫.json 生成小猫.jpg
{"prompt": "一只肥胖的橘猫趴在太阳下,闭着眼睛伸懒腰,需要动漫风格。" }

数据文件要求

文件类型 格式要求
图片
  • jpg/png/bmp/jpeg,单张图片大小≤14M,边长≤4096px,长宽比≤3:1,最短边≥30px。
  • 对同一数据集存在多个内容完全一致的图片,将会做去重处理。
  • 文件名由数字、中文、英文、中/下划线组成,长度≤32字符

标注文件(生成图片的prompt)
  • 采用 json格式,需要与对应的图片同名,文件名由数字、中文、英文、中/下划线组成,长度≤32字符。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。在相同的导入方式下,平台对于文件大小及数量的限制,与您选择的存储类型有关。

导入方式 存储类型:对象存储BOS 存储类型:平台共享存储
本地导入
  • 文件限制: 单个压缩包源文件大小不超过5G,所有文件数量不超过1000。

  • 文件限制: 单个压缩包源文件大小不超过1G,所有文件数量不超过100。

BOS导入
  • 支持文件导入和目录导入两种方式。
  • 文件限制
    • 文件导入: 单个压缩包源文件大小不超过50G,所有文件数量不超过1000。
    • 目录导入: 目录内总文件大小不超过50G,所有文件数量不超过1000。

  • 支持文件导入和目录导入两种方式。
  • 文件限制
    • 文件导入:单个压缩包源文件大小不超过50G,所有文件数量不超过100。
    • 目录导入:目录内总文件大小不超过50G,所有文件数量不超过100。

分享链接导入
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持json、jpg、png、bmp、jpeg,同时压缩包源文件大小在5G以内。
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持json、jpg、png、bmp、jpeg,同时压缩包源文件大小在1G以内。
平台已有数据集
  • 支持选择相同数据格式的非空数据集版本。
  • 支持选择相同数据格式的非空数据集版本。

个人账户图片数据集总数限制:≤10万张,需扩容可提交工单

上一篇
导入Prompt集数据
下一篇
导入Prompt+Image+Response数据