资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt+图片数据

登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。

数据格式说明

Prompt+图片:文生图对话数据,文本提问与图片回答一一对应。适用于模型精调的SFT文生图大模型训练。

  • 无标注数据集:数据集中仅包含图像。

平台支持上传无标注样例,您可在平台上进行数据标注,标注方式包括在线标注/多人标注。只有标注完成的数据集,才能被发布并用于训练。

  • 有标注数据集:数据集中图像和对应的标签文件一一对应。
生成小猫.json 生成小猫.jpg
{"prompt": "一只肥胖的橘猫趴在太阳下,闭着眼睛伸懒腰,需要动漫风格。" }

数据文件要求

文件类型 具体要求
图片
  • jpg/png/bmp/jpeg,单张图片大小≤14M,边长≤4096px,长宽比≤3:1,最短边≥30px。
  • 对同一数据集存在多个内容完全一致的图片,将会做去重处理。
  • 个人账户图片数据集总数限制:≤10万张,需扩容可提交工单
标注文件
  • 采用 json格式,文件内容由数字、中文、英文、中/下划线组成,长度≤32字符。
压缩包
  • 支持 zip/tar.gz 格式,压缩前源文件总大小≤5GB。
共享链接
  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。

导入方式 无标注数据 有标注数据
本地导入
  • 图片:单次上传限制100个文件。
  • 压缩包。
  • 压缩包:图片+同名标注文件。
BOS导入
  • 文件导入:单次上传限制10个文件。
  • 目录导入。
  • 文件导入:图片+同名标注文件。
  • 目录导入:图片+同名标注文件。
分享链接导入
  • 输入链接地址导入:图片文件。
  • 输入链接地址导入:图片+同名标注文件。
平台已有数据集
  • 仅支持选择未发布的数据集版本。
  • 仅支持选择未发布的数据集版本。

通过上述步骤,即可导入数据至数据集。

上一篇
导入Prompt集数据
下一篇
导入Prompt+Image+Response数据