导入Prompt+Image+Response数据

更新时间：2025-05-15

登录到千帆ModelBuilder操作台，在左侧功能列选择通用数据集，进入主任务界面。

数据格式说明

Prompt+Image+Response：单轮或多轮的图文混合对话数据，支持单图或多图场景。适用于模型精调的SFT图像理解大模型训练，目前仅支持上传已标注的数据。

images列表中的字符串支持图片路径、HTTP URL和包含base64编码的Data URL三种格式，多图对话中支持三种格式混合使用。

图片数据格式	描述	示例
图片路径	图片在上传的压缩包中的相对路径。	"images/海报.jpg", "images/图标.png"
HTTP URL	图片在互联网上通过HTTP协议加载的地址。	"https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png"
Data URL	将图片编码为Base64字符串后嵌入在URL中的格式，形如： `data:image/<图片类型>;base64,<图片的base64编码>`	"data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ..."

单图对话数据集

# 单张图片的场景下，您可使用图片占位符<ImageHere>来指定图片的位置
# images列表中的字符串支持图片路径、HTTP URL和包含base64编码的Data URL三种格式
{"images":["images/海报.jpg"], "messages":[{"role":"system","content":"作为一个资深的影评人，请回答下面的问题"}, {"role":"user","content":"图片<ImageHere>中色彩的运用如何影响海报的整体氛围？"}, {"role":"assistant","content":"图片中色彩的运用极大地影响了海报的整体氛围..."}]}

多图对话数据集

# 多张图片的场景下，您可使用图片占位符<Image1Here>、<Image2Here>来指定多张图片的顺序及位置（图片索引从1开始）
# images列表中的字符串支持图片路径、HTTP URL和包含base64编码的Data URL三种格式，三种格式可混合使用
{"images":["images/狗.jpeg", "https://.../a-tyrannosaurus.jpg", "data:image/png;base64,/9j/4AAQSkZJRgABAQ..."], "messages":[{"role":"system","content":"你是一个插画师，请回答下面的问题"}, {"role":"user","content":"看这三张图片: <Image1Here>,<Image2Here>,<Image3Here>  请分别描述其中的内容？"}, {"role":"assistant","content":"图一是一张非常可爱的狗狗照片...\n\n图二是一只卡通风格的线条恐龙...\n\n图三是一幅卡通风格的狐狸插画..."}]}

数据文件要求

文件类型	具体要求
图片	图片类型支持jpg/png/jpeg/webp，单张图片大小≤100M。对同一数据集存在多个内容完全一致的图片，将会做去重处理。
标注文件	采用jsonl格式，文件名由数字、中文、英文、中/下划线组成，长度≤32字符，文件内容必须包含标注信息。

文件编码支持UTF-8。

数据导入方式

创建数据集完成后，在数据集管理页面中，找到该数据集，点击右侧操作列下的“导入”按钮，即可进入导入数据页面。

您可以使用以下方案上传数据集：本地导入、BOS导入、分享链接导入、平台已有数据集。在相同的导入方式下，平台对于文件大小及数量的限制，与您选择的存储类型有关。

导入方式	存储类型：对象存储BOS	存储类型：平台共享存储
本地导入	文件限制：单个压缩包源文件大小不超过5G，所有文件数量不超过1000。	文件限制：单个压缩包源文件大小不超过1G，所有文件数量不超过100。
BOS导入	支持文件导入和目录导入两种方式。文件限制文件导入：单个压缩包源文件大小不超过50G，所有文件数量不超过1000。目录导入：目录内总文件大小不超过50G，所有文件数量不超过10w。	支持文件导入和目录导入两种方式。文件限制文件导入：单个压缩包源文件大小不超过50G，所有文件数量不超过100。目录导入：目录内总文件大小不超过50G，所有文件数量不超过10w。
分享链接导入	支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。文件限制：链接地址要求为tar.gz/zip格式压缩包，文件类型支持jsonl、jpg、png、jpeg、webp，同时压缩包源文件大小在5G以内。	支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。文件限制：链接地址要求为tar.gz/zip格式压缩包，文件类型支持jsonl、jpg、png、jpeg、webp，同时压缩包源文件大小在1G以内。
平台已有数据集	支持选择相同数据格式的有标注数据集版本。

个人账户图片数据集总数限制：≤10万张，需扩容可提交工单。

导入Prompt+图片数据

管理数据集版本