创建数据集

更新时间：2025-01-23

平台可统一纳管用于模型精调的数据集，并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集，也可选择平台的预置数据集，来体验模型精调或评估。

登录到千帆ModelBuilder操作台，在左侧功能列选择通用数据集，进入通用数据集管理主任务界面。

不同数据用途和数据格式的数据集，将服务于不同的模型精调方式，您需重点关注数据格式。

查看数据集列表

平台支持统一纳管自训练模型的数据集，可与数据标注/数据清洗/数据增强等能力相结合，构建面向生成式大模型场景的数据集，如下图所示：

您可根据实际需求对数据集进行名称变更、新增版本、导入数据和删除等操作。

在指定数据集名称、数据用途、数据格式等基本信息后，您可发起数据上传并指定目标存储位置，由此完成数据集创建。

平台数据集当前支持以下类型：

Prompt+Response：⽤于文本生成场景的有监督微调SFT。单轮或多轮的⽂本对话数据，提问与回答⼀⼀对应。
Role(user+assistant)：⽤于文本生成场景的有监督微调SFT。单轮或多轮的文本对话数据，提问与回答—一对应，支持多角色类型与Function Call工具调用。
纯文本：⽤于预训练Post-pretrain。特定⾏业⽅向/场景下的⼤规模⽆标注数据语料。
Prompt+Chosen/Rejected：用于偏好对齐KTO。单轮或多轮的⽂本对话数据，每个提示语存在对应的正或负偏好回答。
Prompt+Chosen+Rejected：用于偏好对齐DPO。单轮或多轮的⽂本对话数据，每个提示语存在对应的正负偏好回答。
Prompt+多Response排序：⽤于RLHF奖励模型微调。单轮或多轮的⽂本对话数据，单个提问对应多个回答，多个回答间带有先后排序关系。
Prompt集：⽤于RLHF强化学习微调。
Prompt+图片：⽤于图像生成场景的有监督微调SFT，文本提问与图片回答—一对应。
Prompt+Image+Response：用于图像理解场景的有监督微调SFT，单轮或多轮的图文混合对话数据，支持单图或多图场景。

平台提供两类存储位置：
对象存储BOS：使用对象存储BOS，享受更大存储空间，数据高效灵活管理。
平台共享存储：平台提供一定免费额度的共享存储空间。

平台支持4种导入方式：本地导入、BOS导入、分享链接导入和使用平台已有数据集。

平台支持在已有数据集基础上增加版本，您可在数据集详情页面的版本列表点击“新增版本”。

此外，您可以选择是否继承历史版本，开启后，您可以在历史版本的基础上对数据进行修改。

若不继承历史版本，则需要您手动导入新的数据，具体操作详见文件导入。

为方便用户快速完成功能体验，平台预置了围绕不同任务类型、行业场景的数据集。

预置数据集支持类型如下：

数据格式	任务类型	行业场景	数据用途
Prompt+Response 纯文本 Prompt+Chosen/Rejected Prompt+Chosen+Rejected	知识问答：开放式问答、阅读理解对话引擎：角色对话逻辑推理：知识推理、数学推理代码能力：代码生成内容创作：文本创作基础语言处理：摘要生成、文本分类、感情分析、信息抽取、同义改写	通用在线教育交互助手电商营销社交文娱金融医疗法律	精调评估

在预置数据集功能页，点击指定数据集，即可查看对应数据集的详情，如下图所示：