资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集

平台可统一纳管用于模型精调的数据集,并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集,也可选择平台的预置数据集,来体验模型精调或评估。

登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入通用数据集管理主任务界面。

不同数据用途和数据格式的数据集,将服务于不同的模型精调方式,您需重点关注数据格式。

查看数据集列表

平台支持统一纳管自训练模型的数据集,可与数据标注/数据清洗/数据增强等能力相结合,构建面向生成式大模型场景的数据集,如下图所示:

2024-12-26 at 12.52.43@2x.png

您可根据实际需求对数据集进行名称变更、新增版本、导入数据和删除等操作。

创建数据集

在指定数据集名称、数据用途、数据格式等基本信息后,您可发起数据上传并指定目标存储位置,由此完成数据集创建。

2024-12-26 at 12.54.34@2x.png

理解数据类型

平台数据集当前支持以下类型:

  1. Prompt+Response:⽤于文本生成场景的有监督微调SFT。单轮或多轮的⽂本对话数据,提问与回答⼀⼀对应。
  2. Role(user+assistant):⽤于文本生成场景的有监督微调SFT。单轮或多轮的文本对话数据,提问与回答—一对应,支持多角色类型与Function Call工具调用。
  3. 纯文本:⽤于预训练Post-pretrain。特定⾏业⽅向/场景下的⼤规模⽆标注数据语料。
  4. Prompt+Chosen/Rejected:用于偏好对齐KTO。单轮或多轮的⽂本对话数据,每个提示语存在对应的正或负偏好回答。
  5. Prompt+Chosen+Rejected:用于偏好对齐DPO。单轮或多轮的⽂本对话数据,每个提示语存在对应的正负偏好回答。
  6. Prompt+多Response排序:⽤于RLHF奖励模型微调。单轮或多轮的⽂本对话数据,单个提问对应多个回答,多个回答间带有先后排序关系。
  7. Prompt集:⽤于RLHF强化学习微调。
  8. Prompt+图片:⽤于图像生成场景的有监督微调SFT,文本提问与图片回答—一对应。
  9. Prompt+Image+Response:用于图像理解场景的有监督微调SFT,单轮或多轮的图文混合对话数据,支持单图或多图场景。

保存位置

平台提供两类存储位置:
对象存储BOS:使用对象存储BOS,享受更大存储空间,数据高效灵活管理。
平台共享存储:平台提供一定免费额度的共享存储空间。

  • 若暂未开通,请先开通百度BOS服务。
  • 平台将会在您选择的目录下创建 _system_ 目录用以存储数据,请不要对该目录及目录下的所有文件进行修改,以免导致数据出现问题。

文件导入

平台支持4种导入方式:本地导入、BOS导入、分享链接导入和使用平台已有数据集。

新增数据集版本

平台支持在已有数据集基础上增加版本,您可在数据集详情页面的版本列表点击“新增版本”。

2024-12-26 at 12.57.08@2x.png

此外,您可以选择是否继承历史版本,开启后,您可以在历史版本的基础上对数据进行修改。

若不继承历史版本,则需要您手动导入新的数据,具体操作详见文件导入

预置数据集

为方便用户快速完成功能体验,平台预置了围绕不同任务类型、行业场景的数据集。

进入数据集管理功能界面,选择预置数据集

预置数据集支持类型如下:

数据格式 任务类型 行业场景 数据用途
Prompt+Response
纯文本
Prompt+Chosen/Rejected
Prompt+Chosen+Rejected
知识问答:开放式问答、阅读理解
对话引擎:角色对话
逻辑推理:知识推理、数学推理
代码能力:代码生成
内容创作:文本创作
基础语言处理:摘要生成、文本分类、感情分析、信息抽取、同义改写
通用
在线教育
交互助手
电商营销
社交文娱
金融
医疗
法律
精调
评估

详情

预置数据集功能页,点击指定数据集,即可查看对应数据集的详情,如下图所示:

2024-12-26 at 13.03.56@2x.png

上一篇
模型管理
下一篇
导入Prompt+Response数据