资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt+Chosen+Rejected数据

登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。

数据格式说明

Prompt+Chosen+Rejected:单轮或多轮的文本对话数据,每个提示语存在对应的正负偏好回答。适用于模型精调的DPO直接偏好优化或SimPO简单偏好优化,推荐数据量至少100条数据,才能显现训练效果。

  • 单轮对话(含标注)
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个人工智能助手。","user":"hello","chosen":"hi nice to meet you","rejected":"leave me alone"}]
  • 多轮对话(含标注)
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) ... 2) ... 3) ..."},
{"user":"具体一些","assistant":"以下是一些具体的例子:1. 医疗保健...2. 金融服务: ..."},
{"user":"会导致这些行业大量失业么?","chosen":"是的","rejected":"不是的"}]

平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。

数据文件要求

文件类型 具体要求
压缩包
  • 支持 zip/tar.gz 格式,压缩前源文件总大小≤1GB。
共享链接
  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
文本文件
  • 支持文本文件类型为txt、pdf、doc、docx、jsonl。
  • 编码仅支持UTF-8。
  • 单个文件不超过1G,单次上传限制100个文件。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传文本数据:本地导入、BOS导入、分享链接导入、平台已有数据集。

导入方式 格式要求
本地导入
  • 单文件。
  • 压缩包。
BOS导入
  • 文件导入:文件不超过50G,单次上传限制1000个文件。
  • 目录导入。
分享链接导入
  • 输入链接地址导入:压缩包(请确保将全部数据文件保存至同一压缩包)。
平台已有数据集
  • 仅支持选择未发布的数据集版本。

以上所有步骤完成后,即可导入数据至数据集。

上一篇
导入Prompt+Chosen或Rejected数据
下一篇
导入Prompt+多Response排序数据