资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt+Chosen或Rejected数据

登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。

数据格式说明

Prompt+Chosen/Rejected:单轮或多轮的文本对话数据,每个提示语存在对应的正或负偏好回答。适用于模型精调的KTO训练,推荐数据量至少100条数据,才能显现训练效果。

  • 单轮对话(含标注)
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个人工智能助手。","user":"hello","rejected":"leave me alone"}]
[{"system":"你是一个人工智能助手。","user":"你好","chosen":"很高兴认识你"}]
  • 多轮对话(含标注)
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) ...2) ..."},
{"user":"具体一些","assistant":"以下是一些具体的例子:1. 医疗保健:...2. 金融服务..."},
{"user":"会导致这些行业大量失业么?","chosen":"是的"}]

[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) ... 2) ..."},
{"user":"具体一些","assistant":"以下是一些具体的例子:1. 医疗保健...2. 金融服务:..."},
{"user":"整体上说,人工智能对人类社会来说弊大于利,这句话正确吗","rejected":"错误"}]

平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。

数据文件要求

文件类型 具体要求
jsonl文件
  • 文件内单条数据格式要求为[{"user": "prompt内容", "chosen/rejected": "正偏好/负偏好内容"}]
  • 压缩包
    • 支持tar.gz/zip格式。
    • 文件编码支持UTF-8。

    数据导入方式

    创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

    您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。在相同的导入方式下,平台对于文件大小及数量的限制,与您选择的存储类型有关。

    导入方式 存储类型:对象存储BOS 存储类型:平台共享存储
    本地导入
    • 文件限制:对文件大小和数量无限制。
    • 文件限制:单个文件/压缩包源文件大小,均不超过1G,所有文件数量不超过100。
    BOS导入
    • 支持文件导入和目录导入两种方式。
    • 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。

    • 支持文件导入和目录导入两种方式。
    • 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过100。

    分享链接导入
    • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
    • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持jsonl,同时压缩包源文件大小在5G以内。
    • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
    • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持jsonl,同时压缩包源文件大小在1G以内。
    平台已有数据集
    • 支持选择相同数据格式的非空数据集版本。
    • 支持选择相同数据格式的非空数据集版本。

    以上所有步骤完成后,即可导入数据至数据集。

    上一篇
    导入纯文本数据
    下一篇
    导入Prompt+Chosen+Rejected数据