资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt集数据

登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入训练数据集主任务界面。

数据格式说明

Prompt集:单轮或多轮的文本对话数据,仅含提问,不含回答。适用于模型精调的RLHF强化学习训练。

  • Prompt集
{"prompt": "请根据下面的新闻生成摘要, 内容如下:一辆小轿车,一名女司机...。\n生成摘要如下:"}

数据文件要求

文件类型 具体要求
压缩包
  • 支持 zip/tar.gz 格式,压缩前源文件总大小≤5GB。
共享链接
  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
文本文件
  • 支持文本文件类型为jsonl、txt、csv、xlsx。
  • 编码仅支持UTF-8。
  • 单次上传限制100个文本文件。
  • 单个文件不超过100M。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传文本数据:本地导入、BOS导入、分享链接导入、平台已有数据集。

导入方式 格式要求
本地导入
  • jsonl:文件内单条数据格式要求为[{"prompt" :“prompt内容”}]。
  • txt:格式要求为"prompt"。
  • csv:在表格中为一列,由表头定义prompt。
  • xlsx:在表格中为一列,由表头定义prompt。
  • 压缩包。
BOS导入
  • 文件导入。
  • 目录导入。
分享链接导入
  • 输入链接地址导入:压缩包(请确保将全部数据文件保存至同一压缩包)。
平台已有数据集
  • 仅支持选择未发布的数据集版本。

以上所有步骤完成后,即可导入数据至数据集。

上一篇
导入Prompt+多Response排序数据
下一篇
导入Prompt+图片数据