资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入Prompt集数据

登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入训练数据集主任务界面。

数据格式说明

Prompt集:仅含用户提问、不含模型回答的文本数据集。适用于模型蒸馏,将作为输入数据源,批量请求教师模型生成蒸馏数据。

  • Prompt集
{"prompt": "请根据下面的新闻生成摘要,内容如下:人民检察院规定,不得查封、扣押、冻结与案件无关财物。\n生成摘要如下:"}

数据文件要求

文件类型 格式要求
jsonl文件
  • 文件内单条数据格式要求为[{"prompt" :“prompt内容”}]。
xlsx文件
  • 在表格中为一列,由表头定义prompt。
csv文件
  • 在表格中为一列,由表头定义prompt。
txt文件
  • 格式要求为"prompt内容"。
压缩包
  • 支持 tar.gz/zip 压缩包。
  • 文件编码支持UTF-8。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。在相同的导入方式下,平台对于文件大小及数量的限制,与您选择的存储类型有关。

导入方式 存储类型:对象存储BOS 存储类型:平台共享存储
本地导入
  • 文件限制:对文件大小和数量无限制。
  • 文件限制:单个文件/压缩包源文件大小,均不超过1G,所有文件数量不超过100。
BOS导入
  • 支持文件导入和目录导入两种方式。
  • 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。

  • 支持文件导入和目录导入两种方式。
  • 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过100。

分享链接导入
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持jsonl、csv、xlsx、txt,同时压缩包源文件大小在5G以内。
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持jsonl、csv、xlsx、txt,同时压缩包源文件大小在1G以内。
平台已有数据集
  • 支持选择相同数据格式的非空数据集版本。
  • 支持选择相同数据格式的非空数据集版本。
上一篇
导入Prompt+多Response排序数据
下一篇
导入Prompt+图片数据