资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

导入纯文本数据

登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。

数据格式说明

纯文本:特定领域的大规模无标注数据。适用于模型精调的Post-pretrain自监督预训练,作为后续Post-pretrain的训练输入,推荐数据量至少10亿tokens,如需试用,则推荐1千万tokens及以上的数据量,凸显训练效果。

  • docx格式
千帆大模型平台
数据服务
用户可集中纳管大模型开发应用各阶段的基础数据,并通过智能化标注、多样化处理等手段,提升数据准备的质量与效率,为平台全流程工具链提供数据服务。

大模型训练
用户自定义创建大模型训练,不断调优迭代和RLHF训练,持续推动模型向实际场景聚焦,提升模型精准度。
  • jsonl格式
{"content": "百度智能云千帆大模型平台(以下简称千帆或千帆大模型平台)是面向企业开发者的一站式..."}

数据文件要求

文件类型 格式要求
文本文件
  • 文本文件类型支持txt、pdf、doc、docx,单个文件大小在60M内。
jsonl文件
  • 文件内单条数据格式要求为{"content": "文档内容"},单个文件大小在60M内。
压缩包
  • 支持 zip/tar.gz 格式。
  • 文件编码支持UTF-8。

数据导入方式

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

您可以使用以下方案上传文本数据:本地导入、BOS导入、分享链接导入、平台已有数据集。

导入方式 存储类型:对象存储BOS 存储类型:平台共享存储
本地导入
  • 文件限制:对文件大小和数量无限制。
  • 文件限制:单个txt/pdf/docx文件大小在60M内,单个json文件/压缩包源文件大小均不超过1G,所有文件数量不超过100。
BOS导入
  • 支持文件导入和目录导入两种方式。
  • 文件限制:单个txt/pdf/docx文件大小在60M内,单个jsonl文件/压缩包源文件大小均不超过50G,所有文件数量不超过1000。

  • 支持文件导入和目录导入两种方式。
  • 文件限制:单个txt/pdf/docx文件大小在60M内,单个jsonl文件/压缩包源文件大小均不超过50G,所有文件数量不超过100。

分享链接导入
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持txt、pdf、doc、docx、jsonl,单个txt/pdf/docx文件大小在60M内,其余单个文件大小在5G以内,所有文件数量不超过1000。
  • 支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
  • 文件限制:链接地址要求为tar.gz/zip格式压缩包,文件类型支持txt、pdf、doc、docx、jsonl,单个txt/pdf/docx文件大小在60M内,其余单个文件大小在1G以内,所有文件数量不超过100。
平台已有数据集
  • 支持选择相同数据格式的非空数据集版本。
  • 支持选择相同数据格式的非空数据集版本。
上一篇
导入Prefix+Suffix+Middle代码补全数据
下一篇
导入Prompt+Chosen或Rejected数据