导入纯文本数据

更新时间：2025-05-15

登录到千帆ModelBuilder操作台，在左侧功能列选通用数据集，进入主任务界面。

数据格式说明

纯文本：特定领域的大规模无标注数据。适用于模型精调的Post-pretrain自监督预训练，作为后续Post-pretrain的训练输入，推荐数据量至少10亿tokens，如需试用，则推荐1千万tokens及以上的数据量，凸显训练效果。

{"content": "百度智能云千帆大模型平台（以下简称千帆或千帆大模型平台）是面向企业开发者的一站式..."}

文件类型	格式要求
文本文件	文本文件类型支持txt、pdf、doc、docx，单个文件大小在60M内。
jsonl文件	文件内单条数据格式要求为{"content": "文档内容"}，单个文件大小在60M内。
压缩包	支持 zip/tar.gz 格式。

创建数据集完成后，在数据集管理页面中，找到该数据集，点击右侧操作列下的“导入”按钮，即可进入导入数据页面。

您可以使用以下方案上传文本数据：本地导入、BOS导入、分享链接导入、平台已有数据集。

导入方式	存储类型：对象存储BOS	存储类型：平台共享存储
本地导入	文件限制：对文件大小和数量无限制。	文件限制：单个txt/pdf/docx文件大小在60M内，单个json文件/压缩包源文件大小均不超过1G，所有文件数量不超过100。
BOS导入	支持文件导入和目录导入两种方式。文件限制：单个txt/pdf/docx文件大小在60M内，单个jsonl文件/压缩包源文件大小均不超过50G，所有文件数量不超过1000。	支持文件导入和目录导入两种方式。文件限制：单个txt/pdf/docx文件大小在60M内，单个jsonl文件/压缩包源文件大小均不超过50G，所有文件数量不超过100。
分享链接导入	支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。文件限制：链接地址要求为tar.gz/zip格式压缩包，文件类型支持txt、pdf、doc、docx、jsonl，单个txt/pdf/docx文件大小在60M内，其余单个文件大小在5G以内，所有文件数量不超过1000。	支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。文件限制：链接地址要求为tar.gz/zip格式压缩包，文件类型支持txt、pdf、doc、docx、jsonl，单个txt/pdf/docx文件大小在60M内，其余单个文件大小在1G以内，所有文件数量不超过100。
平台已有数据集	支持选择相同数据格式的非空数据集版本。	支持选择相同数据格式的非空数据集版本。