创建Post-pretrain任务

更新时间：2025-03-20

创建任务
新建运行
数据配置

大模型预训练是开发者可以基于大量的泛文本无标注数据使用Post-pretrain的方式训练出一个定制的预训练模型。
在Post-pretrain任务中调优预训练模型提升模型效果，完成预训练后，可以在SFT调优预训练模型。

登录到本平台，在创建精调作业界面选择Post-pretrain，进入大模型预训练的主任务界面。

创建任务

如在已有作业基础上新建任务，模型选择以已创建运行的最新运行使用的模型和版本为基准，不可切换基础模型。

基本信息

填写好作业名称和500字内的作业描述，并选择训练需要的基础模型版本。

训练配置

训练配置大模型参数，调整好基本配置。

在Post-pretrain训练任务中，可以选择开启增量训练开关
开关打开后，需要选择Post-pretrain的基准模型，此模型来源于运行中的Post-pretrain任务。所以您开启增量训练任务的前提有已经在运行中的Post-pretrain任务。

由于大模型权重占用较大存储，只能选择三个月内训练的模型发起增量训练。

注意：基础模型继承基准模型版本，所以当您选定基准模型后，基础模型及版本不可变更。

您也可以选择直接不使用增量训练，这样直接在基础模型上进行Post-pretrain。

模型介绍

模型随时更新，请在操作界面选择适合的模型并查看模型介绍与模型版本，在创建作业界面选择Post-pretrain进行操作。

训练方式

训练方法	简单描述
全量更新	全量更新在训练过程中对大模型的全部参数进行更新
LoRA	在固定预训练大模型本身的参数的基础上，在保留自注意力模块中原始权重矩阵的基础上，对权重矩阵进行低秩分解，训练过程中只更新低秩部分的参数。

参数配置

部分重要参数如下，详细参数介绍可以在操作界面查看说明并自由配置。

数据配置

训练任务的选择数据及相关配置，大模型调优任务需要匹配纯文本的数据集，您的数据需要大于训练数据1千万tokens，才可以进行任务提交：

数据1 x 采样率1大于1千万tokens时，允许提交，即便数据1小于1千万tokens
数据1 x 采样率1+数据2 x 采样率2大于1千万tokens时，允许提交，即便数据1、数据2的和小于1千万tokens
数据1 x 采样率1+千帆混合语料大于1千万tokens时允许提交

数据集来源可以为本平台已发布的数据集版本、BOS或者预置数据集，如果平台没有您准备好的训练数据，您也可以直接创建数据集，如果选择两个及以上的数据集，支持数据配比，数据占比总和等于100%。

您可以通过提高采样率，来提升数据集的占比。采样率：对数据集进⾏随机采样，取值范围为[0.01-10]。当数据集过⼤或质量不⾼，可以利⽤⽋采样（采样率⼩于1）来缩减训练数据的⼤⼩；当数据集过⼩或质量较⾼，可以利⽤过采样（采样率⼤于1）来增加训练数据的⼤⼩，数值越⼤训练时对该部分数据的关注度越⾼，但训练时⻓及费⽤越⾼，推荐过采样率范围为[1-5]。

注意：任务运行推荐样本数至少10亿tokens，如您试用的话，则推荐1千万tokens及以上的样本数。

混合训练：支持用户使用自身数据与千帆语料数据混合训练，其中包含多行业、多维度的通用语料数据由千帆大模型平台提供。

注意：开启数据配比后，会增加整体训练tokens数，参与计费。

总千帆语料共100B tokens，混入比例的取值范围为[0-100]%。您可查看推荐值输入：

数据拆分比例：比如设置20，则表示选定数据集版本总数的80%作为训练集，20%作为验证集。

若数据集保存在BOS中，请勿在提交任务后修改BOS数据。修改后可能会导致任务失败！

用户百度BOS服务开通申请，关于训练费用可查看价格文档。

以上所有操作完成后，点击“开始训练”，则发起模型训练的任务。

注意：Post-pretrain训练任务规模大，任务需要后台审核后才能开启。另外，样本数至少10亿tokens，如您试用的话，则1千万tokens及以上的样本数会凸显训练效果。

创建SFT任务

偏好对齐