资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建Post-pretrain任务

目录

  1. 创建任务
  2. 新建运行
  3. 数据配置

大模型预训练是开发者可以基于大量的泛文本无标注数据使用Post-pretrain的方式训练出一个定制的预训练模型。
在Post-pretrain任务中调优预训练模型提升模型效果,完成预训练后,可以在SFT调优预训练模型。

登录到本平台,在创建精调作业界面选择Post-pretrain,进入大模型预训练的主任务界面。

创建任务

如在已有作业基础上新建任务,模型选择以已创建运行的最新运行使用的模型和版本为基准,不可切换基础模型。

基本信息

填写好作业名称和500字内的作业描述,并选择训练需要的基础模型版本。

image.png

训练配置

训练配置大模型参数,调整好基本配置。

  • 在Post-pretrain训练任务中,可以选择开启增量训练开关
    开关打开后,需要选择Post-pretrain的基准模型,此模型来源于运行中的Post-pretrain任务。所以您开启增量训练任务的前提有已经在运行中的Post-pretrain任务

image_bbc9a60.png

由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。

注意:基础模型继承基准模型版本,所以当您选定基准模型后,基础模型及版本不可变更

  • 您也可以选择直接不使用增量训练,这样直接在基础模型上进行Post-pretrain。

模型介绍

模型随时更新,请在操作界面选择适合的模型并查看模型介绍与模型版本,在创建作业界面选择Post-pretrain进行操作。

截屏2025-03-18 20.26.27.png

训练方式


训练方法 简单描述
全量更新 全量更新在训练过程中对大模型的全部参数进行更新
LoRA 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。
  • 参数配置

部分重要参数如下,详细参数介绍可以在操作界面查看说明并自由配置。

截屏2025-03-18 20.27.36.png

数据配置

训练任务的选择数据及相关配置,大模型调优任务需要匹配纯文本的数据集,您的数据需要大于训练数据1千万tokens,才可以进行任务提交:

  • 数据1 x 采样率1大于1千万tokens时,允许提交,即便数据1小于1千万tokens
  • 数据1 x 采样率1+数据2 x 采样率2大于1千万tokens时,允许提交,即便数据1、数据2的和小于1千万tokens
  • 数据1 x 采样率1+千帆混合语料大于1千万tokens时允许提交

image.png

数据集来源可以为本平台已发布的数据集版本、BOS或者预置数据集,如果平台没有您准备好的训练数据,您也可以直接创建数据集,如果选择两个及以上的数据集,支持数据配比,数据占比总和等于100%。

image.png

您可以通过提高采样率,来提升数据集的占比。 采样率:对数据集进⾏随机采样,取值范围为[0.01-10]。当数据集过⼤或质量不⾼,可以利⽤⽋采样(采样率⼩于1)来缩减训练数据的⼤⼩;当数据集过⼩或质量较⾼,可以利⽤过采样(采样率⼤于1)来增加训练数据的⼤⼩,数值越⼤训练时对该部分数据的关注度越⾼,但训练时⻓及费⽤越⾼,推荐过采样率范围为[1-5]。

注意:任务运行推荐样本数至少10亿tokens,如您试用的话,则推荐1千万tokens及以上的样本数。

混合训练:支持用户使用自身数据与千帆语料数据混合训练,其中包含多行业、多维度的通用语料数据由千帆大模型平台提供。

注意:开启数据配比后,会增加整体训练tokens数,参与计费。

总千帆语料共100B tokens,混入比例的取值范围为[0-100]%。您可查看推荐值输入:

image.png

数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。

若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!

用户百度BOS服务开通申请,关于训练费用可查看价格文档

以上所有操作完成后,点击“开始训练”,则发起模型训练的任务

注意:Post-pretrain训练任务规模大,任务需要后台审核后才能开启。另外,样本数至少10亿tokens,如您试用的话,则1千万tokens及以上的样本数会凸显训练效果。

上一篇
创建SFT任务
下一篇
偏好对齐