资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建知识蒸馏任务

模型蒸馏通过调用教师模型产生问答对,再通过精调得到成本更低、特定任务效果更好的学生模型。

知识蒸馏是指学生模型学习真实标签(硬标签)和教师模型的输出概率分布(软标签)。

登录到本平台,选择模型蒸馏板块,创建蒸馏作业。

创建蒸馏作业

如果您在模型蒸馏作业列表中有创建好的模型任务,可以直接点击“新建任务”创作模型的迭代版本,如果已有运行中的版本,再次创建的运行任务不可切换教师模型和学生模型的类型。

1.png

选择蒸馏方式

在选择蒸馏方式中,选择知识蒸馏。

2.png

基本信息

填写好作业名称后,再进行500字内的作业描述即可。

在作业类型中,支持创建文本生成或图像理解作业。

3.png

训练框架配置

4.png

数据配置

  • 原始数据来源支持选择平台数据集、对象存储BOS、分布式存储AFS。
  • 若要发起蒸馏,仅支持选择一个数据集并多于100条,若数据集超过10000条,蒸馏数据构造耗时可能较长,请耐心等待。数据格式可以选择Prompt+Response、Role(user+assistant)数据进行蒸馏。

教师模型版本

文本生成作业中,教师模型版本默认值为Qwen3-32B,分别支持Qwen3-14B、Qwen3-8B,以及可以选择训练后或导入的模型。

图像理解作业中,教师模型版本默认值为Qwen2.5-VL-32B-Instruct,同时支持选择Qwen2.5-VL-7B-Instruct,以及可以选择训练后或导入的模型。

学生模型版本

文本生成作业中,学生模型版本当前支持Qwen3-0.6B。

图像理解作业中,学生模型版本当前支持Qwen2.5-VL-3B-Instruct。

训练方法与参数配置

支持配置软标签参数,软标签是指指每个 token 输出概率分布中,保留前 k 个词(token)和其对应概率(即软标签)。k 越大,信息保留越多,占用资源越多。默认值为1,该配置下蒸馏效率较高。

共有两种训练方式,根据模型的类型选择不同的方式。

训练方法 简单描述
全量更新 全量更新在训练过程中对大模型的全部参数进行更新
LoRA 训练过程中只更新低秩部分的参数,需要的计算资源更少,训练过程更快,可以减少过拟合的风险。
  • 参数配置

所有蒸馏任务都提供基础的超参数选择,**迭代轮次(Epoch)**控制模型训练过程中遍历整个数据集的次数;**学习率(Learning Rate)**控制模型参数更新步长的速度;**序列长度(Sequence Length)**控制单条数据的最大长度,包括输入和输出。其他超参数详见模型蒸馏页面,可自由配置。

5.png

发布蒸馏模型

以上所有操作完成后,点击“确定”,则发起学生模型训练的任务。 开启“自动发布”按钮后,模型在蒸馏完成后会自动发布到我的模型中;若模型训练失败,则不自动发布模型。

上一篇
创建数据蒸馏任务
下一篇
模型管理