资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

什么是RFT训练

RFT(Reinforcement Fine-Tuning)

RFT将RL(对Agent的输出打分,基于打分迭代训练)和Fine-tuning的技术相结合。 RLHF同样也是需要人工反馈和Reward Model的训练将反馈转化为Reward信号。但是对于RFT来说,依赖Grader来分配Reward信号,帮助模型选择答案。流程如下:

de6af923-2401-4f54-8033-d0ba303c0665.svg

Grader通过比较模型的Response和Reference对模型打分(0-1)。 因此,这也解释了RFT需要更少数据的原因(几十条便可取得不错的效果)。 模型主要是找到产生我们想要的输出的模式,而不是直接生成输出,这样泛化性更强。

优势

  • 数据准备快速:不需要人工标注偏好数据。
  • 效率更高:模型自动寻找输出的最优值。

工作步骤

RFT调优包括两个步骤:

1、数据集收集:Prompt+Response数据。参考:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/yliu6bqzw

2、模型优化训练:基于预置模型RFT训练,并通过调整训练参数,优化模型输出。

上一篇
什么是Post-pretrain
下一篇
什么是DPO训练