什么是RFT训练

更新时间：2025-02-20

RFT将RL（对Agent的输出打分，基于打分迭代训练）和Fine-tuning的技术相结合。 RLHF同样也是需要人工反馈和Reward Model的训练将反馈转化为Reward信号。但是对于RFT来说，依赖Grader来分配Reward信号，帮助模型选择答案。流程如下：

Grader通过比较模型的Response和Reference对模型打分（0-1）。因此，这也解释了RFT需要更少数据的原因（几十条便可取得不错的效果）。模型主要是找到产生我们想要的输出的模式，而不是直接生成输出，这样泛化性更强。

优势

RFT调优包括两个步骤：

1、数据集收集：Prompt+Response数据。参考：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/yliu6bqzw

2、模型优化训练：基于预置模型RFT训练，并通过调整训练参数，优化模型输出。