资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

什么是KTO训练

KTO(Kahneman-Tversky Optimisation):

    Kahneman-Tversky优化方法,根据用户正向或负向反馈进行模型训练,高效对齐用户行为偏好。

本平台已预置KTO训练方式,点击开启KTO训练。

优势

  1. 成本节省:普通强化学习训练,重度依赖人类反馈,KTO训练可以做到Prompt和response的高效对齐,节省人类反馈的成本,同时具备时效性。
  2. 客观真实:普通强化学习训练,人类主观意识干扰过多,KTO训练可以使模型服务在符合人类预期的基础上,做到更加的客观和真实。

工作步骤

KTO微调包含以下两个步骤:

  1. 数据集收集:Prompt+Chosen/Rejected数据集,样例下载
  • Prompt:

    • ①单轮对话场景,Prompt字段仅包含每轮对话的提问;
    • ②多轮对话场景,Prompt字段包含前几轮对话的问答及最后一轮的提问
  • Chosen:Prompt字段对应的正偏好回答。
  • Rejected:Prompt字段对应的负偏好回答。

优化训练:基于预置或SFT后的大模型,调整部分参数,训练您的偏好大模型。

常见问题

Q:KTO训练和DPO训练有什么不同?
A:训练过程中KTO方法需要对输出结果进行二元判断,符合预期/不符合预期,所以其收集的数据为Prompt+Chosen或Rejected;DPO训练依赖人类反馈,需要对输出结果进行偏好性判断,两个输出的倾向程度,所以其收集的数据为Prompt+Chosen和Rejected。

上一篇
什么是DPO训练
下一篇
什么是SimPO训练