资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

什么是SimPO训练

SimPO(Simple Preference Optimization)
  SimPO是一种用于优化和提升预训练大模型性能的技术。它旨在通过简单而高效的方式,调整模型参数,从而在保持模型性能的同时,减少计算资源和内存的消耗。SimPO 主要关注参数效率,这意味着它能够在不大幅增加模型参数的情况下,显著提升模型的性能。

本平台已预置SimPO模型训练方式,快开启您的模型训练之旅吧~

优势

  • 提升效率:消除对奖励模型的依赖,简化了训练流程,降低了模型训练的复杂度和资源消耗,训练时间和GPU消耗大幅减少。
  • 性能优势:性能却明显优于DPO及其变体,避免了训练和推理不一致的问题,更准确符合用户的数据预期。

工作步骤

SimPO微调包含以下两个步骤:

  1. 数据集收集:prompt+chosen+rejected数据集,样例下载

    • prompt:

      • ①单轮对话场景,Prompt字段仅包含每轮对话的提问;
      • ②多轮对话场景,Prompt字段包含前几轮对话的问答及最后一轮的提问
    • chosen:Prompt字段对应的正偏好回答。
    • rejected:Prompt字段对应的负偏好回答。
  2. 优化训练:基于预置或SFT后的大模型,调整部分参数,训练您的偏好大模型。
上一篇
什么是KTO训练
下一篇
什么是RLHF训练