资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看与管理SimPO运行

SimPO任务界面,可以查看任务的详情、新建运行任务和删除整个任务(包括运行)。
指定任务的详情页面,可以查看所有的模型训练运行任务状态及其他相关内容。

image.png

登录到本平台,在左侧功能列偏好学习选择SimPO,进入SimPO主任务界面。

以下页面可以进行 详情查看、发布模型、查看 评估报告训练日志、查看 训练过程可视化以及删除作业等。

image.png

详情

在SimPO的详情页,即可查看训练运行的列表。此界面可选择“创建训练作业”。

image.png

点击任务名称,在任务详情页可查看创建运行时的基本信息、训练配置和数据配置,详情数据的来源为创建SimPO作业时填入的内容。

发布

可以指定某个运行成功的任务,发布为模型(上图右上方)。

发布模型时,如果checkpoint保存个数大于1,增加Step的选择。默认选保存了Checkpoint的最新的Step(即最后一个Step)。如果checkpoint保存个数等于1,不显示Step的选择。

填写好如下参数后,将被我的模型所纳管。

image.png

需注意:当您发布到已有模型的新版本时,仅可以发布到和模型管理的基础模型一致的模型中。

评估报告

可以查看指定运行中心评估报告,包含评估信息的指标参数和Training Loss的曲线图。

image.png

  • BLEU-4: 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果分别按1-gram、2-gram、3-gram、4-gram拆分后,计算出的加权平均精确率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。
  • rouge-N(1/2/L)-f:百分⽐。ROUGE通过将模型⽣成的摘要或者回答与参考答案(⼀般是⼈⼯⽣成的)进⾏⽐较计算,得到对应的得分。Rouge-N实际上是将模型⽣成的结果和标准结果按N-gram拆分后,计算召回率。
  • Rewards Accuracy:选择response的奖励超过相应的拒绝奖励response的频率的平均值。
  • Rewards Chosen:选择response在最优策略模型和偏好模型的对数概率的平均差值。值越大代表效果越好。
  • Rewards Margin:选择和拒绝response的对数概率的平均差值。值越大代表效果越好。
  • Rewards Rejected:拒绝response在最优策略模型和偏好模型的对数概率的平均差值。值越小代表效果越好。
  • Training Loss:训练集每个Step的损失。
  • Embedding距离(基础模型为EB模型时):衡量两个向量相似度的度量方法。计算两段文本向量化后夹角的余弦值,值越小表示相似度越高。取值范围从0到2,0表示完全相同,1表示没有相似性,2表示完全相反。
  • 编辑距离(基础模型为EB模型时):Edit distance,将一个字符串转换成另一个字符串所需的最少编辑操作次数。次数越小表示相关性越高。

训练日志

可以查看运行任务的训练情况,分为概览日志、数据处理日志和训练日志三部分,日志内容均支持下载(txt格式)。

  • 概览日志:对模型训练过程中的关键步骤信息进行抽取展示。
  • 数据处理日志:对模型训练过程中数据集等数据信息处理进行展示排查。
  • 训练日志:对模型训练过程中的全量动作以日志的形式展示。

概览日志部分内容如下所示:

image.png

训练过程可视化

可以查看训练过程中的实时的参数变化。关于各项参数指标的定义可查看可视化指导

image.png

删除

支持删除运行任务,运行任务一旦删除便不可恢复。