资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看与管理人工评估任务

对生成式大模型的输出效果、计算性能进行全方位评价,提供面向事实类或开放性问答的不同打分模式;当前支持文本类生成模型,暂不支持图像或跨模态生成模型。

登录到本平台,在左侧功能列选择模型评估,进入人工评估主任务界面。

评估任务筛选与搜索

时间筛选

您可以在评估任务列表右上角使用时间组件按照「年月日」对任务进行筛选。

image.png

任务搜索框

您可以使用搜索组件对任务进行搜索,点击搜索框头部可以切换搜索维度。

image.png

目前支持任务名称/ID、评估对象、基础模型版本三种搜索维度,鼠标hover搜索框头部的问号支持弹窗显示具体的使用提示。

搜索维度 默认输入栏文案 搜索框头部hover提示
任务名称/ID 请输入任务名称/ID搜索 评估对象支持按照模型名称(包含BOS和非平台模型结果集)模糊搜索,按照模型版本ID、结果集ID精确搜索
评估对象 请输入评估对象搜索 支持按照任务名称模糊搜索、按任务ID精确搜索(任务状态为「编辑中」的任务不支持搜索)
基础模型版本 请输入基础模型版本搜索 支持按照基础模型版本名称模糊搜索(任务状态为「编辑中」的任务不支持搜索)

任务列表表头筛选

在任务列表中,部分表头支持筛选

image.png

当前可支持筛选的表头和筛选项

表头名称 筛选项
任务状态 全选、已完成、部分完成、已失败、排队中、进行中、推理中、编辑中
评估对象 全选、结果集、基于模型
创建时间 支持按照创建时间倒序、正序排列
打分模式 全选、自动规则打分、自动裁判员打分、自动规则打分+自动裁判员打分

查看人工评估任务详情

您可以通过点击任务名称查看评估任务的详细内容。

image.png

当创建的任务的状态为“待评估”时,需要您点击操作列的"在线评估"进行标注,详细标注操作可查看数据标注相关操作

image.png

当评估任务状态为“已完成”时,您可点击操作列的“查看评估详情”按钮,查看具体的人工评估内容。已完成人工评估的结果集不支持任何编辑操作

image.png

查看评估报告

当评估任务状态为“已完成”时,您可点击操作列的“查看评估报告”按钮,查看详细的评估信息。

人工打分指标

指标名称 指标说明
平均分数 平均分数计算公式:所有评价维度分数之和/数据量评价维度数量
Goodcase占比 Goodcase比例计算公式:所有评价维度等于2分的数量/数据量评价维度数量
满意度等 创建人工评估任务时,所填写的自定义指标。

评估报告

该页面展示创建评估任务时的评估维度结果的可视化分布,包括评估任务的整体指标和详细指标等内容。

image.png

评估详情

在评估详情列表页,您可以选择每条评估数据操作列的查看按钮,展示为您提交【在线评估】时所填写的对大模型的主观感受。

image.png

导出模型结果

需要您打开模型详情页,模型结果分析支持筛选和导出。为避免对页面性能造成影响,每个模型最多展示2000条模型结果分析内容。导出时点击左上角按钮,在浮窗中配置导出位置『本地』或『BOS存储』(需提前开通BOS相关服务 )。

image.png

自定义选择导出字段:

image.png

右上角操作记录中支持查看用户对模型结果分析导出记录,查看导出任务状态、并对错例数据进行下载、查看。

image.png

查看任务日志

平台支持查看本次模型评估任务的详细日志。选择评估的模型后,可以查看其从创建开始到任务结束的日志内容,支持下载到本地保存(txt格式)。

以下为部分日志展示:

image.png

可通过日志查看报错,调整任务配置重新发起;或在提交工单时,粘贴日志中的报错由百度技术服务团队协助排查。

上一篇
创建人工评估任务
下一篇
数据管理