查看与管理人工评估任务

更新时间：2025-07-25

对生成式大模型的输出效果、计算性能进行全方位评价，提供面向事实类或开放性问答的不同打分模式；当前支持文本类生成模型，暂不支持图像或跨模态生成模型。

登录到本平台，在左侧功能列选择模型评估，进入人工评估主任务界面。

评估任务筛选与搜索

您可以在评估任务列表右上角使用时间组件按照「年月日」对任务进行筛选。

您可以使用搜索组件对任务进行搜索，点击搜索框头部可以切换搜索维度。

目前支持任务名称/ID、评估对象、基础模型版本三种搜索维度，鼠标hover搜索框头部的问号支持弹窗显示具体的使用提示。

搜索维度	默认输入栏文案	搜索框头部hover提示
任务名称/ID	请输入任务名称/ID搜索	评估对象支持按照模型名称（包含BOS和非平台模型结果集）模糊搜索，按照模型版本ID、结果集ID精确搜索
评估对象	请输入评估对象搜索	支持按照任务名称模糊搜索、按任务ID精确搜索（任务状态为「编辑中」的任务不支持搜索）
基础模型版本	请输入基础模型版本搜索	支持按照基础模型版本名称模糊搜索（任务状态为「编辑中」的任务不支持搜索）

在任务列表中，部分表头支持筛选

当前可支持筛选的表头和筛选项

表头名称	筛选项
任务状态	全选、已完成、已失败、排队中、进行中、推理中、待评估、编辑中、已停止、停止中
评估对象	全选、结果集、基于模型
创建时间	支持按照创建时间倒序、正序排列

您可以通过点击任务名称查看评估任务的详细内容。

当创建的任务的状态为“待评估”时，需要您点击操作列的"在线评估"进行标注，详细标注操作可查看数据标注相关操作。

当评估任务状态为“已完成”时，您可点击操作列的“查看评估详情”按钮，查看具体的人工评估内容。已完成人工评估的结果集不支持任何编辑操作。

当评估任务状态为“已完成”时，您可点击操作列的“查看评估报告”按钮，查看详细的评估信息。

指标名称	指标说明
平均分数	平均分数计算公式：所有评价维度分数之和/数据量评价维度数量
Goodcase占比	比例计算公式：所有评价维度中按自定义是Goodcase的数量/（数据量*维度数量）
其他指标	创建人工评估任务时，所填写的自定义指标。