资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建人工评估任务

什么是评估数据集

在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。

评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。

创建人工评估任务

人工评估可综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分,用于评估模型回复的效果。

登录到本平台,在左侧功能列选择模型评估,进入人工评估主任务界面。

image.png

点击“创建评估任务”按钮,进入创建人工评估任务页面。

image.png

由用户填写评估任务所需的基本信息、评估配置、人工打分规则配置和资源配置。

基本信息

填写评估任务名称(自动生成,可修改)、评估任务描述。

image.png

评估对象配置

image.png

GSB对比评估

支持对两个模型进行效果好坏的对比或者对同一模型在不同Prompt/参数配置下的效果好坏对比。 评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。

新建推理结果集

推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS),如果您选择对象存储BOS,需要另外指定存储Bucket和文件夹。

对象存储BOS,指定结果集(已包含模型批量推理结果)后续的存储方式。非平台存储的数据集, 在进行数据管理、评估、处理时需用户自行保证数据地址有效。


每次评估数据集标注样本数不可超过10000条。

若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!

当您在新建推理结果集时,被评估模型需要按照批量推理内容计费,具体可查看文档内容。

选择已有推理结果集

您最多可选择5个已有的推理结果集,其中推理结果集的模型范围可来源于我的模型、预置模型和非平台模型,非平台模型为您创建结果数据集任务时,选择直接导入推理结果集的推理模型注释部分。

对于选择已有推理结果集,如果选择BOS导入数据,只支持Prompt+Response数据格式。导入数据格式说明请见:创建推理结果集格式说明导入Prompt+Response数据

查看模型高级配置,其范围和参数定义可参考推理结果集

评估方法配置

评估方法分为评估场景、评估指标和评估量级,每项分别支持不同的评估选项。

image.png

  • 评估场景

包含文本分类、文本摘要、文本生成、问题问答、图像理解、自定义场景六大场景,可以选择最适合当前数据集的场景进行配置。

  • 评估指标

最多支持5个指标(默认2个),可选范围包含正确性、满意度、准确性、相关性、流畅度、安全性、理解准确度、内容一致性和逻辑连贯性。 image.png

还可以自由设置Good case分数判断逻辑,以及说明,如图所示: image.png

  • 评估量级

可以指定人工裁判按照多少个分级来打分,可选范围1-10(最少1级,最多10级)。选完后Good case分数判断逻辑可选项也会相应变化。 image.png

当评估任务在待评估状态下,您可以在操作列点击在线评估对数据进行标注。

在线评估

当您任务创建成功后,即可在人工评估首页,选择任务的“在线评估”按钮,进行如下数据集的评估任务。

image.png

模型评估支持范围

旗舰版千亿模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
ERNIE X1 ERNIE-X1-32K-Preview
ERNIE 4.5 ERNIE-4.5-8K-Preview
Ernie4.0 ERNIE-4.0-8K
Ernie 4T ERNIE-4.0-Turbo-8K
Ernie3.5 ERNIE-3.5-8K-0701
轻量版百亿模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
ERNIE Speed ERNIE-Speed-8K、ERNIE-Speed-128K
ERNIE Speed Pro ERNIE-Speed-Pro-8K、ERNIE-Speed-Pro-128K
ERNIE Lite ERNIE-Lite-8K-0308、ERNIE-Lite-128K-0419
Ernie Lite Pro ERNIE-Lite-Pro-128K
Ernie Tiny ERNIE-Tiny-8K
垂类场景模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
Ernie Character ERNIE-Character-8K-0321、ERNIE-Character-Fiction-8K
Ernie Functions ERNIE-Functions-8K-0321
开源对话Chat类模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
Qwen-2.5 Qwen-2.5-7B
QwQ-32B QwQ-32B
DeepSeek-R1 DeepSeek-R1、DeepSeek-R1-250313
DeepSeek-V3 DeepSeek-V3、DeepSeek-V3-250313
DeepSeek-R1-Distill-Qwen DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Llama DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Llama-8B
  • 其他开源对话Chat类模型
  • 压缩后模型: BLOOMZ-7B、Qianfan-Chinese-Llama-2-13B-v1 SFT后模型、Qianfan-Chinese-Llama-2-7B SFT后模型
上一篇
自动评估
下一篇
查看与管理人工评估任务