资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建人工评估任务

什么是评估数据集

在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。

评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。

创建人工评估任务

人工评估可综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分,用于评估模型回复的效果。

登录到本平台,在左侧功能列选择模型评估,进入人工评估主任务界面。

image.png

点击“创建评估任务”按钮,进入创建人工评估任务页面。

image.png

由用户填写评估任务所需的基本信息、评估配置、人工打分规则配置和资源配置。

基本信息

填写评估任务名称(自动生成,可修改)、评估任务描述。

image.png

评估对象配置

image.png

GSB对比评估

支持对两个模型进行效果好坏的对比或者对同一模型在不同prompt/参数配置下的效果好坏对比。 评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。

新建推理结果集

推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS),如果您选择对象存储BOS,需要另外指定存储Bucket和文件夹。

对象存储BOS,指定结果集(已包含模型批量推理结果)后续的存储方式。非平台存储的数据集, 在进行数据管理、评估、处理时需用户自行保证数据地址有效。


每次评估数据集标注样本数不可超过10000条。

若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!

当您在新建推理结果集时,被评估模型需要按照批量推理内容计费,具体可查看示例内容,其他模型限时免费

选择已有推理结果集

您最多可选择5个已有的推理结果集,其中推理结果集的模型范围可来源于我的模型、预置模型和非平台模型,非平台模型为您创建结果数据集任务时,选择直接导入推理结果集的推理模型注释部分。

对于选择已有推理结果集,如果选择BOS导入数据,只支持Prompt+Response数据格式。导入数据格式说明请见:创建推理结果集格式说明导入Prompt+Response数据

查看模型高级配置,其范围可参考推理结果集,其参数定义可参考创建推理结果集内容。

人工打分规则配置

评估维度如下图所示,支持1~5个评估维度,如果预置的评估维度无法满足您的需求,您也可以添加适合本次的评估维度。

image.png

当评估任务在待评估状态下,您可以在操作列点击在线评估对数据进行标注。

在线评估

当您任务创建成功后,即可在人工评估首页,选择任务的“在线评估”按钮,进行如下数据集的评估任务。

image.png

模型评估支持范围

旗舰版千亿模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
Ernie4.0 ERNIE-4.0-8K
Ernie 4T ERNIE-4.0-Turbo-8K
Ernie3.5 ERNIE-3.5-8K-0701
轻量版百亿模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
ERNIE Speed ERNIE-Speed-8K、ERNIE-Speed-128K
ERNIE Speed Pro ERNIE-Speed-Pro-8K、ERNIE-Speed-Pro-128K
ERNIE Lite ERNIE-Lite-8K-0308、ERNIE-Lite-128K-0419
Ernie Lite Pro ERNIE-Lite-Pro-128K
Ernie Tiny ERNIE-Tiny-8K
垂类场景模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
Ernie Character ERNIE-Character-8K-0321、ERNIE-Character-Fiction-8K
Ernie Functions ERNIE-Functions-8K-0321
开源对话Chat类模型 模型版本 批量推理 预置模型评估 SFT训练后评估 模型压缩后评估 DPO训练后评估
Qwen-2.5 Qwen-2.5-7B
DeepSeek-R1-Distill-Qwen DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Llama DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Llama-8B
  • 其他开源对话Chat类模型
  • 压缩后模型: BLOOMZ-7B、Qianfan-Chinese-Llama-2-13B-v1 SFT后模型、Qianfan-Chinese-Llama-2-7B SFT后模型
上一篇
自动评估
下一篇
查看与管理人工评估任务