创建人工评估任务

更新时间：2025-07-25

什么是评估数据集

在人工智能模型开发过程中，通常是将数据集划分为训练集、验证集和测试集三个部分。其中，训练集用来训练模型，验证集则用于调整模型的超参数和选择合适的模型，而测试集则是在模型训练完成后，用于最终评估模型的性能，这就是评估数据集（即测试集）。

评估数据集通常是在与训练数据集相似的情况下收集的，因此可以用来代表真实世界的样本数据。通过对评估数据集的评估，可以了解模型在不同场景下的表现，从而更好地优化模型。同时，评估数据集还可以用来验证模型的泛化能力，即模型在未见过的数据上的表现如何。

人工评估可综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分，用于评估模型回复的效果。

登录到本平台，在左侧功能列选择模型评估，进入人工评估主任务界面。

点击“创建评估任务”按钮，进入创建人工评估任务页面。

由用户填写评估任务所需的基本信息、评估配置、人工打分规则配置和资源配置。

填写评估任务名称(自动生成，可修改)、评估任务描述。

支持对两个模型进行效果好坏的对比或者对同一模型在不同Prompt/参数配置下的效果好坏对比。评估时可选择Good、Same、Bad三个选项。Good表示：基准模型比对比模型好；Same表示：基准模型和对比模型一样好或一样差；Bad表示：基准模型比对比模型差。

推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS)，如果您选择对象存储BOS，需要另外指定存储Bucket和文件夹。

对象存储BOS，指定结果集（已包含模型批量推理结果）后续的存储方式。非平台存储的数据集，在进行数据管理、评估、处理时需用户自行保证数据地址有效。

待评估模型: 支持选择多个模型版本同时评估，最多选择5个。支持同时选择预置模型和用户训练模型，具体支持范围详见模型评估支持范围。
评估数据集:
- 支持选择平台数据集或预置数据集作为评估数据集，支持选择平台数据服务模块已发布的“文本对话”、“Prompt集”类型数据集。
- 也支持从BOS导入对话格式数据Prompt+Response、Prompt+多Response。导入数据格式说明请见：创建推理结果集格式说明、导入Prompt+Response数据和导入Prompt+多Response排序数据。
模型高级配置范围及参数定义，可参考推理结果集。

每次评估数据集标注样本数不可超过10000条。

若数据集保存在BOS中，请勿在提交任务后修改BOS数据。修改后可能会导致任务失败！

当您在新建推理结果集时，被评估模型需要按照批量推理内容计费，具体可查看文档内容。

您最多可选择5个已有的推理结果集，其中推理结果集的模型范围可来源于我的模型、预置模型和非平台模型，非平台模型为您创建结果数据集任务时，选择直接导入推理结果集的推理模型注释部分。

对于选择已有推理结果集，如果选择BOS导入数据，只支持Prompt+Response数据格式。导入数据格式说明请见：创建推理结果集格式说明和导入Prompt+Response数据。

查看模型高级配置，其范围和参数定义可参考推理结果集。

评估方法分为评估场景、评估指标和评估量级，每项分别支持不同的评估选项。

包含文本分类、文本摘要、文本生成、问题问答、图像理解、自定义场景六大场景，可以选择最适合当前数据集的场景进行配置。

最多支持5个指标（默认2个），可选范围包含正确性、满意度、准确性、相关性、流畅度、安全性、理解准确度、内容一致性和逻辑连贯性。

还可以自由设置Good case分数判断逻辑，以及说明，如图所示：

可以指定人工裁判按照多少个分级来打分，可选范围1-10（最少1级，最多10级）。选完后Good case分数判断逻辑可选项也会相应变化。

当评估任务在待评估状态下，您可以在操作列点击在线评估对数据进行标注。

当您任务创建成功后，即可在人工评估首页，选择任务的“在线评估”按钮，进行如下数据集的评估任务。

旗舰版千亿模型	模型版本	批量推理	预置模型评估
ERNIE X1	ERNIE-X1-32K-Preview	✔	✔
ERNIE 4.5	ERNIE-4.5-8K-Preview	✔	✔
Ernie4.0	ERNIE-4.0-8K	✔	✔
Ernie 4T	ERNIE-4.0-Turbo-8K	✔	✔
Ernie3.5	ERNIE-3.5-8K-0701	✔	✔

轻量版百亿模型	模型版本	批量推理	预置模型评估	SFT训练后评估	模型压缩后评估	DPO训练后评估
ERNIE Speed	ERNIE-Speed-8K、ERNIE-Speed-128K	✔	✔	✔	✔	✔
ERNIE Speed Pro	ERNIE-Speed-Pro-8K、ERNIE-Speed-Pro-128K	✔	✔	✔	✔	✔
ERNIE Lite	ERNIE-Lite-8K-0308、ERNIE-Lite-128K-0419	✔	✔	✔	✔	✔
Ernie Lite Pro	ERNIE-Lite-Pro-128K	✔	✔	✔	✔	✔
Ernie Tiny	ERNIE-Tiny-8K	✔	✔	✔		✔

垂类场景模型	模型版本	批量推理	预置模型评估	SFT训练后评估	模型压缩后评估	DPO训练后评估
Ernie Character	ERNIE-Character-8K-0321、ERNIE-Character-Fiction-8K	✔	✔	✔		✔
Ernie Functions	ERNIE-Functions-8K-0321	✔	✔	✔		✔

开源对话Chat类模型	模型版本	批量推理	预置模型评估	SFT训练后评估
Qwen-2.5	Qwen-2.5-7B	✔	✔	✔
QwQ-32B	QwQ-32B	✔	✔
DeepSeek-R1	DeepSeek-R1、DeepSeek-R1-250313	✔	✔	✔
DeepSeek-V3	DeepSeek-V3、DeepSeek-V3-250313	✔	✔
DeepSeek-R1-Distill-Qwen	DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-1.5B	✔	✔	✔
DeepSeek-R1-Distill-Llama	DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Llama-8B	✔	✔	✔

其他开源对话Chat类模型
压缩后模型： BLOOMZ-7B、Qianfan-Chinese-Llama-2-13B-v1 SFT后模型、Qianfan-Chinese-Llama-2-7B SFT后模型