查看模型评估任务详情

更新时间：2025-09-03

接口描述

本接口用于根据评估任务id，查看模型评估任务详情。

权限说明

调用本文API，需符合以下权限要求，权限介绍及分配，请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限：

完全控制千帆大模型平台的权限：QianfanFullControlAccessPolicy
只读访问千帆大模型平台的权限：QianfanReadAccessPolicy
完全控制千帆大模型平台模型调优的权限：QianfanModelTuningFullControlAccessPolicy
只读访问千帆大模型平台模型调优的权限：QianfanModelTuningReadAccessPolicy

鉴权说明

调用本文API，使用“基于安全认证AK/SK”进行签名计算鉴权，即使用安全认证中的Access Key ID和Secret Access Key进行鉴权，具体鉴权认证机制参考HTTP调用鉴权说明。

请求结构

Bash

POST /v2/eval?Action=DescribeEvalTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "taskId": "ame-4kvnxxx"
}

请求头域

除公共头域外，无其它特殊头域。

请求参数

Query参数

名称	类型	必填	描述
Action	string	是	方法名称，固定值DescribeEvalTask

Body参数

名称	类型	必填	描述
taskId	string	是	评估任务ID，说明：（1）可以通过以下方式获取该字段值： · 方式一：通过调用创建模型评估任务接口，返回的字段result获取 · 方式二：在控制台-模型调优-模型评估，点击某评估任务名称打开详情页，在任务详情的基本信息中查看，如下图所示

响应头域

除公共头域外，无其它特殊头域。

响应参数

名称	类型	描述
requestId	string	请求ID
code	string	错误码，错误时返回
message	string	错误信息，请求失败时返回
result	object	请求结果，请求成功时返回

result说明

名称	类型	描述
taskId	string	评估任务ID
taskName	string	评估任务名称
description	string	评估任务描述
evalType	string	评估类型，说明： · manual：人工评估 · auto：自动评估
state	string	说明： · Queued：任务已提交，待调度 · Running：任务已调度，执行中 · RunningWithManualBegin：运行中（可人工标注） · RunningWithMetricsCalculating：指标计算中（人工标注完成后，数据同步中） · Successed：评估任务全部评估成功 · Stopping：任务停止中 · Failed：评估任务部分或全部失败 · Stopped：任务已全部停止
evalObjectConfig	List<object>	模型评估对象配置
evalConfig	object	评估参数配置
inferDatasetList	List<object>	评估过程中产生的推理结果集列表，基于结果集的评估任务不会生成
createTime	string	创建时间
updateTime	string	修改时间

evalObjectConfig说明

名称	类型	描述
evalModelConfig	object	评估模型配置信息
evalInferDatasetConfig	object	评估结果集配置信息

evalInferDatasetConfig说明

评估结果集对象的配置信息

名称	类型	描述
evalInferDatasetConfigList	List<object>	评估子对象配置列表

evalInferDatasetConfigList说明

名称	类型	描述
inferDatasetId	string	推理结果集ID
isBaseline	bool	启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

evalModelConfig说明

评估模型对象的配置信息

名称	类型	描述
versionId	string	评估数据集版本的ID，当评估对象是模型或者服务的时候，即evalObjectType=model，此字段有效
storageType	string	推理结果集存储类型，说明：（1）仅针对模型评估，用于存储评估过程中产生的推理结果集（2）值如下： · BOS：对象存储BOS · sysStorage：平台共享存储
storagePath	string	存储路径，说明：当存储类型为对象存储BOS时，即storageType=BOS，对应的完整存储路径
evalModelConfigList	List<object>	评估子对象配置列表

evalModelConfigList说明

名称	类型	描述
modelId	string	模型版本ID
promptTemplate	string	推理Prompt，说明：（1）必须包含{input} （2）示例：你是一个好助手，请遵照{input)要求，以商务风格做出相应回复，要求语言简练，客观详尽。
params	object	模型推理超参
isBaseline	bool	启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

params说明

名称	类型	描述
temperature	float	温度，说明：（1）较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定（2）建议该参数和top_p只设置1个（3）两位小数，范围[0.01, 1.00]
top_p	float	多样性，说明：（1）影响输出文本的多样性，取值越大，生成文本的多样性越强（2）建议该参数和temperature只设置1个（3）一位小数，取值范围[0.0, 1.0]
penalty_score	float	重复惩罚，用通过对已生成的token增加惩罚，减少重复生成的现象。说明：（1）值越大表示惩罚越大（2）一位小数，取值范围[1.0, 2.0]
system	string	模型人设字段
top_k	int	采样参数，在每轮token生成时，保留k个概率最高的token作为候选。说明：（1）影响输出文本的多样性，取值越大，生成文本的多样性越强（2）取值范围：正整数
stop	List<string>	推理应用词表

evalConfig说明

名称	类型	描述
evalMode	string	评估模式，具体值如下： · rule：基于规则 · model：裁判员模型 · manual：人工评估 · rule,model：同时支持自动规则和自动裁判员评估
manualEvalConfig	object	人工评估配置
autoRuleEvalConfig	object	自动规则评估配置
autoModelEvalConfig	object	自动裁判员评估配置

manualEvalConfig说明

人工评估参数

名称	类型	描述
evalDimension	List<object>	人工评估评价维度，说明：（1）默认维度为满意度，不可删除，平台会自动内置（2）用户可自行添加其他维度，最多添加4个维度（3）当evalMode参数中包含manual，即存在人工评估模式时，此字段有效

evalDimension说明

名称	类型	描述
dimension	string	评价维度
description	string	维度的描述

autoRuleEvalConfig说明

自动规则评估参数

名称	类型	描述
stopWordList	List<string>	基于规则的停用词表，说明：当evalMode参数中包含rule，即存在规则评估模式时，此字段有效
scoreModes	List<string>	基于规则下的评分规则选择，说明：具体值如下： · similarity：相似度打分 · accuracy：准确率打分
stopWordsPath	string	基于规则模式停用词表文件路径

autoModelEvalConfig说明

自动裁判员评估参数

名称	类型	描述
promptParam	object	裁判员评估打分模板配置，说明：（1）当evalMode参数中包含model，即存在裁判员评估模式时，此字段有效（2）用户若未指定则采用平台默认配置
apiName	string	裁判员打分应用名称，裁判员打分应用默认使用EB3.5和EB4.0的主线版本的预置服务进行评估，说明：（1）当前仅开放两类名称，如下所示： · EB3.5：ERNIE-Bot · EB4.0：ERNIE-Bot-4.0 （2）不填默认是 ERNIE-Bot

promptParam说明

名称	类型	描述
metric	string	指标内容，替换{metric}占位符
steps	string	评分步骤，用于替换{steps}占位符
maxScore	number	最高分，用于替换{max_score}占位符

inferDatasetList说明

评估产生的推理结果集列表信息

名称	类型	描述
inferDatasetId	string	推理结果集ID
modelId	string	产出推理结果集的模型版本ID

请求示例

Bash

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTask'\
--header 'Authorization: bce-auth-v1/047abxxxxxb1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7df79xxxxxx9d811cecfbd7d11ef'\ 
--header 'Content-Type: application/json'\ 
--data '{
    "taskId": "ame-4kvnxxx"
    }'

响应示例

JSON

{
	"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
	"result": {
		"taskId": "ame-4kvnxxxxx",
		"taskName": "自动评估_停止测试0910",
		"description": "",
		"state": "Succeeded",
		"evalObjectConfig": {
			"evalModelConfig": {
				"versionId": "ds-mwmk3mwkxxxxx",
				"storageType": "BOS",
				"storagePath": "bos:/aip-static/123",
				"evalModelConfigList": [
					{
						"modelId": "amv-6j6ixxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					},
					{
						"modelId": "amv-tts8vxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					}
				]
			}
		},
		"evalConfig": {
			"evalMode": "rule",
			"autoRuleEvalConfig": {
				"scoreModes": [
					"similarity",
					"accuracy"
				],
				"stopWordList": null,
				"stopWordsPath": ""
			}
		},
		"inferDatasetList": [
			{
				"inferDatasetId": "ds-sueg3fqxxxxx",
				"modelId": "amv-6j6is3sp166h"
			},
			{
				"inferDatasetId": "ds-ecwqqjxxxxx",
				"modelId": "amv-tts8v6re61hp"
			}
		],
		"createTime": "2024-09-10 11:52:53",
		"updateTime": "2024-09-10 16:52:25"
	}
}

错误码

若请求错误，服务器将返回的JSON文本包含以下参数：

名称	描述
requestId	请求ID
code	错误码
message	错误描述信息，帮助理解和解决发生的错误

例如错误返回：

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码，也可以查看错误码说明。

查看模型评估任务列表

查看模型评估任务报告