查看模型评估任务详情

更新时间：2025-07-03

功能介绍

用于根据评估任务id，查看模型评估任务详情。

使用说明

本文API支持通过Go SDK、Java SDK和Node.js SDK调用，调用流程请参考SDK安装及使用流程。

权限说明

调用本文API，需符合以下权限要求，权限介绍及分配，请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限：

完全控制千帆大模型平台的权限：QianfanFullControlAccessPolicy
只读访问千帆大模型平台的权限：QianfanReadAccessPolicy
完全控制千帆大模型平台模型调优的权限：QianfanModelTuningFullControlAccessPolicy
只读访问千帆大模型平台模型调优的权限：QianfanModelTuningReadAccessPolicy

SDK调用

调用示例

import os
from qianfan  import resources

# 通过环境变量初始化认证信息
# 使用安全认证AK/SK调用，替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk，如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

resp = resources.console.utils.call_action(
    # 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求结构-请求地址的后缀
    "/v2/eval", 
    # 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求参数-Query参数的Action 
    "DescribeEvalTask",
    # 请查看本文请求参数说明，根据实际使用选择参数；对应API调用文档-请求参数-Body参数
    {"taskId": "ame-4kvnxxx"}
)
print(resp.body)

package main

import (
    "context"
    "fmt"
    "os"

    "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
)

func main() {
     // 使用安全认证AK/SK鉴权，通过环境变量初始化；替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
    os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
    os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
    
    ca := qianfan.NewConsoleAction()
    
    res, err := ca.Call(context.TODO(),
    // 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求结构-请求地址的后缀
    "/v2/eval",
    // 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求参数-Query参数的Action 
    "DescribeEvalTask",
    // 请查看本文请求参数说明，根据实际使用选择参数；对应API调用文档-请求参数-Body参数
    map[string]interface{}{
       "taskId": "ame-4kvnxxx",
    })
    if err != nil {
        panic(err)
    }
    fmt.Println(string(res.Body))
    
}

import com.baidubce.qianfan.Qianfan;
import com.baidubce.qianfan.model.console.ConsoleResponse;
import com.baidubce.qianfan.util.CollUtils;
import com.baidubce.qianfan.util.Json;
import java.util.Map;

public class Dome {
    public static void main(String args[]){
        // 使用安全认证AK/SK鉴权，替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
        Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
        
        ConsoleResponse<Map<String, Object>> response = qianfan.console()
                // 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求结构-请求地址的后缀
                .route("/v2/eval")
                // 调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求参数-Query参数的Action 
                .action("DescribeEvalTask")
                // 需要传入参数的场景，可以自行封装请求类，或者使用Map.of()来构建请求Body
                // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
                // 请查看本文请求参数说明，根据实际使用选择参数；对应API调用文档-请求参数-Body参数
                .body(CollUtils.mapOf(
                    "taskId", "ame-4kvnxxx"
                ))
                .execute();

        System.out.println(Json.serialize(response));
    }
}

import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";

// 使用安全认证AK/SK鉴权，通过环境变量初始化；替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');

async function main() {
  //base_api_route:调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求结构-请求地址的后缀
  //action:调用本文API，该参数值为固定值，无需修改；对应API调用文档-请求参数-Query参数的Action 
  //data:请查看本文请求参数说明，根据实际使用选择参数；对应API调用文档-请求参数-Body参数
  const res = await consoleAction({base_api_route: '/v2/eval', action: 'DescribeEvalTask', data: {
       "taskId": "ame-4kvnxxx"
  });    
    
  console.log(res);
}

main();

返回示例

{
	'requestId': '81252b33-a63e-4231-93cb-8df1f2720a0d',
	'result': {
		'taskId': 'ame-4kvnxxxxx',
		'taskName': '自动评估_停止测试0910',
		'description': '',
		'state': 'Succeeded',
		'evalObjectConfig': {
			'evalModelConfig': {
				'versionId': 'ds-mwmk3mwkxxxxx',
				'storageType': 'BOS',
				'storagePath': 'bos:/aip-static/123',
				'evalModelConfigList': [
					{
						'modelId': 'amv-6j6ixxxxx',
						'isBaseline': False,
						'promptTemplate': '',
						'params': {}
					},
					{
						'modelId': 'amv-tts8vxxxx',
						'isBaseline': False,
						'promptTemplate': ',
						'params': {}
					}
				]
			}
		},
		'evalConfig': {
			'evalMode': 'rule',
			'autoRuleEvalConfig': {
				'scoreModes': [
					'similarity',
					'accuracy'
				],
				'stopWordList': null,
				'stopWordsPath': '
			}
		},
		'inferDatasetList': [
			{
				'inferDatasetId': 'ds-sueg3fqxxxxx',
				'modelId': 'amv-6j6is3sp166h'
			},
			{
				'inferDatasetId': 'ds-ecwqqjxxxxx',
				'modelId': 'amv-tts8v6re61hp'
			}
		],
		'createTime': '2024-09-10 11:52:53',
		'updateTime': '2024-09-10 16:52:25'
	}
}

{
	"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
	"result": {
		"taskId": "ame-4kvnxxxxx",
		"taskName": "自动评估_停止测试0910",
		"description": "",
		"state": "Succeeded",
		"evalObjectConfig": {
			"evalModelConfig": {
				"versionId": "ds-mwmk3mwkxxxxx",
				"storageType": "BOS",
				"storagePath": "bos:/aip-static/123",
				"evalModelConfigList": [
					{
						"modelId": "amv-6j6ixxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					},
					{
						"modelId": "amv-tts8vxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					}
				]
			}
		},
		"evalConfig": {
			"evalMode": "rule",
			"autoRuleEvalConfig": {
				"scoreModes": [
					"similarity",
					"accuracy"
				],
				"stopWordList": null,
				"stopWordsPath": ""
			}
		},
		"inferDatasetList": [
			{
				"inferDatasetId": "ds-sueg3fqxxxxx",
				"modelId": "amv-6j6is3sp166h"
			},
			{
				"inferDatasetId": "ds-ecwqqjxxxxx",
				"modelId": "amv-tts8v6re61hp"
			}
		],
		"createTime": "2024-09-10 11:52:53",
		"updateTime": "2024-09-10 16:52:25"
	}
}

{
	"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
	"result": {
		"taskId": "ame-4kvnxxxxx",
		"taskName": "自动评估_停止测试0910",
		"description": "",
		"state": "Succeeded",
		"evalObjectConfig": {
			"evalModelConfig": {
				"versionId": "ds-mwmk3mwkxxxxx",
				"storageType": "BOS",
				"storagePath": "bos:/aip-static/123",
				"evalModelConfigList": [
					{
						"modelId": "amv-6j6ixxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					},
					{
						"modelId": "amv-tts8vxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					}
				]
			}
		},
		"evalConfig": {
			"evalMode": "rule",
			"autoRuleEvalConfig": {
				"scoreModes": [
					"similarity",
					"accuracy"
				],
				"stopWordList": null,
				"stopWordsPath": ""
			}
		},
		"inferDatasetList": [
			{
				"inferDatasetId": "ds-sueg3fqxxxxx",
				"modelId": "amv-6j6is3sp166h"
			},
			{
				"inferDatasetId": "ds-ecwqqjxxxxx",
				"modelId": "amv-tts8v6re61hp"
			}
		],
		"createTime": "2024-09-10 11:52:53",
		"updateTime": "2024-09-10 16:52:25"
	}
}

{
	requestId: '81252b33-a63e-4231-93cb-8df1f2720a0d',
	result: {
		taskId: 'ame-4kvnxxxxx',
		taskName: '自动评估_停止测试0910',
		description: '',
		state: 'Succeeded',
		evalObjectConfig: {
			evalModelConfig: {
				versionId: 'ds-mwmk3mwkxxxxx',
				storageType: 'BOS',
				storagePath: 'bos:/aip-static/123',
				evalModelConfigList: [
					{
						modelId: 'amv-6j6ixxxxx',
						isBaseline: false,
						promptTemplate: '',
						params: {}
					},
					{
						modelId: 'amv-tts8vxxxx',
						isBaseline: false,
						promptTemplate: '',
						params: {}
					}
				]
			}
		},
		evalConfig: {
			evalMode: 'rule',
			autoRuleEvalConfig: {
				scoreModes: [
					"similarity",
					"accuracy"
				],
				stopWordList: null,
				stopWordsPath: ''
			}
		},
		inferDatasetList: [
			{
				inferDatasetId: 'ds-sueg3fqxxxxx',
				modelId: 'amv-6j6is3sp166h'
			},
			{
				inferDatasetId: 'ds-ecwqqjxxxxx',
				modelId: 'amv-tts8v6re61hp'
			}
		],
		createTime: '2024-09-10 11:52:53',
		updateTime: '2024-09-10 16:52:25'
	}
}

请求参数

名称	类型	必填	描述
taskId	string	是	评估任务ID，说明：（1）可以通过以下方式获取该字段值： · 方式一：通过调用创建模型评估任务接口，返回的字段result获取 · 方式二：在控制台-模型调优-模型评估，点击某评估任务名称打开详情页，在任务详情的基本信息中查看，如下图所示

返回参数

名称	类型	描述
requestId	string	请求ID
code	string	错误码，错误时返回
message	string	错误信息，请求失败时返回
result	object	请求结果，请求成功时返回

result说明

名称	类型	描述
taskId	string	评估任务ID
taskName	string	评估任务名称
description	string	评估任务描述
evalType	string	评估类型，说明： · manual：人工评估 · auto：自动评估
state	string	说明： · Queued：任务已提交，待调度 · Running：任务已调度，执行中 · RunningWithManualBegin：运行中（可人工标注） · RunningWithMetricsCalculating：指标计算中（人工标注完成后，数据同步中） · Successed：评估任务全部评估成功 · Stopping：任务停止中 · Failed：评估任务部分或全部失败 · Stopped：任务已全部停止
evalObjectConfig	List<object>	模型评估对象配置
evalConfig	object	评估参数配置
inferDatasetList	List<object>	评估过程中产生的推理结果集列表，基于结果集的评估任务不会生成
createTime	string	创建时间
updateTime	string	修改时间

evalObjectConfig说明

名称	类型	描述
evalModelConfig	object	评估模型配置信息
evalInferDatasetConfig	object	评估结果集配置信息

evalInferDatasetConfig说明

评估结果集对象的配置信息

名称	类型	描述
evalInferDatasetConfigList	List<object>	评估子对象配置列表

evalInferDatasetConfigList说明

名称	类型	描述
inferDatasetId	string	推理结果集ID
isBaseline	bool	启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

evalModelConfig说明

评估模型对象的配置信息

名称	类型	描述
versionId	string	评估数据集版本的ID，当评估对象是模型或者服务的时候，即evalObjectType=model，此字段有效
storageType	string	推理结果集存储类型，说明：（1）仅针对模型评估，用于存储评估过程中产生的推理结果集（2）值如下： · BOS：对象存储BOS · sysStorage：平台共享存储
storagePath	string	存储路径，说明：当存储类型为对象存储BOS时，即storageType=BOS，对应的完整存储路径
evalModelConfigList	List<object>	评估子对象配置列表

evalModelConfigList说明

名称	类型	描述
modelId	string	模型版本ID
promptTemplate	string	推理Prompt，说明：（1）必须包含{input} （2）示例：你是一个好助手，请遵照{input)要求，以商务风格做出相应回复，要求语言简练，客观详尽。
params	object	模型推理超参
isBaseline	bool	启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

params说明

名称	类型	描述
temperature	float	温度，说明：（1）较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定（2）建议该参数和top_p只设置1个（3）两位小数，范围[0.01, 1.00]
top_p	float	多样性，说明：（1）影响输出文本的多样性，取值越大，生成文本的多样性越强（2）建议该参数和temperature只设置1个（3）一位小数，取值范围[0.0, 1.0]
penalty_score	float	重复惩罚，用通过对已生成的token增加惩罚，减少重复生成的现象。说明：（1）值越大表示惩罚越大（2）一位小数，取值范围[1.0, 2.0]
system	string	模型人设字段
top_k	int	采样参数，在每轮token生成时，保留k个概率最高的token作为候选。说明：（1）影响输出文本的多样性，取值越大，生成文本的多样性越强（2）取值范围：正整数
stop	List<string>	推理应用词表

evalConf说明

名称	类型	描述
evalMode	string	评估模式，说明：具体值如下： · rule：基于规则 · model：裁判员模型 · manual：人工评估 · rule,model：同时支持自动规则和自动裁判员评估
manualEvalConfig	object	人工评估配置
autoRuleEvalConfig	object	自动规则评估配置
autoModelEvalConfig	object	自动裁判员评估配置

manualEvalConfig说明

人工评估参数

名称	类型	描述
evalDimension	List<object>	人工评估评价维度，说明：（1）默认维度为满意度，不可删除，平台会自动内置（2）用户可自行添加其他维度，最多添加4个维度（3）当evalMode参数中包含manual，即存在人工评估模式时，此字段有效

evalDimension说明

名称	类型	描述
dimension	string	评价维度
description	string	维度的描述

autoRuleEvalConfig说明

自动规则评估参数

名称	类型	描述
stopWordList	List<string>	基于规则的停用词表，说明：当evalMode参数中包含rule，即存在规则评估模式时，此字段有效
scoreModes	List<string>	基于规则下的评分规则选择，说明：具体值如下： · similarity：相似度打分 · accuracy：准确率打分
stopWordsPath	string	基于规则模式停用词表文件路径

autoModelEvalConfig说明

自动裁判员评估参数

名称	类型	描述
promptParam	object	裁判员评估打分模板配置，说明：（1）当evalMode参数中包含model，即存在裁判员评估模式时，此字段有效（2）用户若未指定则采用平台默认配置
apiName	string	裁判员打分应用名称，裁判员打分应用默认使用EB3.5和EB4.0的主线版本的预置服务进行评估，说明：（1）当前仅开放两类名称，如下所示： · EB3.5：ERNIE-Bot · EB4.0：ERNIE-Bot-4.0 （2）不填默认是ERNIE-Bot

promptParam说明

名称	类型	描述
metric	string	指标内容，替换{metric}占位符
steps	string	评分步骤，用于替换{steps}占位符
maxScore	number	最高分，用于替换{max_score}占位符

inferDatasetList说明

评估产生的推理结果集列表信息

名称	类型	描述
inferDatasetId	string	推理结果集ID
modelId	string	产出推理结果集的模型版本ID

查看模型评估任务列表

查看模型评估任务报告