资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看模型评估任务详情

接口描述

本接口用于根据评估任务id,查看模型评估任务详情。

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
  • 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
  • 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /v2/eval?Action=DescribeEvalTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "taskId": "ame-4kvnxxx"
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Query参数
名称 类型 必填 描述
Action string 方法名称,固定值DescribeEvalTask
  • Body参数
名称 类型 必填 描述
taskId string 评估任务id,说明:
(1)可以通过以下方式获取该字段值:
· 方式一,通过调用创建模型评估任务接口,返回的字段result获取
· 方式二,在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
image.png

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
requestId string 请求ID
code string 错误码,错误时返回
message string 错误信息,请求失败时返回
result object 请求结果,请求成功时返回

result说明

名称 类型 描述
taskId string 评估任务id
taskName string 评估任务名称
description string 评估任务描述
evalType string 评估类型,说明:
· manual:人工评估
· auto:自动评估
state string 说明:
· Queued:任务已提交,待调度
· Running:任务已调度,执行中
· RunningWithManualBegin:运行中(可人工标注)
· RunningWithMetricsCalculating:指标计算中(人工标注完成后,数据同步中)
· Successed:评估任务全部评估成功
· Stopping:任务停止中
· Failed:评估任务部分或全部失败
· Stopped:任务已全部停止
evalObjectConfig object[] 模型评估对象配置
evalConfig object 评估参数配置
inferDatasetList object[] 评估过程中产生的推理结果集列表,基于结果集的评估任务不会生成
createTime string 创建时间
updateTime string 修改时间

evalObjectConfig说明

名称 类型 描述
evalModelConfig object 评估模型配置信息
evalInferDatasetConfig object 评估结果集配置信息

evalInferDatasetConfig说明

  • 评估结果集对象的配置信息
名称 类型 描述
evalInferDatasetConfigList List<object> 评估子对象配置列表

evalInferDatasetConfigList说明

名称 类型 描述
inferDatasetId string 推理结果集ID
isBaseline bool 启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2

evalModelConfig说明

  • 评估模型对象的配置信息
名称 类型 描述
versionId string 评估数据集版本的ID,当评估对象是模型或者服务的时候,即evalObjectType=model,此字段有效
storageType string 推理结果集存储类型,说明:
(1)仅针对模型评估,用于存储评估过程中产生的推理结果集
(2)值如下:
· BOS:对象存储BOS
· sysStorage:平台共享存储
storagePath string 存储路径,说明:当存储类型为对象存储BOS时,即storageType=BOS,对应的完整存储路径
evalModelConfigList List<object> 评估子对象配置列表

evalModelConfigList说明

名称 类型 描述
modelId string 模型版本ID
promptTemplate string 推理Prompt,说明:
(1)必须包含{input}
(2)示例:你是一个好助手,请遵照{input)要求,以商务风格做出相应回复,要求语言简练,客观详尽。
params object 模型推理超参
isBaseline bool 启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2

params说明

名称 类型 描述
temperature float 温度,说明:
(1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定
(2)建议该参数和top_p只设置1个
(3)两位小数,范围[0.01, 1.00 ]
top_p float 多样性,说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)建议该参数和temperature只设置1个
(3)一位小数,取值范围[0.0, 1.0]
penalty_score float 重复惩罚,用通过对已生成的token增加惩罚,减少重复生成的现象。说明:
(1)值越大表示惩罚越大
(2)一位小数,取值范围[1.0, 2.0]
system string 模型人设字段
disable_search bool 是否强制关闭实时搜索功能,默认false,不关闭
enable_citation bool 搜索溯源,开启后有概率触发搜索溯源信息
top_k int 采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围:正整数
stop string[] 推理应用词表

evalConf说明

名称 类型 描述
evalMode string 评估模式,说明:
具体值如下 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
· rule,model:同时支持自动规则和自动裁判员评估
manualEvalConfig object 人工评估配置
autoRuleEvalConfig object 自动规则评估配置
autoModelEvalConfig object 自动裁判员评估配置

manualEvalConfig说明

  • 人工评估参数
名称 类型 描述
evalDimension object[] 人工评估评价维度,说明:
(1)默认维度为满意度,不可删除,平台会自动内置
(2)用户可自行添加其他维度,最多添加4个维度
(3)当evalMode参数中包含manual,即存在人工评估模式时,此字段有效

evalDimension说明

名称 类型 描述
dimension string 评价维度
description string 维度的描述

autoRuleEvalConfig说明

  • 自动规则评估参数
名称 类型 描述
stopWordList string[] 基于规则的停用词表,说明:当evalMode参数中包含rule,即存在规则评估模式时,此字段有效
scoreModes string[] 基于规则下的评分规则选择,说明:
具体值如下:
· similarity:相似度打分
· accuracy:准确率打分
stopWordsPath string 基于规则模式停用词表文件路径

autoModelEvalConfig说明

  • 自动裁判员评估参数
名称 类型 描述
promptParam object 裁判员评估打分模板配置,说明:
(1)当evalMode参数中包含model,即存在裁判员评估模式时,此字段有效
(2)用户若未指定则采用平台默认配置
apiName string 裁判员打分应用名称,裁判员打分应用默认使用EB3.5 和 EB4.0 的主线版本的预置服务进行评估,说明:
(1)当前仅开放两类名称,如下所示:
· EB3.5:ERNIE-Bot
· EB4.0:ERNIE-Bot-4.0
(2)不填默认是 ERNIE-Bot

promptParam说明

名称 类型 描述
metric string 指标内容,替换{metric}占位符
steps string 评分步骤,用于替换{steps}占位符
maxScore number 最高分,用于替换{max_score}占位符

inferDatasetList说明

  • 评估产生的推理结果集列表信息
名称 类型 描述
inferDatasetId string 推理结果集ID
modelId string 产出推理结果集的模型版本ID

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTask'\
--header 'Authorization: bce-auth-v1/047abxxxxxb1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7df79xxxxxx9d811cecfbd7d11ef'\ 
--header 'Content-Type: application/json'\ 
--data '{
    "taskId": "ame-4kvnxxx"
    }'

响应示例

{
	"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
	"result": {
		"taskId": "ame-4kvnxxxxx",
		"taskName": "自动评估_停止测试0910",
		"description": "",
		"state": "Succeeded",
		"evalObjectConfig": {
			"evalModelConfig": {
				"versionId": "ds-mwmk3mwkxxxxx",
				"storageType": "BOS",
				"storagePath": "bos:/aip-static/123",
				"evalModelConfigList": [
					{
						"modelId": "amv-6j6ixxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					},
					{
						"modelId": "amv-tts8vxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					}
				]
			}
		},
		"evalConfig": {
			"evalMode": "rule",
			"autoRuleEvalConfig": {
				"scoreModes": [
					"similarity",
					"accuracy"
				],
				"stopWordList": null,
				"stopWordsPath": ""
			}
		},
		"inferDatasetList": [
			{
				"inferDatasetId": "ds-sueg3fqxxxxx",
				"modelId": "amv-6j6is3sp166h"
			},
			{
				"inferDatasetId": "ds-ecwqqjxxxxx",
				"modelId": "amv-tts8v6re61hp"
			}
		],
		"createTime": "2024-09-10 11:52:53",
		"updateTime": "2024-09-10 16:52:25"
	}
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
requestId 请求ID
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如错误返回:

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码,也可以查看错误码说明

上一篇
查看模型评估任务列表
下一篇
查看模型评估任务报告