资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看模型评估任务报告

接口描述

本接口用于根据评估任务id,查看模型评估任务报告。

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
  • 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
  • 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /v2/eval?Action=DescribeEvalTaskReport HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "taskId": "ame-4kvnxxx"
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Query参数
名称 类型 必填 描述
Action string 方法名称,固定值DescribeEvalTaskReport
  • Body参数
名称 类型 必填 描述
taskId string 评估任务id,说明:
(1)可以通过以下方式获取该字段值:
· 方式一,通过调用创建模型评估任务接口,返回的字段result获取
· 方式二,在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
image.png

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
requestId string 请求ID
code string 错误码,错误时返回
message string 错误信息,请求失败时返回
result List<object> 请求结果,请求成功时返回

result说明

名称 类型 描述
taskId string 评估任务ID
taskName string 评估任务名称
modelId string 模型版本ID
inferDatasetId string 当前评估子任务使用的推理结果集id
evalObjectType string 评估的数据类型,说明:
· model:模型推理
· inferDataset:推理结果集
evalMode string 评估模式,说明:
具体值如下 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
· rule,model:同时支持自动规则和自动裁判员评估
effectMetric object 效果指标

effectMetric说明

名称 类型 描述
accuracy number 基于规则-准确率打分
f1Score number 基于规则-准确率打分
rouge_1 number 基于规则-相似度打分
rouge_2 number 基于规则-相似度打分
rouge_l number 基于规则-相似度打分
bleu4 number 基于规则-相似度打分
avgJudgeScore number 裁判员打分-均值
stdJudgeScore number 裁判员打分-标准差
medianJudgeScore number 裁判员打分-中位数
scoreDistribution map[string]int 裁判员打分-分值分布,说明:
(1)含有从最小值到最大值的所有分数
(2)-1为无效打分
manualAvgScore number 平均分
goodCaseProportion number good case占比
subjectiveImpression string 人工打分-主观印象
manualScoreDistribution object[] 维度分数分布
gsbDistribution map[string]int gsb打分分布

manualScoreDistribution说明

名称 类型 描述
dimension string 评价维度
scoreDistribution map[string]int 维度分值分布,key为分值,value为分值的个数

请求示例

curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTaskReport'\
--header 'Authorization: bce-auth-v1/047ab241ba****28b1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7d****1ef'\ 
--header 'Content-Type: application/json'\ 
--data '{
    "taskId": "ame-4kvnxxxxx"
}'

响应示例

{
	"requestId": "d60a00c4-a724-4851-96e5-b4dc3b258ca0",
	"result": [
		{
			"taskId": "ame-4kvnxxxx",
			"taskName": "自动评估_停止测试0910",
			"modelId": "amv-tts8v6re61hp",
			"inferDatasetId": "ds-ecwqqjb787dk1vm6",
			"evalObjectType": "service",
			"evalMode": "rule",
			"effectMetric": {
				"accuracy": 0,
				"f1Score": 0.34983957,
				"rouge_1": 0.33882716,
				"rouge_2": 0.15241386,
				"rouge_l": 0.26100817,
				"bleu4": 0.09671887,
				"avgJudgeScore": 0,
				"stdJudgeScore": 0,
				"medianJudgeScore": 0,
				"scoreDistribution": null,
				"manualAvgScore": 0,
				"goodCaseProportion": 0,
				"subjectiveImpression": "",
				"manualScoreDistribution": null,
				"gsbDistribution": null
			}
		},
		{
			"taskId": "ame-4kvnxxxx",
			"taskName": "自动评估_停止测试0910",
			"modelId": "amv-6j6is3sp166h",
			"inferDatasetId": "ds-sueg3fqnd14h9kqt",
			"evalObjectType": "service",
			"evalMode": "rule",
			"effectMetric": {
				"accuracy": 0,
				"f1Score": 0.34691638,
				"rouge_1": 0.32689363,
				"rouge_2": 0.13487022,
				"rouge_l": 0.25140443,
				"bleu4": 0.087691635,
				"edit_dist": 331.97778,
				"embedding_dist": 0.16930991,
				"avgJudgeScore": 0,
				"stdJudgeScore": 0,
				"medianJudgeScore": 0,
				"scoreDistribution": null,
				"manualAvgScore": 0,
				"goodCaseProportion": 0,
				"subjectiveImpression": "",
				"manualScoreDistribution": null,
				"gsbDistribution": null
			}
		}
	]
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
requestId 请求ID
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如错误返回:

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码,也可以查看错误码说明

上一篇
查看模型评估任务详情
下一篇
删除模型评估任务