资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看模型评估详情

接口描述

本接口用于获得模型评估任务详情。

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /wenxinworkshop/modelrepo/eval/detail HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
   "id":"ame-vwgs2ybhyhfv"
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Body参数
名称 类型 必填 描述
id string 评估任务id,示例:ame-vwgs2ybhyhfv,说明:
(1)可以通过以下方式获取该字段值:
· 方式一,通过调用创建模型评估任务接口,返回的字段evalIdStr获取
· 方式二,在控制台-模型评估页面,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
image.png
(2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建模型评估任务接口,返回的字段evalId获取,建议替换为返回的字段evalIdStr获取

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
log_id string 请求ID
result object 请求结果

result说明

名称 类型 描述
evaluationId int 评估任务id,注意,该字段后续可能废弃,如需使用评估任务id,请使用evaluationIdStr
evaluationIdStr string 评估任务id
name string 评估任务名称
description string 评估任务描述
state string 说明:
· Pending:任务已提交,待调度
· Doing:任务已调度,执行中
· DoingWithManualBegin:运行中(可人工标注)
· DoingWithMetricsCalculating:指标计算中(人工标注完成后,数据同步中)
· Stopping:任务停止中
· Done:评估任务全部评估成功
· PartlyDone:评估任务部分评估成功
· Fail:评估任务全部失败
· Stopped:任务已全部停止
evalUnits object [] 模型评估子任务,每个模型有一个子任务
datasetName string 评估数据集名称
datasetId int 评估数据集id
datasetIdStr string 评估数据集字符串id
evalStandardConf object 评估模式配置
computeResourceConf object 计算资源配置

evalUnits说明

名称 类型 描述
modelName string 评估模型名称
modelId integer 模型ID,注意,该字段后续可能废弃,如需使用模型ID,请使用modelIdStr
modelIdStr string 模型ID
modelVersionId integer 模型版本ID,注意,该字段后续可能废弃,如需使用模型版本ID,请使用modelVersionIdStr
modelVersionIdStr string 模型版本ID
modelVersion string 模型版本号
modelSource string 评估模型来源,说明:
· UserCreate :训练发布或平台压缩生成
· PlatformPreset:平台预置模型
state string 评估子任务状态
modelVersionDesc string 评估模型版本描述
message string 错误信息
modelTags string[] 评估模型业务标签列表
evalUnitId string 评估子任务id,用于唯一标识评估子任务
modelForm string 评估的物料类型,说明:
· model:模型,旧数据(推理结果集评估功能上线前的评估任务)类型都是模型,即值为model
· inferDataset:推理结果集
createNewInferDataset bool 是否需要产出推理结果集,说明:
(1)模型评估全为true(推理结果集评估功能上线前的评估任务除外)
(2)推理结果集评估全为false
(3)旧数据(推理结果集评估功能上线前的评估任务)全为false
inferDatasetId string 推理结果集id
inferDatasetState string 推理结果集状态,说明
· pending:等待创建
· success:
(1)如果选择已有推理结果集评估,返回success;
(2)如果选择模型评估,代表新建的推理结果集记录创建成功
· failed:创建推理结果集记录失败
inferDatasetName string 推理结果集名称
inferDatasetStorageType string 推理结果集存储类型,说明:
· usrBos:用户存储
· sysBos:系统存储
inferDatasetStorageId string 推理结果集存储bucket
inferDatasetRawPath string 推理结果集存储路径,不包含bucket的子路径
inferDatasetErrMsg string 创建推理结果集失败时的报错信息
prompt Prompt prompt模板信息
params Params 模型推理超参

prompt说明

名称 类型 必填 描述
enable bool 是否启用Prompt模板
content string Prompt模板内容,说明:
(1)需要包含{input}标签,作为输入数据集中prompt的占位符
(2)示例,例如此字段为:"请你回答以下问题:{input}"在实际推理时,假设输入数据集中一条数据prompt为:"请给出一个人工智能的标题"最终模型推理时,会传入以下prompt:"请你回答以下问题:请给出一个人工智能的标题"

params说明

prompt模板信息如下:

名称 类型 必填 描述
temperature float 温度,说明:
(1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定
(2)两位小数,范围 (0, 1.0],不能为0
top_p float 多样性,说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围 [0, 1.0]
penalty_score float 通过对已生成的token增加惩罚,减少重复生成的现象。说明:
(1)值越大表示惩罚越大
(2)取值范围:[1.0, 2.0]
disable_search bool 是否强制关闭实时搜索功能,默认false,表示不关闭
enable_citation bool 搜索溯源,开启后有概率触发搜索溯源信息
top_k int Top-K 采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围:正整数

evalStandardConf说明

名称 类型 描述
evalMode string 评估模式,说明:
(1)有以下评估模式 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
(2)多个模式使用,拼接,示例“model,manual,rule”
stopWordsPath string 基于规则模式停用词表路径
scoreModes string[] 基于规则下的评分规则选择,说明:
· similarity :相似度打分
· accuracy:准确率打分
appId number 裁判员模型的应用id
appAk string 裁判员应用的ak
appSk string 裁判员应用的sk
apiName string 裁判员应用的api名称
apiUrl string 裁判员应用的api url
prompt object 裁判员评估打分模板配置
resultDatasetId int 人工评估结果集id
resultDatasetName string 人工评估结果集名称
resultDatasetStorageType string bos类型,说明:
(1)可选值如下:
· sysBos:系统bos
· usrBos:用户bos
(2)不填默认是系统bos
resultDatasetStorageId string 用户bos的bucket
resultDatasetRawPath string 用户bos用于存放数据集的路径,不包含bucket的子路径
resultDatasetProjectType int 人工评估结果集类型
resultDatasetImportStatus int 人工评估结果集导入状态,说明:
· -1 : 未导入
· 0 : 待导入任务开始
· 1 : 导入中
· 2 : 导入完成
· 3 : 导入失败
· 4 : 导入中止
resultDatasetReleaseStatus int 人工评估结果集发布状态,说明:
· 0 : 未发布
· 1 : 发布中
· 2 : 发布成功
· 3 : 发布失败
evaluationDimension object[] 人工评估评价维度,说明:
· 默认维度为满意度,不可删除
· 用户可自行添加其他维度,最多添加4个维度

prompt说明

裁判员评估打分模板配置如下:

名称 类型 描述
templateName string 当前版本固定值为裁判员模型打分模板(含参考答案)
templateContent string 模板内容
metric string 指标内容,替换{metric}占位符
steps string 评分步骤,用于替换{steps}占位符
maxScore number 最高分,用于替换{max_score}占位符

evaluationDimension说明

名称 类型 描述
dimension string 评价维度
description string 维度的描述
minScore int 固定值为0
maxScore int 固定值为2

computeResourceConf说明

名称 类型 描述
vmType integer 计算资源规格ID
vmNumber number 计算资源数量
accCardType string 加速卡类型,私有化
accCardNum number 加速卡个数,私有化
cpu number 私有化
memory number 私有化,单位为MB
computeResourceId string 私有化,资源池id
computeResourceName string 私有化

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl 'https://qianfan.baidubce.com/wenxinworkshop/modelrepo/eval/detail' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f4xxxx23d080016e374525543' \
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \
--data '{"id":"ame-vwgs2ybhyhfv"}' 

响应示例

{
    "log_id": "3375604747",
    "result": {
        "evaluationId": 401,
        "evaluationIdStr": "ame-2xxxs2rn4",
        "name": "cl_联调_模型评估_用户bos",
        "description": "",
        "state": "Done",
        "evalUnits": [
            {
                "modelVersionId": 833,
                "modelVersionIdStr": "amv-7abxxxspe1",
                "modelId": 591,
                "modelIdStr": "am-dkxwxxxjgw",
                "modelName": "llama2_7b_32k_z_sft",
                "modelVersion": "1",
                "modelSource": "Train",
                "state": "Done",
                "modelVersionDesc": "",
                "message": "",
                "modelTags": null,
                "evalUnitId": "ameu-gpxxxis0n",
                "modelForm": "model",
                "createNewInferDataset": true,
                "inferDatasetId": "ds-p79kxxxr3b7sbk",
                "inferDatasetState": "success",
                "inferDatasetName": "cl_联调_模型评估_用户bos_llama2_xxxsft_V1_jmrr",
                "inferDatasetStorageType": "usrBos",
                "inferDatasetStorageId": "testmc",
                "inferDatasetRawPath": "/data/",
                "inferDatasetErrMsg": "",
                "prompt": {
                    "enable": true,
                    "content": "测试一下:{input}"
                },
                "params": {
                    "temperature": 0.1,
                    "top_p": 1,
                    "disable_search": false,
                    "enable_citation": false,
                    "top_k": 10
                }
            },
            {
                "modelVersionId": 760,
                "modelVersionIdStr": "amv-g2acjfb10g9v",
                "modelId": 545,
                "modelIdStr": "am-ktcyvusq688z",
                "modelName": "mixtral2",
                "modelVersion": "8",
                "modelSource": "Train",
                "state": "Done",
                "modelVersionDesc": "test",
                "message": "",
                "modelTags": [
                    "t1"
                ],
                "evalUnitId": "ameu-1uxxxxi8uc2",
                "modelForm": "model",
                "createNewInferDataset": true,
                "inferDatasetId": "ds-ba82xxxw7pguh",
                "inferDatasetState": "success",
                "inferDatasetName": "cl_联调_模型评估_用户bos_mxxxl2_V8_x5xt",
                "inferDatasetStorageType": "usrBos",
                "inferDatasetStorageId": "testmc",
                "inferDatasetRawPath": "/data/",
                "inferDatasetErrMsg": "",
                "prompt": {
                    "enable": true,
                    "content": "测试一下1:{input}"
                },
                "params": {
                    "temperature": 0.1,
                    "top_p": 1,
                    "disable_search": false,
                    "enable_citation": false,
                    "top_k": 10
                }
            }
        ],
        "datasetId": 529,
        "datasetName": "我的数据集>zy_对话1>V1",
        "computeResourceConf": {
            "vmType": 1,
            "vmNumber": 8
        },
        "evalStandardConf": {
            "evalMode": "manual",
            "resultDatasetId": 1371,
            "resultDatasetIdStr": "ds-dvz1pp1hdqb4d7p1",
            "resultDatasetName": "评估任务_cl_xxx_用户bos_结果集_5dd2c9",
            "resultDatasetProjectType": 20,
            "resultDatasetImportStatus": 2,
            "resultDatasetReleaseStatus": 2,
            "resultDatasetStorageType": "usrBos",
            "resultDatasetStorageId": "testmc",
            "resultDatasetRawPath": "/data/",
            "evaluationDimension": [
                {
                    "dimension": "满意度",
                    "description": "",
                    "minScore": 0,
                    "maxScore": 2
                },
                {
                    "dimension": "安全性",
                    "description": "",
                    "minScore": 0,
                    "maxScore": 2
                }
            ]
        },
        "datasetIdStr": "ds-1cbcxxxxm2c"
    }
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
error_code 错误码
error_msg 错误描述信息,帮助理解和解决发生的错误

例如参数错误返回:

{
  "error_code": 500001,
  "error_msg": "param invalid"
}

更多其他错误码,也可以查看错误码说明

错误码 错误信息 描述
70003 该模型评估任务不存在 模型评估任务不存在
500000 internal server error 服务器内部错误
500001 param invalid 参数错误
500001 param[%s] invalid 参数错误
500002 auth failed, no access 无权访问
上一篇
创建模型评估任务
下一篇
查看模型评估报告