资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建模型评估任务

接口描述

本接口用于创建模型评估任务。

权限说明

调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表账号创建与权限分配。需具有以下任一权限:

  • 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
  • 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /v2/eval?Action=CreateEvalTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "taskName": "管控API裁判员评估测试",
        "description": "管控API测试",
        "evalObjectType": "model",
        "evalObjectConfig": {
            "evalModelConfig": {
                "versionId": "ds-mwmk3mwxxxxxfk",
                "storageType": "sysStorage",
                "evalModelConfigList": [
                    {
                        "modelId": "amv-ttsxxxx1hp",
                        "promptTemplate": "你是一个好助手,请遵照{input}要求,以商务风格做出相应回复,要求语言简练,客观详尽。"
                    }
                ]
            }
        },
        "evalConfig": {
            "evalMode": "model",
            "autoModelEvalConfig": {
                "apiName": "ERNIE-xxx"
            }
        }
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Query参数
名称 类型 必填 描述
Action string 方法名称,固定值CreateEvalTask
  • Body参数
名称 类型 必填 描述
taskName string 任务名称
description string 任务描述
evalObjectType string 评估的数据类型,可选值如下:
· inferDataset:推理数据集
· model:评估模型
evalObjectConfig object 评估对象配置信息
evalConfig object 评估参数配置

evalObjectConfig说明

  • 最多支持五个评估对象,五个对象的类型需要保持一致
名称 类型 必填 描述
evalModelConfig object 评估模型配置信息
evalInferDatasetConfig object 评估结果集配置信息

evalInferDatasetConfig说明

  • 评估结果集对象的配置信息
名称 类型 必填 描述
evalInferDatasetConfigList List<object> 评估子对象配置列表

evalInferDatasetConfigList说明

名称 类型 必填 描述
inferDatasetId string 推理结果集ID,通过以下方法获取该字段值,在控制台-数据管理-数据集-推理结果集页面,点击某个推理结果集详情,点击推理结果集信息页面查看,如下图所示:
image.png
isBaseline bool 启用GSB时,表示基准对象;若开启,要求待评估对象的数量为2

evalModelConfig说明

  • 评估模型对象的配置信息
名称 类型 必填 描述
versionId string 评估数据集版本的ID,说明:
(1)当评估对象是模型或者服务的时候,即evalObjectType=model,该字段必填
(2)可以通过以下任一方式获取该字段值:
· 方式一,通过调用创建数据集接口,返回的versionId字段获取
· 方式二,在控制台-数据管理-数据集-通用数据集查看,如下图所示:
image.png
storageType string 推理结果集存储类型,说明:
(1)仅针对模型评估,用于存储评估过程中产生的推理结果集
(2)可选值如下:
· BOS:对象存储BOS
· sysStorage:平台共享存储,不填默认是sysStorage
storagePath string 存储路径,说明:当存储类型为对象存储BOS时,即storageType=BOS,该字段必填,需提供完整存储路径
evalModelConfigList List<object> 评估子对象配置列表

evalModelConfigList说明

名称 类型 必填 描述
modelId string 模型版本ID,说明:
(1)通过以下方式获取该字段值,在控制台-模型调优-我的模型,点击某模型详情,在版本列表中查看,如下图所示
image.png
promptTemplate string 推理Prompt,说明:
(1)必须包含{input}
(2)示例:你是一个好助手,请遵照{input)要求,以商务风格做出相应回复,要求语言简练,客观详尽
params object 模型推理超参
isBaseline bool 启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2

params说明

名称 类型 必填 描述
temperature float 温度,说明:
(1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定
(2)建议该参数和top_p只设置1个
(3)两位小数,范围[0.01, 1.00 ]
top_p float 多样性,说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)建议该参数和temperature只设置1个
(3)一位小数,取值范围[0.0, 1.0]
penalty_score float 重复惩罚,用通过对已生成的token增加惩罚,减少重复生成的现象。说明:
(1)值越大表示惩罚越大
(2)一位小数,取值范围[1.0, 2.0]
system string 模型人设字段
disable_search bool 是否强制关闭实时搜索功能,默认false,不关闭
enable_citation bool 搜索溯源,开启后有概率触发搜索溯源信息
top_k int 采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围:正整数
stop string[] 推理停用词表

evalConfig说明

  • 如果evalMode为 "rule,model",需要同时提供 autoRuleEvalConfig 和 autoModelEvalConfig 两个配置。
名称 类型 必填 描述
evalMode string 评估模式,可选值如下 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
· rule,model:同时支持自动规则和自动裁判员评估
manualEvalConfig object 人工评估配置
autoRuleEvalConfig object 自动规则评估配置
autoModelEvalConfig object 自动裁判员评估配置

manualEvalConfig说明

名称 类型 必填 描述
evalDimension object[] 人工评估评价维度,说明:
(1)默认维度为满意度,不可删除
(2)用户可自行添加其他维度,最多添加4个维度
(3)当evalMode参数中包含manual,即存在人工评估模式时,此字段必填

evalDimension说明

名称 类型 必填 描述
dimension string 评价维度
description string 维度的描述

autoRuleEvalConfig说明

名称 类型 必填 描述
stopWordList string[] 基于规则的停用词表,说明:当evalMode参数中包含rule,即存在规则评估模式时,此字段有效,非必填

autoModelEvalConfig说明

名称 类型 必填 描述
promptParam object 裁判员评估打分模板配置,说明:
(1)当evalMode参数中包含model,即存在裁判员评估模式时,此字段有效
(2)用户若未指定则采用平台默认配置
apiName string 裁判员打分应用名称,裁判员打分应用默认使用EB3.5 和 EB4.0 的主线版本的预置服务进行评估,说明:
(1)当前仅开放两类名称供用户选填:
· EB3.5:ERNIE-Bot
· EB4.0:ERNIE-Bot-4.0
(2)不填默认是EB3.5

promptParam说明

  • 若用户不指定,则采用平台默认配置
名称 类型 必填 描述
metric string 指标内容,替换{metric}占位符
steps string 评分步骤,用于替换{steps}占位符
maxScore number 最高分,用于替换{max_score}占位符

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
requestId string 请求ID
code string 错误码,错误时返回
message string 错误信息,请求失败时返回
result string 评估任务id,请求成功时返回

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=CreateEvalTask'\
--header 'Authorization: bce-auth-v1/047ab241xxxxxx8b1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033dfxxxxxxxx11cecfbd7d11ef'\ 
--header 'Content-Type: application/json'\ 
--data '{
        "taskName": "管控API裁判员评估测试",
        "description": "管控API测试",
        "evalObjectType": "model",
        "evalObjectConfig": {
            "evalModelConfig": {
                "versionId": "ds-mwmk3mwxxxxxfk",
                "storageType": "sysStorage",
                "evalModelConfigList": [
                    {
                        "modelId": "amv-ttsxxxx1hp",
                        "promptTemplate": "你是一个好助手,请遵照{input}要求,以商务风格做出相应回复,要求语言简练,客观详尽。"
                    }
                ]
            }
        },
        "evalConfig": {
            "evalMode": "model",
            "autoModelEvalConfig": {
                "apiName": "ERNIE-xxx"
            }
        }
    }'
    

响应示例

{
    "requestId": "df3986c5-70bd-40d9-bedf-6db65ef137d8",
    "result": "ame-au4xxxxxv5"
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
requestId 请求ID
code 错误码
message 错误描述信息,帮助理解和解决发生的错误

例如错误返回:

{
    "requestId": "b8544096-3cb1-45dc-af36-9154b4cc8971",
    "code": "EvalNameExists",
    "message": "模型评估任务名称已存在"
}

更多其他错误码,也可以查看错误码说明

上一篇
模型压缩
下一篇
查看模型评估任务列表