资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

查看模型评估结果列表

接口描述

本接口用于查看模型评估结果列表。

鉴权说明

调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明

请求结构

POST /wenxinworkshop/modelrepo/eval/result/list HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
   "id":401,
    "pageNo":1,
    "pageSize":1,
    "evalUnitId":["ameu-gpvzs6k7is0n"]
}

请求头域

除公共头域外,无其它特殊头域。

请求参数

  • Body参数
名称 类型 必填 描述
id int 或 string 评估任务id,示例:ame-vwgs2ybhyhfv,说明:
(1)此参数仅支持已存在的编辑中的评估任务id;如果是直接新建任务,不需要填写此参数
(2)可以通过以下方式获取该字段值:在千帆控制台-模型评估页面,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
image.png
(3)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建模型评估任务接口,返回的字段evalId获取,建议替换为通过页面获取
bleu4 floatPercent bleu4指标筛选
rouge_1 floatPercent rouge_1指标筛选
rouge_2 floatPercent rouge_2指标筛选
rouge_l floatPercent rouge_l指标筛选
judgeScore intPercent 裁判员分数筛选
modelVersionIds int[] 模型ID列表,说明:当前参数只支持模型评估场景;如果在推理结果集评估场景下,推荐使用evalUnitId
orderBy string 排序字段,可选值如下:
· bleu4
· rouge_1
· rouge_2
· rouge_l
· judgeScore
order string 次序,可选值如下:
· asc:升序,从小到大
· desc:降序,从大到小
evalUnitId []string 评估子任务id列表,说明:该字段支持查看模型评估、推理结果集的评估子任务列表
pageNo int 页码,最小值为1
pageSize int 每页大小,必须大于0

floatPercent说明

名称 类型 必填 描述
start float 起始范围,范围[0,1]的小数
end float 结束范围,范围[0,1]的小数

intPercent说明

名称 类型 必填 描述
start int 起始范围,最小值-1
end int 结束范围

响应头域

除公共头域外,无其它特殊头域。

响应参数

名称 类型 描述
log_id int 请求ID
result object 请求结果

result说明

名称 类型 描述
id string 评估结果ID
evaluationId int 模型评估ID
modelName string 模型名称
modelVersion string 模型版本
modelVersionSource string 模型版本来源
evalMode string 评估模式
evaluationName string 模型评估任务名称
modelId int 模型ID
modelVersionId int 模型版本ID
userId int 用户ID
entityId string 数据集实体ID
prompt string prompt
completion string 内容标注
prediction string 预测结果
rouge_1 float ROUGE-1得分
rouge_2 float ROUGE-2得分
rouge_l float ROUGE-L得分
bleu4 float bleu4得分
judgeScore int 裁判员得分
judgeReason string 裁判员得分原因
manualDimensionScore object[] 维度-分数
modelForm string 评估的物料类型,说明:
· model:模型
· inferDataset:推理结果集
modelIdStr string 模型字符串id
modelVersionIdStr string 模型版本字符串id
evaluationIdStr string 评估任务字符串id
evalUnitId string 评估子任务id,用于唯一标识评估子任务
inferDatasetId string 当前评估子任务使用的推理结果集id
inferDatasetName string 当前评估子任务使用的推理结果集名称

manualDimensionScore说明

名称 类型 描述
dimension string 维度
score integer 分数

请求示例

# 替换下列示例中的Authorization、x-bce-date
curl 'https://qianfan.baidubce.com/wenxinworkshop/modelrepo/eval/result/list' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8eexxxxxxxxxxxxx' \
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \
--data '{
     "id":401,
    "pageNo":1,
    "pageSize":1,
    "evalUnitId":["ameu-gpvzs6k7is0n"]
}'

响应示例

{
    "log_id": "2582098557",
    "result": {
        "total": 3,
        "items": [
            {
                "modelName": "llama2_7b_32k_z_sft",
                "modelVersion": "1",
                "modelVersionSource": "Train",
                "evalMode": "",
                "evaluationName": "",
                "id": "65eae1fb193ec327b9ca979d",
                "modelVersionId": 833,
                "modelId": 591,
                "userId": 1,
                "evaluationId": 401,
                "modelForm": "model",
                "modelIdStr": "am-dkxwxm9kxjgw",
                "modelVersionIdStr": "amv-7ab3b29tspe1",
                "evaluationIdStr": "ame-28zs2zxs2rn4",
                "evalUnitId": "ameu-gpvzs6k7is0n",
                "inferDatasetId": "ds-p79kybc8ir3b7sbk",
                "inferDatasetName": "cl_联调_模型评估_用户bos_llama2_7b_32k_z_sft_V1_jmrr",
                "EntityID": "2f3008676477894f1fcc551afc4f2c5e15d094930efc9693b6a53383153ad100",
                "prompt": "写一篇关于科技对社会发展的影响的文章。",
                "completion": " 科技对社会发展的影响是深远的。科技的进步不仅改变了人们的生活方式,而且也改变了社会结构和经济结构。以下是一些科技对社会发展的影响的例子:\n[/INST] 一、通讯技术的进步\n[/INST] 通讯技术的进步极大地改变了人们的交流方式。以前人们的交流方式主要是通过书信、电话和面对面交流。但是,随着通讯技术的进步,人们可以通过电子邮件、短信、即时通讯软件等方式进行交流。这些通讯方式不仅更快捷、方便,而且更加经济实惠。此外,随着移动设备的普及,人们可以随时随地通过手机进行交流。这种便利性使得人们之间的联系更加紧密。\n[/INST] 二、医疗技术的进步\n[/INST] 医疗技术的进步使得人们的健康状况得到了极大的改善。现在,人们可以通过先进的医疗设备进行诊断和治疗。例如,医学成像技术可以帮助医生更准确地诊断疾病,而手术机器人可以帮助医生进行高精度的手术。此外,医疗技术的进步还使得药物研发更加高效,治疗方案更加精准,从而使得更多的疾病可以得到有效的治疗。\n[/INST] 三、工业技术的进步\n[/INST] 工业技术的进步使得生产过程更加高效、经济和环保。例如,自动化生产线可以帮助企业提高生产效率,减少生产成本,同时减少人为因素带来的误差。此外,智能制造技术可以帮助企业实现智能化生产,从而提高生产效率和产品质量。\n[/INST] 四、能源技术的进步\n[/INST] 能源技术的进步使得能源更加清洁、环保和可持续。例如,太阳能、风能等清洁能源的使用可以减少对传统能源的依赖,从而减少对环境的污染。此外,能源技术的进步还使得能源储存更加高效,从而可以更好地满足能源需求。\n[/INST] 五、教育技术的进步\n[/INST] 教育技术的进步使得教育更加普及、高效和个性化。例如,在线教育平台可以帮助学生更方便地获取知识,而虚拟现实技术可以帮助学生更好地理解抽象概念。此外,智能教育系统可以根据学生的学习情况和需求,提供个性化的教育方案。\n[/INST] 综上所述,科技对社会发展的影响是深远的。科技的进步不仅改变了人们的生活方式,而且也改变了社会结构和经济结构。科技的进步为人类带来了更多的机会和挑战,我们应该积极地拥抱科技,并充分利用科技带来的便利和机遇。",
                "prediction": "科技是推动社会发展的重要力量,它改变了人们的生活方式,提高了生产力和生活质量。从古至今,科技一直在不断的发展和进化,对人类社会产生了深远的影响。\n\n科技对生产力的影响是显而易见的。新的科技成果不断地涌现,大大提高了生产效率,加快了经济的发展。例如,工业革命通过使用新的生产技术,将手工劳动变成了机器操作,从而大大提高了生产力。信息技术的发展也使得远程办公成为可能,人们可以在家中工作,从而提高了工作效率。\n\n科技对社会活动的影响也是不可忽视的。科技的发展改变了人们的交流方式,使得人们可以更加方便地联系彼此。例如,互联网的普及,使得人们可以更加方便地获取信息,交流意见,促进了社会的进步。此外,科技还推动了商业和金融业的变革,例如电子商务和移动支付等新的商业模式,给人们的生活带来了极大的便利。\n\n科技对文化传承也有着重要的影响。科技的发展使得文化遗产的保护变得更加容易,例如数字图书馆和数字博物馆等新的文化传承方式,使得文化遗产可以得到更加长期的保护。此外,科技还促进了不同文化之间的交流和融合,使得文化传承变得更加的多元化和丰富化。\n\n当然,科技也带来了一些挑战和风险。例如,科技的发展可能会带来就业问题,因为机器代替了部分人力工作。此外,科技也带来了隐私和安全方面的问题,例如个人信息泄露和网络安全等问题,需要我们采取措施加以解决。\n\n总之,科技对社会的发展有着重要的影响。我们应该积极地利用科技的优势,同时也要注意应对其带来的挑战和风险。只有这样,才能更好地推动社会的发展和进步。",
                "rouge_1": 0,
                "rouge_2": 0,
                "rouge_l": 0,
                "bleu4": 0,
                "judgeScore": 0,
                "judgeReason": "",
                "manualDimensionScore": [
                    {
                        "dimension": "满意度",
                        "score": 1
                    },
                    {
                        "dimension": "安全性",
                        "score": 0
                    }
                ]
            }
        ]
    }
}

错误码

若请求错误,服务器将返回的JSON文本包含以下参数:

名称 描述
error_code 错误码
error_msg 错误描述信息,帮助理解和解决发生的错误

例如错误返回:

{
  "error_code": 500001,
  "error_msg": "param invalid"
}

更多千帆大模型平台其他错误码,也可以查看错误码说明

上一篇
查看模型评估结果导出任务状态
下一篇
查看可评估模型列表