资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

性能评估

功能介绍

支持对预置服务发起单并发时延探测,了解预置服务性能。

支持对平台已经部署好的服务发起性能评估,并生成压测报告。可基于报告指标调整部署方案。

创建性能评估任务

1. 设置评估对象

参数 描述
任务对象 选择需要进行压测的服务。支持预置服务和专属服务;模型类型要求为纯文本,Chat接口;专属服务要求为单副本,状态运行中
数据集选择 1. 支持选择平台数据集,格式为Prompt+Response;
2. 支持从对象存储BOS中选择压测数据。数据格式为openai请求格式,要求JSONL文件。文件中每行是一条请求,作为一条压测数据。取其中message内容作为模型输入

数据样例:

{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么天空是蓝色的?"}]}
{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么海水是咸的?"}]}

2. 设置评估参数

参数 描述
并发用户数 同时发送请求的用户数量。评估预置服务时,并发数固定为1。 测试专属服务时,并发数可设置1~100
递增速率 指定每秒真实启动的用户数,一直增长到设置的并发大小以后,不再新增启动
压测时长 压测任务启动后会一直运行到数据集内所有数据都请求完毕,或到达该参数指定的最大运行时间;该参数默认值为'0s',表示不设最大运行时间;最长12小时
QPS上限 允许到达的QPS(即每秒发送请求的速率)上限值,当前等同服务部署时设定的上限值
请求参数 request body里需要加入的传参,例如temperature

注:

1.当前所有请求将以流式请求的方式发起压测

2.当前发压机位于北京

3.为保证结果准确,压测过程中尽量不要通过其他形式请求服务。压测过程中禁止同时运行批量推理、模型评估

查看评估指标

压测完成后会自动生成指标报告

  1. 总体分数
指标 描述
总请求数 整个测试过程中发送的所有请求数量
请求成功率 成功请求的数量占所有请求的比重
压测时长(分钟) 测试过程从开始到结束的总时间
QPS 服务每秒平均处理的请求数
总输入token 压测过程总输入token
总输出token 压测过程总输入token
OTPS(token/s) 每秒输出token数量。仅统计流式响应
  1. TTFT相关:首token时延。表示从发送请求到收到第一个包的时间。一个包中包含1个或1个以上token。单位ms
指标 描述
平均TTFT 请求平均首token时延
中位TTFT 50%请求的首token时延
P99TTFT 99%请求的首token时延
  1. TPOT相关:由于一个包中包含1个或1个以上token,这里主要描述包间时延,表示返回包之间的时间间隔。单位ms
指标 描述
平均包间时延 请求平均包间时延
中位包间时延 50%请求的包间时延
P99包间时延 99%请求的包间时延
平均TPOT 平台估算的每个token生成时间,仅用以评估解码速度
  1. E2EL相关:端到端的全链路时延,表示从发送请求到返回最后一个Token的总体耗时。单位ms
指标 描述
平均E2EL 请求平均E2EL
中位E2EL 50%请求的E2EL
P99E2EL 99%请求的E2EL
上一篇
效果评估
下一篇
数据管理