性能评估

更新时间：2025-08-22

功能介绍

支持对预置服务发起单并发时延探测，了解预置服务性能。

支持对平台已经部署好的服务发起性能评估，并生成压测报告。可基于报告指标调整部署方案。

创建性能评估任务

1. 设置评估对象

参数	描述
任务对象	选择需要进行压测的服务。支持预置服务和专属服务；模型类型要求为纯文本，Chat接口；专属服务要求为单副本，状态运行中
数据集选择	1. 支持选择平台数据集，格式为Prompt+Response； 2. 支持从对象存储BOS中选择压测数据。数据格式为openai请求格式，要求JSONL文件。文件中每行是一条请求，作为一条压测数据。取其中message内容作为模型输入

数据样例：

{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么天空是蓝色的？"}]}
{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么海水是咸的？"}]}

2. 设置评估参数

参数	描述
并发用户数	同时发送请求的用户数量。评估预置服务时，并发数固定为1。测试专属服务时，并发数可设置1～100
递增速率	指定每秒真实启动的用户数，一直增长到设置的并发大小以后，不再新增启动
压测时长	压测任务启动后会一直运行到数据集内所有数据都请求完毕，或到达该参数指定的最大运行时间；该参数默认值为'0s'，表示不设最大运行时间；最长12小时
QPS上限	允许到达的QPS（即每秒发送请求的速率）上限值，当前等同服务部署时设定的上限值
请求参数	request body里需要加入的传参，例如temperature

注：

1.当前所有请求将以流式请求的方式发起压测

2.当前发压机位于北京

3.为保证结果准确，压测过程中尽量不要通过其他形式请求服务。压测过程中禁止同时运行批量推理、模型评估

查看评估指标

压测完成后会自动生成指标报告

总体分数

指标	描述
总请求数	整个测试过程中发送的所有请求数量
请求成功率	成功请求的数量占所有请求的比重
压测时长（分钟）	测试过程从开始到结束的总时间
QPS	服务每秒平均处理的请求数
总输入token	压测过程总输入token
总输出token	压测过程总输入token
OTPS（token/s）	每秒输出token数量。仅统计流式响应

TTFT相关：首token时延。表示从发送请求到收到第一个包的时间。一个包中包含1个或1个以上token。单位ms

指标	描述
平均TTFT	请求平均首token时延
中位TTFT	50%请求的首token时延
P99TTFT	99%请求的首token时延

TPOT相关：由于一个包中包含1个或1个以上token，这里主要描述包间时延，表示返回包之间的时间间隔。单位ms

指标	描述
平均包间时延	请求平均包间时延
中位包间时延	50%请求的包间时延
P99包间时延	99%请求的包间时延
平均TPOT	平台估算的每个token生成时间，仅用以评估解码速度

E2EL相关：端到端的全链路时延，表示从发送请求到返回最后一个Token的总体耗时。单位ms

指标	描述
平均E2EL	请求平均E2EL
中位E2EL	50%请求的E2EL
P99E2EL	99%请求的E2EL

效果评估

数据管理