资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

批量推理

概述

对实时性要求不高的业务场景,通常会使用模型对数据集进行周期性的批量预测。批量预测请求当前为异步请求,支持直接从模型资源请求批量预测,而无需将模型部署到端点。

如您在API侧进行可创建批量预测任务获取批量预测任务详情

计费明细

批量推理任务按照成功处理的输入+输出tokens进行计费

对话模型

服务名称 服务内容 现价
ERNIE-X1系列批量预测 ERNIE-X1-32K 输入:¥0.0008元/千tokens
输出:¥0.00032元/千tokens
ERNIE-4.5系列批量预测 ERNIE-4.5-8K-Preview 输入:¥0.0016元/千tokens
输出:¥0.0064元/千tokens
ERNIE-4.0-Turbo系列批量预测 ERNIE-4.0-Turbo 输入:¥0.0012元/千tokens
输出:¥0.0036元/千tokens
ERNIE 4.0系列批量预测 Ernie-4.0-8K 输入:¥0.0016元/千tokens
输出:¥0.0064元/千tokens
ERNIE 3.5系列批量预测 Ernie-3.5-8K 输入:¥0.00032元/千tokens
输出:¥0.0008元/千tokens
ERNIE-Speed系列批量预测 ERNIE-Speed-8K
ERNIE-Speed-128K
输入:¥0.00012元/千tokens
输出:¥0.00024元/千tokens
ERNIE-Speed-Pro系列批量预测 ERNIE-Speed-Pro-128K
输入:¥0.00012元/千tokens
输出:¥0.00024元/千tokens
ERNIE-Lite系列批量预测 ERNIE-Lite-8K
ERNIE-Lite-128K
输入:¥0.00008元/千tokens
输出:¥0.00016元/千tokens
ERNIE-Lite-Pro系列批量预测 ERNIE-Lite-Pro-128K 输入:¥0.00008元/千tokens
输出:¥0.00016元/千tokens
ERNIE-Tiny系列批量预测 ERNIE-Tiny-8K 输入:¥0元/千tokens
输出:¥0元/千tokens
ERNIE-Character系列批量预测 ERNIE-Character-Fiction-8K
ERNIE-Character-8K-0321
输入:¥0.00012元/千tokens
输出:¥0.00024元/千tokens
DeepSeek-V3系列批量预测 DeepSeek-V3 输入:¥0.0008元/千tokens
输出:¥0.0032元/千tokens
Qwen2.5系列批量预测 Qwen2.5-7B-Instruct 输入:¥0.0008元/千tokens
输出:¥0.0008元/千tokens
Llama-4-Maverick系列批量预测 Llama-4-Maverick 输入:¥0.0016元/千tokens
输出:¥0.0048元/千tokens
Llama-4-Scout系列批量预测 Llama-4-Scout 输入:¥0.0008元/千tokens
输出:¥0.0024元/千tokens
小规模参数开源模型批量预测 参数规模 ≤ 20B的开源模型 ¥0.0008元/千tokens
中等规模参数开源模型批量预测 20B < 参数规模 < 70B的开源模型 ¥0.0018元/千tokens
大规模参数开源模型批量预测 参数规模 ≥ 70B的开源模型 ¥0.0025元/千tokens

点击以下内容,即可获取相应规模参数下支持批量预测的模型列表,开源模型批量预测支持预置模型和精调训练后的模型(含SFT-全量更新、SFT-LoRA)

小规模参数开源模型列表
模型列表
AquilaChat-7B、AquilaCode-Multi Baichuan2-13B-Chat、Baichuan2-7B-Chat
BLOOMZ-7B、Cerebras-GPT-13B ChatGLM2-6B、ChatGLM2-6B-32K
ChatGLM2-6B-INT4、ChatGLM3-6B ChatGLM3-6B-32K、CodeLlama-7B
DISC-MedLLM、Dolly-V2-12B Falcon-7B、Fuyu-8B
Gemma-2B、Gemma-7B GPT4ALL-J、GPT-J-6B
GPT-NeoX-20B、Linly-Chinese-Llama-2-13B Linly-Chinese-Llama-2-7B、Llama-2-13B-Chat
Llama-2-7B-Chat、Meta-Llama-3-8B Mistral-7B、MPT-7B-Instruct
Oasst-SFT-4-Pythia-12B、OpenLlama-7B Pythia-12B、Qianfan-Chinese-Llama-2-1.3B
Qianfan-Chinese-Llama-2-13B-v1、Qianfan-Chinese-Llama-2-13B-v2 Qianfan-Chinese-Llama-2-7B、Qianfan-Chinese-Llama-2-7B-32K
RWKV-14B-Pile、RWKV-14B-Raven RWKV-7B、SQLCoder-7B
StableLM-Alpha-7B、StarCoder XVERSE-13B-Chat
中等规模参数开源模型列表
模型列表
Falcon-40B、MPT-30B-Instruct Yi-34B、Yi-34B-Chat Mixtral-8x7B、Mixtral-8x7B
大规模参数开源模型列表
模型列表
Llama-2-70B-Chat、XuanYuan-70B-Chat Qianfan-Llama-2-70B-Compressed、Qwen-72B-Chat-INT4 Qianfan-Chinese-Llama-2-70B、Meta-Llama-3-70B

推理模型

服务名称 服务内容 现价
DeepSeek-R1批量预测 DeepSeek-R1 输入:¥0.0008元/千tokens
输出:¥0.0032元/千tokens
2025年4月7日0点价格上调,恢复至deepseek官网原价
输入:¥0.00016元/千tokens
输出:¥0.0064元/千tokens
Qwen-QwQ-32B批量预测 Qwen-QwQ-32B 限时免费,2025年3月28日0点开始计费,输入0.0008元/千tokens,输出0.0024元/千tokens
DeepSeek-R1-Distill-Qwen-32B批量预测 DeepSeek-R1-Distill-Qwen-32B 输入:¥0.0006元/千tokens
输出:¥0.0024元/千tokens
DeepSeek-R1-Distill-Qwen-14B批量预测 DeepSeek-R1-Distill-Qwen-14B 输入:¥0.00024元/千tokens
输出:¥0.00096元/千tokens
DeepSeek-R1-Distill-Qwen-7B批量预测 DeepSeek-R1-Distill-Qwen-7B 输入:¥0.0002元/千tokens
输出:¥0.0008元/千tokens
DeepSeek-R1-Distill-Qwen-1.5B批量预测 DeepSeek-R1-Distill-Qwen-1.5B 输入:¥0.00012元/千tokens
输出:¥0.00048元/千tokens
DeepSeek-R1-Distill-Llama-70B批量预测 DeepSeek-R1-Distill-Llama-70B 输入:¥0.0008元/千tokens
输出:¥0.0032元/千tokens
DeepSeek-R1-Distill-Llama-8B批量预测 DeepSeek-R1-Distill-Llama-8B 输入:¥0.0004元/千tokens
输出:¥0.00016元/千tokens
DeepSeek-R1-Distill-Qianfan-Llama-70B批量预测 DeepSeek-R1-Distill-Qianfan-Llama-70B 输入:¥0.0008元/千tokens
输出:¥0.0032元/千tokens
DeepSeek-R1-Distill-Qianfan-Llama-8B批量预测 DeepSeek-R1-Distill-Qianfan-Llama-8B 输入:¥0.0004元/千tokens
输出:¥0.00016元/千tokens

图像理解模型

服务名称 服务内容 现价
Qwen2.5-VL-7B-Instruct批量预测 Qwen2.5-VL-7B-Instruct 输入:¥0.0008元/千tokens
输出:¥0.002元/千tokens
InternVL2-2B批量预测 InternVL2-2B 输入:¥0.0008元/千tokens
输出:¥0.0008元/千tokens
InternVL2-8B批量预测 InternVL2-8B 输入:¥0.0008元/千tokens
输出:¥0.0008元/千tokens
InternVL2-26B批量预测 InternVL2-26B 输入:¥0.0018元/千tokens
输出:¥0.0018元/千tokens
InternVL2.5-4B批量预测 InternVL2.5-4B 输入:¥0.0008元/千tokens
输出:¥0.0008元/千tokens
InternVL2.5-8B批量预测 InternVL2.5-8B 输入:¥0.0008元/千tokens
输出:¥0.0008元/千tokens

周边插件计费

批量推理搜索按次计费,单价为0.0016元/次

价格费用举例

推理总价=大模型批量预测输入(单价) x 评估数据集tokens + 大模型批量预测输出(单价) x 推理结果集tokens

示例1:使用ERNIE 4.0批量预测,新建推理结果集

设定:评估数据集tokens=10,000,评估结果集tokens=100,000

批量推理总价=0.016(单价) x 10千tokens + 0.048(单价) x 100千tokens=4.96 元

示例2:使用Ernie-3.5批量预测,新建推理结果集

设定:评估数据集tokens=10,000,评估结果集tokens=100,000

批量推理总价=0.0016(单价) x 10千tokens + 0.0048(单价) x 100千tokens=0.496 元

示例3:使用ERNIE 4.0批量预测,新建推理结果集,且触发搜索

设定:评估数据集tokens=10,000,评估结果集tokens=100,000,触发搜索次数为2次

批量推理总价=0.0032(搜索单价)x 2(次)+ 0.016(单价) x 10千tokens + 0.048(单价) x 100千tokens=4.9664 元