模型更新记录

更新时间：2025-10-23

千帆AI应用开发者中心已上线，期待您的点击！

本文介绍了本平台的新模型发布记录与介绍，相关内容可于模型广场进行体验。

产品更新状态可查看：产品更新动态。

2025年10月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
10月23日	通义实验室	Qwen3-VL	Qwen3-VL-8B-Instruct	推理服务API V2版本-视觉理解	上新	Qwen3-VL系列Dense模型，参数规模80亿，非思考版本，评测性能优秀。调用说明请查看：API调用文档
10月23日	通义实验室	Qwen3-VL	Qwen3-VL-8B-Thinking	推理服务API V2版本-视觉理解	上新	Qwen3-VL系列Dense模型，参数规模80亿，思考版本，评测性能优秀。调用说明请查看：API调用文档
10月21日	百度	Qianfan-PublicOpinion-Classification	Qianfan-PublicOpinion-Classification	推理服务API V2版本-视觉理解	退役	模型下线，推荐替换模型请查看：模型版本升级及退役机制
10月21日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill系列	DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qianfan-Llama-8B DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-7B	推理服务API V2版本-文本生成	退役	模型下线，推荐替换模型请查看：模型版本升级及退役机制
10月16日	通义实验室	Qwen3-VL	Qwen3-VL-30B-A3B-Instruct	推理服务API V2版本-视觉理解	上新	Qwen3-VL系列第二大MoE模型，非思考版本，在视觉coding、空间感知等方向全面升级。调用说明请查看：API调用文档
10月16日	通义实验室	Qwen3-VL	Qwen3-VL-30B-A3B-Thinking	推理服务API V2版本-视觉理解	上新	Qwen3-VL系列第二大MoE模型，思考版本，在视觉coding、空间感知等方向全面升级。调用说明请查看：API调用文档
10月9日	深度求索	DeepSeek-V3.2	DeepSeek-V3.2	推理服务API V2版本-文本生成	上新	DeepSeek-V3.2-Exp 模型的非思考模式，在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention，针对长文本的训练和推理效率进行了探索性的优化和验证。调用说明请查看：API调用文档
10月9日	深度求索	DeepSeek-V3.2-Think	DeepSeek-V3.2-Think	推理服务API V2版本-文本生成	上新	DeepSeek-V3.2-Exp 模型的思考模式，针对长文本的训练和推理效率进行了探索性的优化和验证。调用说明请查看：API调用文档

2025年9月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
9月26日	百度	ERNIE X1.1	ERNIE-X1.1	推理服务API V2版本-文本生成	上新	文心大模型X1.1在问答、工具调用、智能体、指令遵循、逻辑推理、数学、代码任务的效果显著提升，事实性显著提升；上下文长度扩展到64K tokens，支持更长的输入与对话历史，在保持响应速度的同时，提高了长链路推理的连贯性。调用说明请查看：API调用文档
9月25日	通义实验室	Qwen3	Qwen3-Next-80B-A3B-Thinking	推理服务API V2版本-文本生成	上新	思考模型，相较上一版本（Qwen3-235B-A22B-Thinking-2507）指令遵循能力有提升、模型总结回复更加精简。调用说明请查看：API调用文档
9月25日	通义实验室	Qwen3-VL	Qwen3-VL-235B-A22B-Instruct	推理服务API V2版本-视觉理解	上新	非思考视觉理解模型，在视觉coding、空间感知等方向全面升级。调用说明请查看：API调用文档
9月25日	通义实验室	Qwen3-VL	Qwen3-VL-235B-A22B-Thinking	推理服务API V2版本-视觉理解	上新	思考版视觉理解模型，多模态思考能力显著增强，在多个评测中达到领先水平。调用说明请查看：API调用文档
9月24日	深度求索	DeepSeek-V3.1	DeepSeek-V3.1-250821	推理服务API V2版本-文本生成	升级	现已更新至 DeepSeek-V3.1-Terminus 版本，model参数/接入点ID不变。新版本改进了语言一致性和Agent能力。调用说明请查看：API调用文档
9月24日	深度求索	DeepSeek-V3.1-Think	DeepSeek-V3.1-Think-250821	推理服务API V2版本-文本生成	升级	现已更新至 DeepSeek-V3.1-Terminus 版本，model参数/接入点ID不变。新版本改进了语言一致性和Agent能力。调用说明请查看：API调用文档
9月23日	百度	Qianfan-Lightning-128B-A19B	Qianfan-Lightning-128B-A19B	推理服务API V2版本-文本生成	上新	百度搜索 “闪电计划” 自研的新一代高效稀疏大语言模型，在保持通用理解、生成与推理能力的同时，显著降低时延与使用成本。调用说明请查看：API调用文档
9月19日	百度	ERNIE 4.5	ERNIE-4.5-21B-A3B-Thinking	推理服务API V2版本-文本生成	上新	轻量级深度思考模型，专注于提升推理的质量和深度，在逻辑推理、数学、科学、编码和文本生成等任务上性能显著提升。调用说明请查看：API调用文档
9月19日	通义实验室	Qwen3	Qwen3-Next-80B-A3B-Instruct	推理服务API V2版本-文本生成	上新	非思考模型，相较上一版本（Qwen3-235B-A22B-Instruct-2507）中文文本理解能力更佳、逻辑推理能力有增强、文本生成类任务表现更好。调用说明请查看：API调用文档
9月9日	百度	ERNIE X1.1	ERNIE-X1.1-Preview	推理服务API V2版本-文本生成	上新	文心大模型X1.1在问答、工具调用、智能体、指令遵循、逻辑推理、数学、代码任务的效果显著提升，事实性显著提升；上下文长度扩展到64K tokens，支持更长的输入与对话历史，在保持响应速度的同时，提高了长链路推理的连贯性。调用说明请查看：API调用文档

2025年8月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
8月28日	百度	ERNIE 4.5 Turbo VL	ERNIE-4.5-Turbo-VL-Latest	推理服务API V2版本-图像理解	上新	图片理解、创作、翻译、代码等能力均衡，支持128K上下文长度。调用说明请查看：API调用文档
8月28日	百度	ERNIE 4.5 Turbo	ERNIE-4.5-Turbo-Latest	推理服务API V2版本-文本生成	上新	模型能力均衡，支持128K上下文长度，可以很好满足多轮长历史对话处理、长文档理解问答任务。调用说明请查看：API调用文档
8月28日	百度	Qianfan-VL-70B	Qianfan-VL-70B	推理服务API V2版本-图像理解	上新	Qianfan-VL-70B 是通过持续预训练打造的视觉-语言模型，该模型在保持通用多模态理解能力的同时，针对中文理解、OCR 和文档解析等领域进行了重点优化。调用说明请查看：API调用文档
8月28日	百度	Qianfan-VL-8B	Qianfan-VL-8B	推理服务API V2版本-图像理解	上新	Qianfan-VL-8B 是通过持续预训练打造的视觉-语言模型，该模型在保持通用多模态理解能力的同时，针对中文理解、OCR 和文档解析等领域进行了重点优化。调用说明请查看：API调用文档
8月28日	百度	Qianfan-SinglePicOCR	Qianfan-SinglePicOCR	推理服务API V2版本-图像理解	上新	垂类专精模型，专注于单张图片输入，有效识别并抽取单张图片当中的信息内容并转换为工程侧易用的yaml格式。调用说明请查看：API调用文档
8月28日	百度	Qianfan-EngCard-VL	Qianfan-EngCard-VL	推理服务API V2版本-图像理解	上新	垂类专精模型，该模型精准聚焦教育场景下英文切题答题卡的智能识别需求，针对已完成区域切割的英文答题填空部分，可按照题目固有顺序实现答案的自动化精准识别，为教学评阅环节提供高效支持。调用说明请查看：API调用文档
8月22日	深度求索	DeepSeek-V3.1	DeepSeek-V3.1-250821	推理服务API V2版本-文本生成	上新	DeepSeek-V3.1非思考模式，拥有更强的Agent能力，在工具使用与智能体任务中的表现有较大提升。调用说明请查看：API调用文档
8月22日	深度求索	DeepSeek-V3.1-Think	DeepSeek-V3.1-Think-250821	推理服务API V2版本-文本生成	上新	DeepSeek-V3.1思考模式，相比DeepSeek-R1-0528拥有更高的思考效率。调用说明请查看：API调用文档
8月22日	OpenAl	GPT-OSS-120B	GPT-OSS-120B	推理服务API V2版本-文本生成	上新	GPT-OSS-120B在竞赛编程、通用问题解决以及工具调用方面，表现优于o3-mini，达到或超过了o4-mini的水平，适用于生产、通用及高推理需求场景。调用说明请查看：API调用文档
8月22日	OpenAl	GPT-OSS-20B	GPT-OSS-20B	推理服务API V2版本-文本生成	上新	GPT-OSS-20B在常用基准测试中表现与o3-mini类似，内存占用少，适合低延迟、本地或专业化场景。调用说明请查看：API调用文档
8月22日	智谱AI	GLM-4.5V	GLM-4.5V	推理服务API V2版本-图像理解	上新	GLM-4.5V在多个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能，支持thinking / 非 thinking模式灵活切换，兼顾推理深度与效率。调用说明请查看：API调用文档
8月7日	百度	ERNIE 4.5 Turbo VL	ERNIE-4.5-Turbo-VL	推理服务API V2版本-图像理解	上新	图片理解、创作、翻译、代码等能力显著提升，支持128K上下文长度，首Token时延显著降低。调用说明请查看：API调用文档
8月7日	通义实验室	Qwen3	Qwen3-30B-A3B-Instruct-2507	推理服务API V2版本-文本生成	上新	Qwen3-30B-A3B 非思考模式的更新版本，显著提升了包括指令执行、逻辑推理、文本理解、数学、科学、编码和工具使用在内的通用能力。调用说明请查看：API调用文档
8月7日	通义实验室	Qwen3	Qwen3-30B-A3B-Thinking-2507	推理服务API V2版本-文本生成	上新	Qwen3-30B-A3B 思考模式的更新版本，在逻辑推理、数学、科学、编码和通常需要人类专业知识的学术基准等推理任务上显著提升性能。调用说明请查看：API调用文档
8月7日	通义实验室	Qwen3	Qwen3-Coder-480B-A35B-Instruct	推理服务API V2版本-文本生成	上新	基于Qwen3的代码生成模型，具有强大的Coding Agent能力，代码能力达到开源模型 SOTA。调用说明请查看：API调用文档
8月7日	通义实验室	Qwen3	Qwen3-Coder-30B-A3B-Instruct	推理服务API V2版本-文本生成	上新	基于Qwen3的代码生成模型，继承Qwen3-Coder-480B-A35B-Instruct的Coding Agent能力，代码能力达到同尺寸规模模型SOTA。调用说明请查看：API调用文档
8月7日	百度	Qianfan-ToyTalk	Qianfan-ToyTalk	推理服务API V2版本-文本生成	上新	垂类专精模型，面向低龄儿童的角色扮演类型的文本模型，旨在通过模拟不同角色的交流场景，为儿童提供沉浸式的角色扮演体验。调用说明请查看：API调用文档
8月7日	百度	Qianfan-Correct	Qianfan-Correct	推理服务API V2版本-文本生成	上新	垂类专精模型，专为提升写作教学效率与精准度打造的智能辅助工具，依托先进的自然语言处理技术与深度神经网络架构，聚焦日常作文批改场景，实现从分数评定到理由分析的智能服务。调用说明请查看：API调用文档
8月1日	月之暗面	Kimi-K2	Kimi-K2-Instruct	推理服务API V2版本-文本生成	上新	月之暗面提供的国内首个开源万亿参数MoE模型，具有 320 亿个激活参数和 1 万亿个总参数，具有卓越的编码和工具调用能力。调用说明请查看：API调用文档

2025年7月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
7月28日	通义实验室	Qwen3	Qwen3-235B-A22B-Thinking-2507	推理服务API V2版本-文本生成	上新	基于Qwen3的思考模型，在逻辑推理、数学、科学、编码和通常需要人类专业知识的学术基准等推理任务上显著提升性能。调用说明请查看：API调用文档
7月22日	通义实验室	Qwen3	Qwen3-235B-A22B-Instruct-2507	推理服务API V2版本-文本生成	上新	基于Qwen3的文本生成模型，通用能力显著提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面。调用说明请查看：API调用文档
7月11日	百度	Qianfan-FuncCaller	Qianfan-FuncCaller	推理服务API V2版本-文本生成	上新	垂类专精模型，在工具调用任务上的效果较好，同时在性能方面取得了显著提升。调用说明请查看：API调用文档
7月4日	通义实验室	Qwen3 Embedding	Qwen3-Embedding-4B	推理服务API V2版本-向量	上新	文本嵌入模型，4B大小36层，32K序列长度。调用说明请查看：API调用文档
7月4日	通义实验室	Qwen3 Embedding	Qwen3-Embedding-0.6B	推理服务API V2版本-向量	上新	文本嵌入模型，0.6B大小28层，32K序列长度。调用说明请查看：API调用文档

2025年6月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
6月29日	百度	ERNIE 4.5	ERNIE-4.5-0.3B	推理服务API V2版本-文本生成	上新	ERNIE-4.5-0.3B 是 dense 结构的对齐模型。调用说明请查看：API调用文档
6月29日	百度	ERNIE 4.5	ERNIE-4.5-21B-A3B	推理服务API V2版本-文本生成	上新	ERNIE-4.5-21B-A3B 是 MoE 结构的对齐模型，总参 21B，激活 3B。调用说明请查看：API调用文档
6月29日	百度	ERNIE 4.5	ERNIE-4.5-VL-28B-A3B	推理服务API V2版本-文本生成图像理解	上新	ERNIE-4.5-VL-28B-A3B 是多模 MoE Chat 模型，包含 28B 总参和 3B 激活参。调用说明请查看：API调用文档
6月29日	百度	ERNIE 4.5 Turbo VL	ERNIE-4.5-Turbo-VL-Preview	推理服务API V2版本-原生多模态图像理解	上新	图片理解、创作、翻译、代码等能力显著提升，支持128K上下文长度，首Token时延显著降低。调用说明请查看：API调用文档
6月26日	深度求索	DeepSeek-V3	DeepSeek-V3-241226	推理服务API V2版本-对话Chat	退役	退役机制说明请查看：模型版本升级及退役机制
6月25日	百度	ERNIE 4.5 Turbo	ERNIE-4.5-Turbo-128K-Preview	推理服务API V2版本-文本生成	上新	模型能力全面提升，更好满足多轮长历史对话处理、长文档理解问答任务。此版本为本系列的最新版本。调用说明请查看：API调用文档
6月5日	百度	Qianfan-PublicOpinion-Classification	Qianfan-PublicOpinion-Classification	推理服务API V2版本-图像理解	上新	当前模型主要用于根据当前图片进行场景分类，并且判断当前场景是否为敏感场景；场景信息包括暴力事件、活在、交通事故、维权、自然灾害等，并严格以json格式进行内容输出。调用说明请查看：API调用文档

该模型精准聚焦教育场景下英文切题答题卡的智能识别需求，针对已完成区域切割的英文答题填空部分，可按照题目固有顺序实现答案的自动化精准识别，为教学评阅环节提供高效支持。

2025年5月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
5月29日	上海人工智能实验室	InternVL3	InternVL3-38B	推理服务API V2版本-图像理解	上新	更强的理解和生成能力，适合对性能要求极高的场景。调用说明请查看：API调用文档
5月29日	上海人工智能实验室	InternVL3	InternVL3-14B	推理服务API V2版本-图像理解	上新	在性能和资源消耗之间取得平衡，适合大多数研究和开发场景。调用说明请查看：API调用文档
5月29日	上海人工智能实验室	InternVL3	InternVL3-1B	推理服务API V2版本-图像理解	上新	轻量级应用、适配实时性要求高的任务，低延迟、低功耗。调用说明请查看：API调用文档
5月29日	深度求索	DeepSeek-R1	deepseek-r1-250528	推理服务API V2版本-文本生成	上新	强化学习驱动推理模型，具备复杂逻辑推理与深度上下文理解能力，支持多领域任务的高效处理（如数学、代码及自然语言推理）。调用说明请查看：API调用文档
5月29日	百度	Qianfan-MultiPicOCR	Qianfan-MultiPicOCR	推理服务API V2版本-图像理解	上新	垂类专精模型，专注于多张图片输入，有效识别并抽取多张图片当中的信息内容并转换为工程侧易用的yaml格式。调用说明请查看：API调用文档
5月23日	通义实验室	Qwen3	Qwen3-235B-A22B Qwen3-30B-A3B Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B	推理服务API V2版本-文本生成	升级	Qwen3系列新增支持参数frequency_penalty、presence_penalty、repetition_penalty。调用说明请查看：API调用文档
5月22日	通义实验室	Qwen3	Qwen3-235B-A22B Qwen3-30B-A3B Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B	推理服务API V2版本-文本生成	升级	更新Qwen3系列思考模式、非思考模式下，参数temperature、top_p默认值调用说明请查看：API调用文档
5月19日	百度	ERNIE 4.5 Turbo VL	ERNIE-4.5-Turbo-VL-32K-Preview	推理服务API V2版本-原生多模态图像理解	上新	图片理解、创作、翻译、代码等能力显著提升，支持32K上下文长度，首Token时延显著降低。调用说明请查看：API调用文档
5月15日	百度	Qianfan-Composition	Qianfan-Composition	推理服务API V2版本-图像理解	上新	垂类专精模型，专注于从输入图片中识别作文相关内容。它能够精准提取作文标题，完整还原文本内容，同时准确标注字数。调用说明请查看：API调用文档
5月15日	百度	Qianfan-Check-VL	Qianfan-Check-VL	推理服务API V2版本-图像理解	上新	适用于电商场景下，AIGC图片的质量检测场景。调用说明请查看：API调用文档
5月15日	百度	Qianfan-Agent-Intent	Qianfan-Agent-Intent-32K	推理服务API V2版本-文本生成	上新	百度自研Agent专用版模型，针对企业级大模型应用进行了专门的指令调优，在意图识别、工具调用等任务上的效果较好，同时在性能方面取得了显著提升。调用说明请查看：API调用文档
5月15日	百度	Qianfan-Sug	Qianfan-Sug	推理服务API V2版本-文本生成	上新	百度云-千帆平台自研的，适用于多轮对话场景，推荐下一轮潜在问题的垂直模型，更快、更准。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-235B-A22B Qwen3-30B-A3B Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B	推理服务API V2版本-文本生成	升级	新增支持参数enable_thinking，表示是否开启思考模式。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-32B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct，达到同规模业界SOTA水平。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-14B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-8B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-4B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、模型人类偏好能力显著增强，创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升，用户体验预期明显更佳。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-1.7B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列，模型人类偏好能力显著增强，创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升，用户体验预期明显更佳。调用说明请查看：API调用文档
5月8日	通义实验室	Qwen3	Qwen3-0.6B	推理服务API V2版本-文本生成	上新	实现思考模式和非思考模式的有效融合，可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列。调用说明请查看：API调用文档

2025年4月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
4月29日	通义实验室	Qwen3	Qwen3-235B-A22B	推理服务API V2版本-文本生成	上新	推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct，达到同规模业界SOTA水平。调用说明请查看：API调用文档
4月29日	通义实验室	Qwen3	Qwen3-30B-A3B	推理服务API V2版本-文本生成	上新	推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B，达到同规模业界SOTA水平。调用说明请查看：API调用文档
4月24日	百度	Qianfan-8B	Qianfan-8B	推理服务API V2版本-文本生成	上新	百度千帆团队推出的中文增强的大语言模型，在中英文理解、数学、代码等任务上达到了同规模模型的 SOTA水平。调用说明请查看：API调用文档
4月24日	百度	Qianfan-70B	Qianfan-70B	推理服务API V2版本-文本生成	上新	百度千帆团队推出的中文增强的大语言模型，在中英文理解、数学、代码等任务上达到了同规模模型的 SOTA水平。调用说明请查看：API调用文档
4月24日	深度求索	DeepSeek-R1-Distill-Qianfan-70B	DeepSeek-R1-Distill-Qianfan-70B	推理服务API V2版本-文本生成	上新	百度千帆团队推出的文本推理模型，基于千帆系列模型的基础上采用高质量的合成推理数据进行蒸馏训练，该模型为通用模型，在中文、英文、数学、代码等方面的表现强于同尺寸参数量的蒸馏模型。调用说明请查看：API调用文档
4月24日	深度求索	DeepSeek-R1-Distill-Qianfan-8B	DeepSeek-R1-Distill-Qianfan-8B	推理服务API V2版本-文本生成	上新	百度千帆团队推出的文本推理模型，基于千帆系列模型的基础上采用高质量的合成推理数据进行蒸馏训练，该模型为通用模型，在中文、英文、数学、代码等方面的表现强于同尺寸参数量的蒸馏模型。调用说明请查看：API调用文档
4月24日	百度	Qianfan-Llama-VL-8B	Qianfan-Llama-VL-8B	推理服务API V2版本-图像理解	上新	由百度千帆团队推出的多模态大模型。该模型能够同时理解图像与文本，在图像描述、视觉问答等任务中表现出高效的理解和生成能力。调用说明请查看：API调用文档
4月24日	智谱AI	GLM-4-32B-0414	GLM-4-32B-0414	推理服务API V2版本-文本生成	上新	GLM 家族320 亿参数模型，效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列。调用说明请查看：API调用文档
4月24日	智谱AI	GLM-Z1-32B-0414	GLM-Z1-32B-0414	推理服务API V2版本-文本生成	上新	具有深度思考能力的推理模型，相对于基础模型，显著提升了数理能力和解决复杂任务的能力。调用说明请查看：API调用文档
4月24日	智谱AI	GLM-Z1-Rumination-32B-0414	GLM-Z1-Rumination-32B-0414	推理服务API V2版本-文本生成	上新	具有沉思能力的深度推理模型（对标Open AI的Deep Research）。调用说明请查看：API调用文档
4月24日	百度	ERNIE 4.5 Turbo VL	ERNIE-4.5-Turbo-VL-32K	推理服务API V2版本-多模态	上新	图片理解、创作、翻译、代码等能力显著提升，首次支持32K上下文长度，首Token时延显著降低。调用说明请查看：API调用文档
4月24日	百度	ERNIE 4.5 Turbo	ERNIE-4.5-Turbo-32K	推理服务API V2版本-文本生成	上新	文心4.5 Turbo在去幻觉、逻辑推理和代码能力等方面也有着明显增强。对比文心4.5，速度更快、价格更低。文本创作、知识问答等能力提升显著。输出长度及整句时延相较ERNIE 4.5有所增加。调用说明请查看：API调用文档
4月24日	百度	ERNIE 4.5 Turbo	ERNIE-4.5-Turbo-128K	推理服务API V2版本-文本生成	上新	在去幻觉、逻辑推理和代码能力等方面也有着明显增强。对比文心4.5，速度更快、价格更低。模型能力全面提升，更好满足多轮长历史对话处理、长文档理解问答任务。调用说明请查看：API调用文档
4月24日	百度	ERNIE X1 Turbo	ERNIE-X1-Turbo-32K	推理服务API V2版本-文本生成	上新	具备更长的思维链，更强的深度思考能力，进一步增强了多模态和工具调用能力，擅长文学创作、逻辑推理等。与ERNIE-X1-32K相比，模型效果和性能更好。调用说明请查看：API调用文档
4月22日	通义实验室	Qwen2.5	Qwen2.5-7B-Instruct	推理服务API V2版本-对话Chat	上新	Qwen2.5系列中的旗舰模型，以不到1/5的参数规模超越了拥有4050亿参数的Llama3.1-405B，在多个权威测评中表现出色，稳居“全球最强开源大模型”的位置。调用说明请查看：API调用文档
4月17日	百度	ERNIE-iRAG-Edit	ERNIE-iRAG-Edit-1.0	推理服务API V2版本-图像编辑	上新	百度自研的图像编辑模型支持基于图片进行erase（消除对象）、repaint（重绘对象）、variation（生成变体）等操作。调用说明请查看：API调用文档
4月15日	百度	ERNIE X1 Turbo	ERNIE-X1-32K	推理服务API V2版本-对话Chat	上新	文心大模型X1具备更强的理解、规划、反思、进化能力。作为能力更全面的深度思考模型，文心X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。本版本为ERNIE-X1-32K的主版本。调用说明请查看：API调用文档
4月8日	meta	Llama-4-Maverick	Llama-4-Maverick-17B-128E-Instruct	推理服务API V2版本-多模态	上新	Llama 4 系列模型是原生的多模态 AI 模型，能够提供文本和多模态体验。这些模型利用了专家混合架构（mixture-of-experts architecture），在文本和图像理解方面提供了行业领先的性能。Llama-4-Maverick拥有128个专家的170亿参数模型。调用说明请查看：API调用文档
4月8日	meta	Llama-4-Scout	Llama-4-Scout-17B-16E-Instruct	推理服务API V2版本-多模态	上新	Llama 4 系列模型是原生的多模态 AI 模型，能够提供文本和多模态体验。这些模型利用了专家混合架构（mixture-of-experts architecture），在文本和图像理解方面提供了行业领先的性能。Llama-4-Scout拥有 16 位专家的 170 亿参数模型。调用说明请查看：API调用文档
4月3日	通义实验室	Qwen2.5-VL	Qwen2.5-VL-32B-Instruct	推理服务API V2版本-图像理解	上新	在图像解析、内容识别以及视觉逻辑推导等任务中，表现出更强的准确性和细粒度分析能力。调用说明请查看：API调用文档
4月1日	百度	ERNIE X1 Turbo	ERNIE-X1-32K-Preview	推理服务API V2版本-对话Chat	上新	文心大模型X1具备更强的理解、规划、反思、进化能力，是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型，文心X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。调用说明请查看：API调用文档

2025年3月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
3月27日	Black Forest Labs	Flux.1-schnell	Flux.1-schnell	推理服务API V2版本-图像生成	上新	是一个具有120亿参数的修正流变换器，能够根据文本描述生成图像。调用说明请查看：API调用文档
3月27日	上海人工智能实验室	InternVL2_5	InternVL2_5-38B-MPO	推理服务API V2版本-图像理解	上新	拥有380亿参数的大型多模态语言模型，擅长处理复杂的视觉与语言融合任务。调用说明请查看：API调用文档
3月27日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-V3	DeepSeek-V3-241226	推理服务API V2版本-对话Chat	上新	DeepSeek-V3 为杭州深度求索人工智能基础技术研究有限公司自研的 MoE 模型，其多项评测成绩突出，在主流榜单中位列开源模型榜首。V3 相比 V2.5 模型生成速度实现 3 倍提升，为用户带来更加迅速流畅的使用体验。调用说明请查看：API调用文档
3月27日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-V3	DeepSeek-V3-250324	推理服务API V2版本-对话Chat	升级	DeepSeek-V3 版本升级，最新版本为 DeepSeek-V3-250324。新版本在数学推理、代码生成能力以及长上下文理解能力方面有显著提升。调用说明请查看：API调用文档
3月21日	百度	ERNIE 4.5	ERNIE-4.5-8K-Preview	推理服务API V2版本-图像理解	升级	图像理解请求参数新增支持detail。调用说明请查看：图像理解
3月16日	百度	ERNIE 4.5	ERNIE-4.5-8K-Preview	推理服务API V2-对话Chat	上新	百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。调用说明请查看：多模态调用文档
3月13日	通义实验室	Qwen2.5-VL-7B-Instruct	Qwen2.5-VL-7B-Instruct	推理服务API V2版本-图像理解	上新	拥有约70亿参数的多模态指令遵循大语言模型，擅长处理图像与文本信息，支持跨模态应用场景。调用说明请查看：API调用文档
3月13日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-VL2 DeepSeek-VL2	DeepSeek-VL2 DeepSeek-VL2-Small	推理服务API V2版本-图像理解	升级	新增请求参数max_completion_tokens。调用说明请查看：API调用文档
3月7日	通义实验室	QwQ-32B	QwQ-32B	推理服务API V2版本-对话Chat	上新	通义千问团队推出的高效推理模型，支持消费级硬件部署，具备强大的实时推理能力和与智能体Agent集成的潜力。调用说明请查看：API调用文档
3月7日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-V3 DeepSeek-Reasoner DeepSeek-R1-Distill系列	DeepSeek-V3 DeepSeek-R1 DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Llama-70B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qianfan-Llama-70B DeepSeek-R1-Distill-Qianfan-Llama-8B	推理服务API V2版本-对话Chat	升级	更新max_completion_tokens值取值范围为[2,8192] 。调用说明请查看：API调用文档

2025年2月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
2月24日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-V3 DeepSeek-Reasoner DeepSeek-R1-Distill系列	DeepSeek-V3 DeepSeek-R1 DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Llama-70B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qianfan-Llama-70B DeepSeek-R1-Distill-Qianfan-Llama-8B	推理服务API V2版本-对话Chat	升级	更新temperature取值范围为[0，2]。调用说明请查看：API调用文档
2月20日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-VL2	DeepSeek-VL2 DeepSeek-VL2-Small	推理服务API V2版本-图像理解	升级	新增支持请求参数temperature和top_p。调用说明请查看：API调用文档
2月14日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qianfan-Llama-8B	推理服务API V2版本-对话Chat	上新	本模型是由千帆大模型研发团队以 Llama3_8B为base模型（Built with Meta Llama）蒸馏所得，蒸馏数据中也同步添加了千帆的语料。调用说明请查看：API调用文档
2月14日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qianfan-Llama-70B	推理服务API V2版本-对话Chat	上新	本模型是由千帆大模型研发团队以 Llama3_70B为base模型（Built with Meta Llama）蒸馏所得，蒸馏数据中也同步添加了千帆的语料。调用说明请查看：API调用文档
2月13日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-VL2	DeepSeek-VL2	推理服务API V2版本-图像理解	上新	基于 DeepSeekMoE-27B 构建，总激活参数为 45 亿，序列长度为 4096。调用说明请查看：API调用文档
2月13日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-VL2	DeepSeek-VL2-Small	推理服务API V2版本-图像理解	上新	基于 DeepSeekMoE-16B 构建，总激活参数为 28 亿，序列长度为 4096。调用说明请查看：API调用文档
2月11日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Llama-70B	推理服务API V2版本-对话Chat	上新	DeepSeek-R1-Distill-Llama-70B是DeepSeek-R1基于Llama3.3-70B-Instruct的蒸馏模型。调用说明请查看：API调用文档
2月11日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Llama-8B	推理服务API V2版本-对话Chat	上新	DeepSeek-R1-Distill-Llama-8B是DeepSeek-R1基于Llama3.1-8B-Base的蒸馏模型。调用说明请查看：API调用文档
2月11日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qwen-1.5B	推理服务API V2版本-对话Chat	上新	DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek-R1基于Qwen-2.5系列的蒸馏模型。调用说明请查看：API调用文档
2月11日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qwen-7B	推理服务API V2版本-对话Chat	上新	DeepSeek-R1-Distill-Qwen-7B是DeepSeek-R1基于Qwen-2.5系列的蒸馏模型。调用说明请查看：API调用文档
2月8日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qwen-32B	推理服务API V2版本-对话Chat	上新	基于 DeepSeek-R1 生成的样本数据对 Qwen2.5-32B 模型进行微调得到的新模型。调用说明请查看：API调用文档
2月8日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-R1-Distill	DeepSeek-R1-Distill-Qwen-14B	推理服务API V2版本-对话Chat	上新	基于 DeepSeek-R1 生成的样本数据对 Qwen2.5-14B 模型进行微调得到的新模型。调用说明请查看：API调用文档
2月7日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-Reasoner	DeepSeek-R1	对话Chat V2	升级	返回参数新增reasoning_content。调用说明请查看：API调用文档
2月7日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K	推理服务API V2版本-对话Chat	升级	响应参数新增返回cache_token字段，表示触发上下文缓存后，命中缓存的token数量。调用说明请查看：API调用文档
2月7日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K	推理服务API V1版本-对话Chat	升级	响应参数新增返回cache_token字段，表示触发上下文缓存后，命中缓存的token数量。调用说明请查看：API调用文档
2月3日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-V3	DeepSeek-V3	对话Chat V2	上新	由杭州深度求索人工智能基础技术研究有限公司自研的 MoE 模型，在百科知识、数学推理等多项任务上优势突出，评测成绩在主流榜单中位列开源模型榜首。调用说明请查看：API调用文档
2月3日	杭州深度求索人工智能基础技术研究有限公司	DeepSeek-Reasoner	DeepSeek-R1	对话Chat V2	上新	由杭州深度求索人工智能基础技术研究有限公司自研，在数学、代码、自然语言推理等任务上性能表现优异。调用说明请查看：API调用文档

2025年1月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
1月23日	百度	推理服务V2版本	ERNIE-iRAG-1.0	图像生成	上新	百度自研的iRAG（image based RAG），检索增强的文生图技术，将百度搜索的亿级图片资源跟强大的基础模型能力相结合，就可以生成各种超真实的图片，整体效果远远超过文生图原生系统，去掉了AI味儿，而且成本很低。iRAG具备无幻觉、超真实、立等可取等特点。调用说明请查看：API调用文档
1月13日	百度	推理服务V2版本	推理服务V2版本	阅读助手插件	上新	主要进行文档分析、网页解析，支持长传文档、网页，对其内容做摘要、分析、整理等任务。常见场景有论文综述、问题分析、论文精读、数据整理、会议纪要整理、文档总结、网页新闻精度等。调用说明请查看：API调用文档
1月8日	百度	推理服务V2版本	推理服务V2版本	推理服务V2版本-对话Chat V2	升级	请求参数新增metadata。调用说明请查看：API调用文档
1月8日	百度	推理服务V1版本	推理服务V1版本	推理服务V1版本-对话Chat	升级	请求参数新增metadata。调用说明请查看：API调用文档
1月8日	百度	推理服务V1版本	自定义模型	对话Chat	升级	请求参数新增metadata。调用说明请查看：API调用文档
1月8日	百度	推理服务V1版本	平台训练模型	对话Chat	升级	请求参数新增metadata。调用说明请查看：API调用文档
1月2日	百度	Qianfan Agent	Qianfan-Agent-Speed-32K	对话Chat	上新	Qianfan Agent是百度自研Agent专用版模型，针对企业级大模型应用进行了专门的指令调优，在问答场景、智能体相关场景可以获得同等规模模型下更好的效果。 2025年1月2号发布的版本，支持32K上下文长度。调用说明请查看：API调用文档

2024年12月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
12月20日	百度	ERNIE-Speed-AppBuilder ERNIE-Lite-AppBuilder	全系列	对话Chat	退役	为保障您业务平滑过度，建议您提前迁移至Qianfan-Agent-Speed-8K、Qianfan-Agent-Lite-8K，该服务为正式商用计费服务，经过持续调优，效果更好。
12月18日	百度	推理服务V2版本	推理服务V2版本	推理服务V2版本-对话Chat V2	升级	新增支持搜索相关能力，请求参数新增web_search，表示搜素增强的选项；响应参数新增search_results，表示搜索结果列表。调用说明请查看：API调用文档
12月13日	百度	ERNIE 4.0 Turbo系列 ERNIE 4.0系列 ERNIE 3.5系列	ERNIE-4.0-8K-Latest ERNIE-4.0-8K-Preview ERNIE-4.0-8K ERNIE-4.0-Turbo-8K-Latest ERNIE-4.0-Turbo-8K-Preview ERNIE-4.0-Turbo-8K ERNIE-4.0-Turbo-128K ERNIE-3.5-8K-Preview ERNIE-3.5-8K ERNIE-3.5-128K	推理服务V2版本-对话Chat V2	升级	响应参数usage新增支持prompt_tokens_details。调用说明请查看：API调用文档
12月2日	百度	推理服务V2版本	ERNIE-Lite-Pro-128K	推理服务V2版本-对话Chat V2	升级	新增支持function call。调用说明请查看：API调用文档

2024年11月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
11月21日	百度	ERNIE Character	ERNIE-Character-Fiction-8K-Preview	对话Chat	上新	百度自研的垂直场景大语言模型，适合游戏NPC、客服对话、对话角色扮演等应用场景，人设风格更为鲜明、一致，指令遵循能力更强，推理性能更优。ERNIE-Character-Fiction-8K-Preview是2024年10月28日发布的版本，在深度扮演能力、剧情创意度等方面能力得到增强，场景更加丰富。调用说明请查看：API调用文档
11月21日	百度	Qianfan Agent	Qianfan-Agent-Speed-8K	对话Chat	上新	千帆自研Agent专用版模型，针对企业级大模型应用进行了专门的指令调优，在问答场景、智能体相关场景可以获得同等规模模型下更好的效果。2024年11月21日发布的版本，支持8K上下文长度。调用说明请查看：API调用文档
11月21日	百度	Qianfan Agent	Qianfan-Agent-Lite-8K	对话Chat	上新	千帆自研Agent专用版模型，针对企业级大模型应用进行了专门的指令调优，在问答场景、智能体相关场景可以获得同等规模模型下更好的效果。2024年11月21日发布的版本，支持8K上下文长度。调用说明请查看：API调用文档
11月21日	百度	ERNIE Lite	ERNIE-Lite-128K-0722	对话Chat	上新	2024年7月22日发布版本，支持128K上下文长度。调用说明请查看：API调用文档
11月14日	百度	ERNIE 3.5	ERNIE-3.5-128K-Preview	对话Chat	上新	此版本为ERNIE-3.5-128K模型的预览版本，指向最新版本模型。调用说明请查看：API调用文档
11月14日	百度	ERNIE 4.0 Turbo系列 ERNIE 4.0系列 ERNIE 3.5系列	ERNIE-4.0-8K-Latest ERNIE-4.0-8K-Preview ERNIE-4.0-8K ERNIE-4.0-Turbo-8K-Latest ERNIE-4.0-Turbo-8K-Preview ERNIE-4.0-Turbo-8K ERNIE-4.0-Turbo-128K ERNIE-3.5-8K-Preview ERNIE-3.5-8K ERNIE-3.5-128K	推理服务V2版本-对话Chat V2	升级	新增支持function call。调用说明请查看：API调用文档

2024年10月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
10月31日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-128K	对话Chat	上新	ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型，综合效果表现出色，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-128K是模型的一个版本。调用说明请查看：API调用文档
10月29日	百度	ERNIE 3.5	ERNIE-3.5-8K-Preview	对话Chat	上新	模型能力全面升级，在文本创作、逻辑推理、角色扮演、信息处理等方向能力大幅提升，长文输出整句时延显著降低。您也可以在ERNIE-3.5-8K-Preview进行效果测试。调用说明请查看：API调用文档
10月11日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K-Latest	对话Chat	上新	ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型，综合效果表现出色，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K-Latest是模型的一个版本。调用说明请查看：API调用文档
10月10日	百度	ERNIE Tiny	ERNIE-Tiny-128K-0929	对话Chat	上新	百度自研的超高性能大语言模型，部署与精调成本在文心系列模型中最低。ERNIE-Tiny-128K-0929是2024年9月29日发布的版本，支持128K上下文长度。调用说明请查看：API调用文档
10月10日	百度	ERNIE 3.5	ERNIE-3.5-8K-0329	对话Chat	退役	如您需要继续使用请切换至ERNIE-3.5-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
10月10日	百度	ERNIE 4.0	ERNIE-4.0-8K-0329	对话Chat	退役	如您需要继续使用请切换至ERNIE-4.0-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
10月10日	百度	ERNIE Lite	ERNIE-Lite-8K-0922	对话Chat	退役	如您需要继续使用请切换至ERNIE-Lite-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
10月8日	百度	ERNIE 4.0	ERNIE-4.0-8K ERNIE-4.0-8K-Preview ERNIE-4.0-8K-Latest ERNIE-4.0-8K-0329 ERNIE-4.0-8K-0613	对话Chat	升级	API文档新增返回参数prompt_tokens_details、search_count。调用说明请查看：API调用文档
10月8日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K ERNIE-4.0-Turbo-8K-Preview	对话Chat	升级	API文档新增返回参数prompt_tokens_details、search_count。调用说明请查看：API调用文档
10月8日	百度	ERNIE 3.5	ERNIE-3.5-8K ERNIE-3.5-8K-Preview ERNIE-3.5-8K-0329 ERNIE-3.5-128K ERNIE-3.5-8K-0613 ERNIE-3.5-8K-0701	对话Chat	升级	API文档新增返回参数prompt_tokens_details、search_count。调用说明请查看：API调用文档
10月6日	百度	ERNIE AppBuilder	ERNIE-Speed-AppBuilder-8K、 ERNIE-Lite-AppBuilder-8K-0614	对话Chat	退役	相关操作可以到百度智能云千帆AppBuilder咨询。

2024年9月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
9月24日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K-0628	对话Chat	上新	ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型，综合效果表现出色，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K-0628是模型的一个版本。调用说明请查看API调用文档
9月6日	百度	ERNIE Lite Pro	ERNIE-Lite-Pro-128K	对话Chat	上新	百度自研的轻量级大语言模型，效果比ERNIE Lite更优，兼顾优异的模型效果与推理性能，适合低算力AI加速卡推理使用。ERNIE-Lite-Pro-128K该模型版本，优化模型效果，支持128K上下文长度，效果比ERNIE-Lite-128K更优。调用说明请查看API调用文档

2024年8月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
8月31日	百度	ERNIE Speed Pro	ERNIE-Speed-Pro-128K	对话Chat	上新	百度2024年最新发布的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，更好地处理特定场景问题，同时具备极佳的推理性能。调用说明请查看API调用文档
8月30日	百度	ERNIE 4.0	ERNIE-4.0-8K ERNIE-4.0-8K-Preview ERNIE-4.0-8K-Latest ERNIE-4.0-8K-0329 ERNIE-4.0-8K-0613	对话Chat	升级	API文档新增请求参数请求参数user_ip。调用说明请查看：API调用文档
8月30日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K ERNIE-4.0-Turbo-8K-Preview	对话Chat	升级	API文档新增请求参数请求参数user_ip。调用说明请查看：API调用文档
8月30日	百度	ERNIE 3.5	ERNIE-3.5-8K ERNIE-3.5-8K-Preview ERNIE-3.5-8K-0329 ERNIE-3.5-128K ERNIE-3.5-8K-0613 ERNIE-3.5-8K-0701	对话Chat	升级	API文档新增请求参数user_ip。调用说明请查看：API调用文档
8月29日	Meta	Meta-Llama-3.1-8B	Meta-Llama-3.1-8B-Instruct	对话Chat	上新	Meta Llama 3.1系列8B参数大语言模型，擅长语言细微差别，上下文理解、代码生成以及翻译和对话生成等复杂任务。
8月15日	百度	Qianfan-Dynamic-8K	Qianfan-Dynamic-8K	对话Chat	上新	百度新推高性价比大模型服务，覆盖海量中英文语料，具有强大的通用能力，可满足绝大部分对话问答、创作生成、插件应用等场景要求；同时，对模型推理进行了优化，提供更好的推理性能。调用说明请查看API调用文档
8月2日	百度	ERNIE-Novel-8K	ERNIE-Novel-8K	对话Chat	上新	百度自研通用大语言模型，在小说续写能力上有明显优势，也可用在短剧、电影等场景。2024年8月2日首次发布的版本，百度自研通用大语言模型，在小说续写能力上有明显优势，也可用在短剧、电影等场景。调用说明请查看API调用文档

2024年7月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
7月25日	百度	ERNIE 3.5	ERNIE-3.5-8K-0701	对话Chat	上新	ERNIE 3.5是百度自研的旗舰级大规模⼤语⾔模型，覆盖海量中英文语料，具有强大的通用能力，可满足绝大部分对话问答、创作生成、插件应用场景要求；支持自动对接百度搜索插件，保障问答信息时效。ERNIE-3.5-8K-0701是模型的一个版本。调用说明请查看API调用文档
7月18日	百度	ERNIE Character	ERNIE-Character-8K	对话Chat	升级	新增支持enable_user_memory、user_memory_extract_level，分别表示是否开启用户记忆、用户记忆抽取级别。调用说明请查看：API调用文档
7月18日	百度	ERNIE Character	ERNIE-Character-Fiction-8K	对话Chat	升级	新增支持enable_user_memory、user_memory_extract_level，分别表示是否开启用户记忆、用户记忆抽取级别。
7月11日	百度	ERNIE 3.5	ERNIE-3.5-8K-0205	对话Chat	退役	如您需要继续使用请切换至ERNIE-3.5-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
7月11日	百度	ERNIE 4.0	ERNIE-4.0-8K-0104	对话Chat	退役	如您需要继续使用请切换至ERNIE-4.0-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
7月4日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K-Preview	对话Chat	上新	ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型，综合效果表现出色，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K-Preview是模型的一个版本。调用说明请查看API调用文档

2024年6月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
6月28日	百度	ERNIE 4.0 Turbo	ERNIE-4.0-Turbo-8K	对话Chat	上新	ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型，综合效果表现出色，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K是2024年6月28日首次发布的版本。调用说明请查看：API调用文档
6月27日	百度	ERNIE AppBuilder	ERNIE-Lite-AppBuilder-8K-0614	对话Chat	上新	2024年6月14日发布的版本，支持8k上下文长度，模型经过INT8-PTQ量化压缩。调用说明请查看：API调用文档
6月24日	百度	ERNIE Character	ERNIE-Character-Fiction-8K	对话Chat	上新	百度自研的垂直场景大语言模型，适合游戏NPC、客服对话、对话角色扮演等应用场景，人设风格更为鲜明、一致，指令遵循能力更强，推理性能更优。调用说明请查看：API调用文档
6月13日	百度	ERNIE 4.0	ERNIE-4.0-8K-0613	对话Chat	上新	ERNIE 4.0是百度自研的旗舰级超大规模⼤语⾔模型，相较ERNIE 3.5实现了模型能力全面升级，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效，支持5K tokens输入+2K tokens输出。调用说明请查看：API调用文档
6月13日	百度	ERNIE 4.0	ERNIE-4.0-8K-Latest	对话Chat	上新	百度文心系列中效果最强大的⼤语⾔模型，理解、生成、逻辑、记忆能力达到业界顶尖水平。此版本是2024年6月更新发布的版本，在模型效果上进一步提升。调用说明请查看：API调用文档
6月13日	百度	ERNIE 3.5	ERNIE-3.5-8K-0613	对话Chat	上新	ERNIE 3.5是百度自研的旗舰级大规模⼤语⾔模型，覆盖海量中英文语料，具有强大的通用能力，可满足绝大部分对话问答、创作生成、插件应用场景要求；支持自动对接百度搜索插件，保障问答信息时效。ERNIE-3.5-8K-0613是模型的一个版本。调用说明请查看：API调用文档
6月13日	百度	ERNIE 4.0	ERNIE-4.0-8K（抢占式）	对话Chat	退役	后台模型推理性能提升，抢占式服务下线。退役机制说明请查看：模型版本升级及退役机制
6月13日	百度	ERNIE 3.5	ERNIE-3.5-8K（抢占式）	对话Chat	退役	后台模型推理性能提升，抢占式服务下线。退役机制说明请查看：模型版本升级及退役机制
6月7日	百度	ERNIE Lite	ERNIE-Lite-8K-0308	对话Chat	升级	API文档新增请求参数min_output_tokens。调用说明请查看：API调用文档
6月7日	百度	ERNIE Speed	ERNIE-Speed-8K	对话Chat	升级	API文档新增请求参数min_output_tokens。调用说明请查看：API调用文档
6月7日	百度	ERNIE Tiny	ERNIE-Tiny-8K	对话Chat	升级	API文档新增请求参数min_output_tokens。调用说明请查看：API调用文档
6月5日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 4.0	ERNIE-4.0-8K-Preview	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 4.0	ERNIE-4.0-8K-Preview-0518	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 4.0	ERNIE-4.0-8K-0329	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 4.0	ERNIE-4.0-8K-0104	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 3.5	ERNIE-3.5-8K-0205	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 3.5	ERNIE-3.5-8K-Preview	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 3.5	ERNIE-3.5-8K-0329	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档
6月5日	百度	ERNIE 3.5	ERNIE-3.5-128K	对话Chat	升级	新增支持enable_system_memory、system_memory_id。调用说明请查看：API调用文档

2024年5月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
5月30日	百度	ERNIE 3.5	ERNIE-3.5-8K-1222	对话Chat	退役	如您需要继续使用请切换至ERNIE-3.5-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
5月30日	百度	ERNIE 3.5	ERNIE-3.5-4K-0205	对话Chat	退役	如您需要继续使用请切换至ERNIE-3.5-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
5月29日	百度	ERNIE Lite	ERNIE-Lite-8K-0308	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月29日	百度	ERNIE Lite	ERNIE-Lite-8K-0922	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月29日	百度	ERNIE Lite	ERNIE-Lite-128K-0419	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月29日	百度	ERNIE Tiny	ERNIE-Tiny-8K	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月29日	百度	ERNIE Speed	ERNIE-Speed-8K	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月29日	百度	ERNIE Speed	ERNIE-Speed-128K	对话Chat	升级	新增请求参数frequency_penalty、presence_penalty。调用说明请查看：API调用文档
5月21日	百度	ERNIE 4.0	ERNIE-4.0-8K-Preview-0518	对话Chat	上新	百度文心系列中效果最强大的⼤语⾔模型，理解、生成、逻辑、记忆能力达到业界顶尖水平。此版本相比ERNIE-4.0-8K-0329能力全面提升，其中角色扮演能力和指令遵循能力提升较大。调用说明请查看：API调用文档
5月21日	Meta、百度千帆	Llama-2-70B	Qianfan-Chinese-Llama-2-70B	对话Chat	上新	千帆ModelBuilder团队在Llama-2-70b基础上的中文增强版本，在CMMLU、C-EVAL等中文数据集上表现优异。调用说明请查看：API调用文档
5月16日	百度	ERNIE 3.5	ERNIE-3.5-128K	对话Chat	上新	2024年5月16日发布版本，提升上下文窗口长度至128K。调用说明请查看：API调用文档
5月16日	百度	ERNIE AppBuilder	ERNIE-Speed-AppBuilder-8K-0516	对话Chat	上新	2024年5月16日发布的版本，支持8k上下文长度，模型由fp16量化压缩为int8，效果无损，性能提升30% 调用说明请查看：API调用文档
5月9日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	升级至0329版本，模型效果在人设、时效性等方面有显著提升，保留ERNIE-4.0-8K的评估和体验。调用说明请查看：API调用文档
5月9日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	升级至0329版本，模型效果在人设、时效性等方面有显著提升。调用说明请查看：API调用文档
5月9日	百度	ERNIE Functions	ERNIE-Functions-8K	对话Chat	升级	更新对话示例和使用说明。调用说明请查看：API调用文档
5月8日	Meta、百度千帆	Llama-2-13B	Qianfan-Chinese-Llama-2-13b-v2	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档
5月8日	Meta、百度千帆	Llama-2-7B	Qianfan-Chinese-Llama-2-7b-32K	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档
5月8日	Meta、百度千帆	Llama-2-70B	Qianfan-Chinese-Llama-2-1.3B	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档
5月8日	智谱AI、清华KEG实验室	ChatGLM2-6B	chatglm2-6b	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档
5月8日	百川智能	Baichuan2-7B	Baichuan2-7B-Chat	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档
5月8日	百川智能	Baichuan2-13B	Baichuan2-13B-Chat	对话Chat	升级	新增支持请求参数logprobs、top_logprobs。调用说明请查看：API调用文档

2024年4月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
4月30日	百度	ERNIE 3.5	ERNIE-3.5-8K-0329	对话Chat	上新	百度自研的旗舰级大规模⼤语⾔模型，覆盖海量中英文语料，具有强大的通用能力，可满足绝大部分对话问答、创作生成、插件应用场景要求；支持自动对接百度搜索插件，保障问答信息时效。调用说明请查看：API调用文档
4月30日	百度	ERNIE 4.0	ERNIE-4.0-8K-0329	对话Chat	上新	百度自研的旗舰级超大规模⼤语⾔模型，相较ERNIE 3.5实现了模型能力全面升级，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效，支持5K tokens输入+2K tokens输出。调用说明请查看：API调用文档
4月29日	百度	ERNIE Lite	ERNIE-Lite-128K-0419	对话Chat	上新	百度自研的轻量级大语言模型，兼顾优异的模型效果与推理性能，适合低算力AI加速卡推理使用。该模型版本是2024年4月19日发布版本，优化模型效果，支持128K上下文长度。调用说明请查看：API调用文档
4月29日	Meta、百度千帆	Qianfan-Chinese-Llama-2-1.3B	Qianfan-Chinese-Llama-2-1.3B	对话Chat	上新	Qianfan-Chinese-Llama-2-1.3B是由千帆ModelBuilder团队基于Llama2架构开发的13亿参数预训练大语言模型，在1T+ tokens的高质量自有语料上从零开始训练，支持中英双语，上下文窗口长度为4K。推理效果整体优于同参数量级开源模型。调用说明请查看：API调用文档
4月25日	百度	ERNIE 4.0	ERNIE-4.0-8K-0104	对话Chat	上新	百度自研的旗舰级超大规模⼤语⾔模型，相较ERNIE 3.5实现了模型能力全面升级，广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效。调用说明请查看：API调用文档
4月25日	百度	ERNIE Functions	ERNIE-Functions-8K	对话Chat	上新	百度自研的垂直场景大语言模型，适合游戏NPC、客服对话、对话角色扮演等应用场景，人设风格更为鲜明、一致，指令遵循能力更强，推理性能更优。调用说明请查看：API调用文档
4月19日	Meta	Meta-Llama-3-8B	Meta-Llama-3-8B-Instruct	对话Chat	上新	Meta AI于2024年4月18日发布的Meta Llama 3系列8B参数大语言模型，擅长语言细微差别、上下文理解、代码生成以及翻译和对话生成等复杂任务。调用说明请查看：API调用文档
4月19日	Meta	Meta-Llama-3-70B	Meta-Llama-3-70B-Instruct	对话Chat	上新	Meta AI于2024年4月18日发布的Meta Llama 3系列70B参数大语言模型，擅长语言细微差别、上下文理解、代码生成以及翻译和对话生成等复杂任务。调用说明请查看：API调用文档
4月12日	百度	ERNIE 4.0	ERNIE-4.0-8K-Preview	对话Chat	上新	百度自研的旗舰级超大规模⼤语⾔模型，相较ERNIE 3.5实现了模型能力全面升级，广泛适用于各领域复杂任务场景。调用说明请查看：API调用文档
4月12日	百度	ERNIE 3.5	ERNIE-3.5-8K-Preview	对话Chat	上新	百度自研的旗舰级大规模⼤语⾔模型，覆盖海量中英文语料，具有强大的通用能力，可满足绝大部分对话问答、创作生成、插件应用场景要求；支持自动对接百度搜索插件，保障问答信息时效。调用说明请查看：API调用文档
4月11日	百度	ERNIE Speed	所有版本	对话Chat	升级	更新messages、system、max_output_tokens等参数值说明。
4月11日	百度	ERNIE 4.0	所有版本	对话Chat	升级	更新max_output_tokens参数值说明。
4月11日	百度	ERNIE 3.5	所有版本	对话Chat	升级	更新messages、functions、system和max_output_tokens等参数值说明。
4月11日	百度	ERNIE Lite	ERNIE-Lite-8K	对话Chat	升级	更新messages和system参数值说明。调用说明请查看：API调用文档
4月11日	百度	ERNIE Tiny	ERNIE-Tiny-8K	对话Chat	升级	更新messages、system、max_output_tokens等参数值说明。调用说明请查看：API调用文档
4月11日	百度	ERNIE Character	ERNIE-Character-8K	对话Chat	升级	更新messages、system、max_output_tokens等参数值说明。调用说明请查看：API调用文档
4月11日	度小满	XuanYuan-70B	XuanYuan-70B-Chat-4bit	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月11日	Meta、百度千帆	Llama-2-13B	Qianfan-Chinese-Llama-2-13B-v1	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月11日	Mistral AI	Mixtral-8x7B	Mixtral-8x7B-Instruct-v0.1	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月11日	零一万物	Yi-34B	Yi-34B-Chat	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月11日	Google	Gemma-7B	gemma-7b-it	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月11日	智源研究院	Aquila-7B	AquilaChat-7B	对话Chat	升级	更新messages参数值说明。调用说明请查看：API调用文档
4月1日	百度	ERNIE Character	ERNIE-Character-8K	对话Chat	上新	百度自研的垂直场景大语言模型，适合游戏NPC、客服对话、对话角色扮演等应用场景，人设风格更为鲜明、一致，指令遵循能力更强，推理性能更优。调用说明请查看：API调用文档
4月1日	Adept AI	Fuyu-8B	fuyu-8b	图像Images	上新	由Adept AI训练的多模态图像理解模型，可以支持任意的图像分辨率，回答图形图表有关问题。模型在视觉问答和图像描述等任务上表现良好。调用说明请查看：API调用文档

2024年3月

本月完成文心大模型系列的“品牌升级”，以下模型名称进行更名：
ERNIE-Bot 4.0 更名为「ERNIE 4.0」、ERNIE-Bot 更名为「ERNIE 3.5」、ERNIE-Bot-Turbo 更名为「ERNIE Lite」相应模型版本名称也对应进行更名。

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
3月29日	百度	ERNIE Lite	ERNIE-Lite-8K	对话Chat	升级	更新max_output_tokens模型最大输出token数。调用说明请查看：API调用文档
3月29日	百度	ERNIE 4.0	ERNIE-4.0-8K-0329	对话Chat	上新	百度文心系列中效果最强大的⼤语⾔模型，理解、生成、逻辑、记忆能力达到业界顶尖水平。此版本是2024年3月29号更新发布的版本，在模型效果上进一步提升。调用说明请查看：API调用文档
3月28日	网易有道	bce-reranker-base	bce-reranker-base_v1	重排序Reranker	上新	由网易有道开发的跨语种语义表征算法模型，擅长优化语义搜索结果和语义相关顺序精排，支持中英日韩四门语言，覆盖常见业务领域，支持长package rerank(512~32k)。调用说明请查看：API调用文档
3月28日	智谱AI、清华KEG实验室	ChatGLM3-6B	chatglm3-6b-32k	对话Chat	上新	在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力，能够更好的处理最多32K长度的上下文。调用说明请查看：API调用文档
3月28日	Meta、百度千帆	Llama-2-13B	Qianfan-Chinese-Llama-2-13B-v2	对话Chat	上新	千帆ModelBuilder团队基于Llama2架构开发的130亿参数预训练大语言模型，在1T+ tokens的高质量自有语料上从零开始训练，支持中英双语，上下文窗口长度为4K。推理效果整体优于同参数量级开源模型。调用说明请查看：API调用文档
3月28日	Meta、百度千帆	Llama-2-70B	Qianfan-Chinese-Llama-2-70B	对话Chat	上新	千帆ModelBuilder团队在Llama-2-70b基础上的中文增强版本，在CMMLU、C-EVAL等中文数据集上表现优异。调用说明请查看：API调用文档
3月28日	百度	ERNIE-4.0-8K（抢占式）	ERNIE-4.0-8K（抢占式）	对话Chat	上新	已于2024年6月13日下线，下线后接口将停止服务，后续您可通过批量预测功能处理离线数据。退役机制说明请查看：模型版本升级及退役机制
3月28日	百度	ERNIE-3.5-8K（抢占式）	ERNIE-3.5-8K（抢占式）	对话Chat	上新	已于2024年6月13日下线，下线后接口将停止服务，后续您可通过批量预测功能处理离线数据。退役机制说明请查看：模型版本升级及退役机制
3月18日	Google	Gemma-2B	gemma-2b-it	对话Chat	上新	开源对话Chat模型，采用与 Gemini 模型相同的技术构建，适合用于各种对话Chat任务，能够在资源量较小的端侧设备部署。该版本为20亿参数的指令微调版本。调用说明请查看：API调用文档
3月18日	Google	Gemma-7B	gemma-7b-it	对话Chat	上新	开源文本生成模型，采用与 Gemini 模型相同的技术构建，适合用于各种文本生成任务，能够在资源量较小的端侧设备部署。该版本为70亿参数的指令微调版本。调用说明请查看：API调用文档
3月14日	百度	ERNIE Speed	ERNIE-Speed-128K	对话Chat	上新	百度2024年最新发布的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，更好地处理特定场景问题，同时具备极佳的推理性能。调用说明请查看：API调用文档
3月8日	百度	ERNIE Lite	ERNIE-Lite-8K	对话Chat	上新	百度自研的轻量级大语言模型，兼顾优异的模型效果与推理性能，适合低算力AI加速卡推理使用。调用说明请查看：API调用文档
3月8日	百度	ERNIE Tiny	ERNIE-Tiny-8K	对话Chat	上新	百度自研的超高性能大语言模型，部署与精调成本在文心系列模型中最低。本版本为2024年3月8日发布的初始版本，支持8K上下文长度。调用说明请查看：API调用文档
3月1日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	更新token和字符限制。调用说明请查看：API调用文档

2024年2月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
2月28日	百度	ERNIE Lite	ERNIE-Lite-8K-0922	对话Chat	升级	新增响应头Header参数，X-Ratelimit-Limit-Requests、X-Ratelimit-Limit-Tokens。调用说明请查看：API调用文档
2月28日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	新增响应头Header参数，X-Ratelimit-Limit-Requests、X-Ratelimit-Limit-Tokens、X-Ratelimit-Remaining-Requests、X-Ratelimit-Remaining-Tokens。调用说明请查看：API调用文档
2月28日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	新增响应头Header参数，X-Ratelimit-Limit-Requests、X-Ratelimit-Limit-Tokens、X-Ratelimit-Remaining-Requests、X-Ratelimit-Remaining-Tokens。调用说明请查看：API调用文档
2月28日	百度	ERNIE Speed	ERNIE-Speed-8K	对话Chat	升级	新增响应头Header参数，X-Ratelimit-Limit-Requests、X-Ratelimit-Limit-Tokens、X-Ratelimit-Remaining-Requests、X-Ratelimit-Remaining-Tokens。调用说明请查看：API调用文档
2月27日	百度	ERNIE 3.5	ERNIE-3.5-8K-1222	对话Chat	上新	已于2024年5月30日下线，下线后接口将停止服务，后续您可通过ERNIE-3.5-8K调用。退役机制说明请查看：模型版本升级及退役机制
2月5日	百度	ERNIE 3.5	ERNIE-3.5-4K-0205	对话Chat	上新	已于2024年5月30日下线，下线后接口将停止服务，后续您可通过ERNIE-3.5-8K调用。退役机制说明请查看：模型版本升级及退役机制
2月5日	百度	ERNIE 3.5	ERNIE-3.5-8K-0205	对话Chat	上新	将于2024年7月11日下线，下线后接口将停止服务，后续您可通过ERNIE-3.5-8K调用。退役机制说明请查看：模型版本升级及退役机制
2月2日	amu	tao-8k	tao-8k	向量Embeddings	升级	更新请求参数input字符限制说明。调用说明请查看：API调用文档
2月1日	Meta、百度千帆	Llama-2-7B	Qianfan-Chinese-Llama-2-7B-32K	对话Chat	上新	千帆ModelBuilder团队在Qianfan-Chinese-Llama-2-7B基础上的增强版本，支持32K上下文。调用说明请查看：API调用文档
2月1日	百度	ERNIE Speed	ERNIE-Speed-8K	对话Chat	上新	度2024年最新发布的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，更好地处理特定场景问题，同时具备极佳的推理性能。调用说明请查看：API调用文档
2月1日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	针对ERNIE 4.0接口的functions功能升级：已接入使用的，可继续使用functions能力；未接入使用的，请关注后续升级更新情况接入使用。调用说明请查看：API调用文档

2024年1月

日期	模型厂商	模型名称	模型版本	模型类型	动态说明	介绍及调用
1月25日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	新增支持请求参数max_output_tokens，表示指定模型最大输出token数。调用说明请查看：API调用文档
1月19日	百度	ERNIE Lite	ERNIE-Lite-8K-0922	对话Chat	升级	响应说明新增响应头Header参数。调用说明请查看：API调用文档
1月12日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	新增请求参数tool_choice，表示在函数调用场景下，提示大模型选择指定的函数。调用说明请查看：API调用文档
1月12日	百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	升级	新增请求参数tool_choice，表示在函数调用场景下，提示大模型选择指定的函数。调用说明请查看：API调用文档
1月11日	Mistral AI	Mixtral-8x7B	Mixtral-8x7B-Instruct	对话Chat	上新	高质量稀疏专家混合模型 (MOE)，模型由8个70亿参数专家模型组成，在多个基准测试中表现优于Llama-2-70B及GPT3.5，能够处理32K上下文，在代码生成任务中表现尤为优异。该版本为支持对话的微调版本。调用说明请查看：API调用文档
1月11日	百度	文心一格	文心一格	图像Images	上新	跨模态图像生成大模型，创新知识增强的混合专家建模，是全球首个知识增强的AI作画大模型，在语义控制、图像细节、中文理解等方面优势显著。调用说明请查看：API调用文档
1月8日	百度	ERNIE 3.5	ERNIE-3.5-8K	对话Chat	升级	新增支持请求参数max_output_tokens，表示指定模型最大输出token数。调用说明请查看：API调用文档
1月4日	百度	ERNIE 4.0	ERNIE-4.0-8K-0104			百度文心系列中效果最强大的⼤语⾔模型，理解、生成、逻辑、记忆能力达到业界顶尖水平。此版本是2024年1月4号更新发布的版本，在模型效果上进一步提升。调用说明请查看：API调用文档

2023年及以前发布的模型

模型厂商	模型名称	模型版本	模型类型	介绍及调用
百度	ERNIE 4.0	ERNIE-4.0-8K	对话Chat	百度文心系列中效果最强大的⼤语⾔模型，理解、生成、逻辑、记忆能力达到业界顶尖水平。调用说明请查看：API调用文档
百度	ERNIE Lite	ERNIE-Lite-4K-0516	对话Chat	2023年5月16日发布的初始版本，支持4K上下文长度。调用说明请查看：API调用文档
百度	ERNIE Lite	ERNIE-Lite-4K-0704	对话Chat	2023年7月4日发布版本，优化推理效果，修复部分问题，支持4K上下文长度。调用说明请查看：API调用文档
百度	ERNIE Lite	ERNIE-Lite-8K-0725	对话Chat	2023年7月25日发布版本，新增推理超参数，提升上下文窗口长度至8K。调用说明请查看：API调用文档
百度	ERNIE Lite	ERNIE-Lite-8K-0922	对话Chat	2计划于2024年7月4日下线，下线后接口将停止服务，如您需要继续使用请切换至ERNIE-Lite-8K模型接口。退役机制说明请查看：模型版本升级及退役机制
Stability AI	Stable-Diffusion-XL	stable-diffusion-xl-base-1.0	图像Images	Stability AI 7月27日发布的版本，推理性能与图片质量较此前版本有显著提升。调用说明请查看：API调用文档
Adept AI	Fuyu-8B	fuyu-8b	图像Images	由Adept AI训练的多模态图像理解模型，可以支持任意的图像分辨率，回答图形图表有关问题。模型在视觉问答和图像描述等任务上表现良好。调用说明请查看：API调用文档
零一万物	Yi-34B	Yi-34B-Chat	对话Chat	双语大语言模型，使用4K序列长度进行训练，在推理期间可扩展到32K；模型在多项评测中全球领跑，取得了多项 SOTA 国际最佳性能指标表现。此版本为支持对话的chat版本。调用说明请查看：API调用文档
零一万物	Yi-34B	Yi-34B	续写Completions	双语大语言模型，使用4K序列长度进行训练，在推理期间可扩展到32K；模型在多项评测中全球领跑，取得了多项 SOTA 国际最佳性能指标表现。此版本为初始训练版本。调用说明请查看：API调用文档
Mistral AI	Mistral-7B	Mistral-7B-Instruct-v0.1	对话Chat	7B参数大语言模型，具备强大的推理性能和效果，对硬件需求更少、在各项评测基准中超越同规模模型。此版本为在预训练模型Mistral-7B-v0.1基础上的微调版本。调用说明请查看：API调用文档
Meta、百度千帆	Llama-2-7B	Qianfan-Chinese-Llama-2-7B	对话Chat	千帆ModelBuilder团队在Llama-2-7b基础上的中文增强版本，在CMMLU、C-EVAL等中文数据集上表现优异。调用说明请查看：API调用文档
Meta、深圳大学CV研究所	Llama-2-7B	Linly-Chinese-LLaMA-2-7B	对话Chat	由深圳大学CV研究所Linly项目进行中文增强训练的7b参数版本。调用说明请查看：API调用文档
Meta	Llama-2-7B	Llama-2-7b-chat	对话Chat	Llama-2-7b-chat是高性能原生开源版本，适用于对话场景。调用说明请查看：API调用文档
Meta、百度千帆	Llama-2-13B	Qianfan-Chinese-Llama-2-13B-v1	对话Chat	千帆ModelBuilder团队在Llama-2-13b基础上的中文增强版本，在CMMLU、C-EVAL等中文数据集上表现优异。调用说明请查看：API调用文档
Meta、深圳大学CV研究所	Llama-2-13B	Linly-Chinese-LLaMA-2-13B	对话Chat	由深圳大学CV研究所Linly项目进行中文增强训练的13b参数版本。调用说明请查看：API调用文档
Meta	Llama-2-13B	Llama-2-13b-chat	对话Chat	Llama-2-13b-chat是性能与效果均衡的原生开源版本，适用于对话场景。调用说明请查看：API调用文档
Meta、百度千帆	Llama-2-70B	Qianfan-Llama-2-70B-compressed	对话Chat	Qianfan-Llama-2-70B-compressed是千帆ModelBuilder团队在Llama-2-70B基础上的压缩版本，融合量化、稀疏化、算子优化等压缩加速技术，大幅降低模型推理资源占用。调用说明请查看：API调用文档
Meta	Llama-2-70B	Llama-2-70b-chat	对话Chat	Llama-2-70b-chat是高精度效果的原生开源版本。调用说明请查看：API调用文档
智谱AI、清华KEG实验室	ChatGLM3-6B	chatglm3-6b	对话Chat	中英双语对话模型，相比前两代，具备更强大的基础模型，同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。本版本为初始版本。调用说明请查看：API调用文档
智谱AI、清华KEG实验室	ChatGLM2-6B	chatglm2-6b	对话Chat	中英双语对话模型，具备强大的推理性能、效果、较低的部署门槛及更长的上下文，在MMLU、CEval等数据集上相比初代有大幅的性能提升。本版本为初始训练版本。调用说明请查看：API调用文档
智谱AI、清华KEG实验室	ChatGLM2-6B	chatglm2-6b-int4	对话Chat	在ChatGLM2-6B的基础上进行INT4 量化，6G 显存支持的对话长度由 1K 提升到了 8K。调用说明请查看：API调用文档
智谱AI、清华KEG实验室	ChatGLM2-6B	chatglm2-6b-32k	对话Chat	在ChatGLM2-6B的基础上进一步强化了对于长文本的理解能力，能够更好的处理最多32K长度的上下文。调用说明请查看：API调用文档
百川智能	Baichuan2-7B	Baichuan2-7B-Chat	对话Chat	新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练，在权威的中文和英文 benchmark 上均取得同尺寸领先的效果。该版本为70亿参数规模的Chat版本。调用说明请查看：API调用文档
百川智能	Baichuan2-13B	Baichuan2-13B-Chat	对话Chat	新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练，在权威的中文和英文 benchmark 上均取得同尺寸领先的效果。该版本为130亿参数规模的Chat版本。调用说明请查看：API调用文档
元象科技	XVERSE-13B	XVERSE-13B-Chat	对话Chat	支持多语言的大语言模型，支持8k上下文、40多种语言，具备训练效率高、稳定性强、算力利用率高等特点。该版本为130亿参数规模的Chat版本。调用说明请查看：API调用文档
智源研究院	Aquila-7B	AquilaCode-multi	续写Completions	基于Aquila-7B训练的代码生成模型，使用经过高质量过滤且有合规开源许可的代码数据进行训练，数据量约为其他开源代码生成模型的10～40%。调用说明请查看：API调用文档
智源研究院	Aquila-7B	AquilaChat-7B	对话Chat	基于Aquila-7B训练的对话模型，支持流畅的文本对话及多种语言类生成任务，通过定义可扩展的特殊指令规范，实现 AquilaChat对其它模型和工具的调用，且易于扩展。调用说明请查看：API调用文档
Defog	SQLCoder	sqlcoder-7b	续写Completions	由Defog研发、基于Mistral-7B微调的语言模型，用于将自然语言问题转换为SQL语句，具备优秀的生成效果。调用说明请查看：API调用文档
Meta	CodeLlama-7B	CodeLlama-7b-Instruct	续写Completions	对话Chat模型，旨在用于一般代码合成和理解。该模型参数规模为70亿。调用说明请查看：API调用文档
BigCode	StarCoder	starcoder	续写Completions	由BigCode研发的15.5B参数模型，基于The Stack (v1.2)的80+编程语言训练，训练语料来自Github。调用说明请查看：API调用文档
度小满	XuanYuan-70B	XuanYuan-70B-Chat-4bi	对话Chat	XuanYuan-70B-Chat-4bit为4bit量化后的chat版本，显存占用显著降低。调用说明请查看：API调用文档
复旦大学	DISC-MedLLM	DISC-MedLLM	对话Chat	DISC-MedLLM是一个专门针对医疗健康对话式场景而设计的医疗领域大模型，由复旦大学数据智能与社会计算实验室 (Fudan-DISC)开发并开源。调用说明请查看：API调用文档
BigScience	BLOOMZ-7B	BLOOMZ-7B	对话Chat	业内知名的⼤语⾔模型，由BigScience研发并开源，能够以46种语⾔和13种编程语⾔输出⽂本。调用说明请查看：API调用文档
BigScience、百度千帆	BLOOMZ-7B	Qianfan-BLOOMZ-7B-compressed	对话Chat	千帆ModelBuilder团队在BLOOMZ-7B基础上的压缩版本，融合量化、稀疏化等技术，显存占用降低30%以上。调用说明请查看：API调用文档
彭博	RWKV-7B	rwkv-4-world	对话Chat	模型在100多种语言上进行训练，具备优秀的英语零样本与上下文学习能力。调用说明请查看：API调用文档
彭博	RWKV-14B	rwkv-4-pile-14b	对话Chat	在 Pile 数据集上训练的 L40-D5120 因果语言模型。调用说明请查看：API调用文档
彭博	RWKV-14B	rwkv-raven-14b	对话Chat	WKV架构的Chat版本，在Pile数据集上训练，并在Alpaca、CodeAlpaca等上进行微调。调用说明请查看：API调用文档
TII	Falcon-7B	falcon-7b-v5-fp16	对话Chat	由TII研发、在精选语料库增强的1500B tokens上进行训练。由OpenBuddy调优并开源，提升了处理复杂对话任务的能力与表现。调用说明请查看：API调用文档
TII	Falcon-40B	falcon-40b-instruct	对话Chat	由TII研发的仅使用解码器的模型，并在Baize的混合数据集上进行微调，具备优异的推理效果。调用说明请查看：API调用文档
Meta、OpenBuddy	OpenLLaMA-7B	openllama-7b-v5-fp16	对话Chat	在Meta AI研发的Llama模型基础上，OpenBuddy进行调优，涵盖了更广泛的词汇、通用字符与token嵌入，具备与Llama相当的性能与推理效果。调用说明请查看：API调用文档
Databricks	Dolly-12B	dolly-v2-12b	对话Chat	Dolly-12B由Databricks训练的指令遵循大语言模型。基于pythia-12b，由InstructGPT论文的能力域中生成的约15k指令/响应微调记录训练。调用说明请查看：API调用文档
MosaicML	MPT-7B	mpt-7b-instruct	对话Chat	MPT-7B-Instruct是一种短格式指令遵循模型，由MosaicML研发，基于MPT-7B模型在Databricks Dolly-15k、HH-RLHF数据集上调优的版本，采用经过修改的仅使用解码器的transformer架构。调用说明请查看：API调用文档
MosaicML	MPT-30B	mpt-30b-instruct	对话Chat	MPT-30M-Instruct是一种短格式指令遵循模型，由MosaicML研发，基于MPT-7B模型在更为丰富的数据集上调优的版本，采用经过修改的仅使用解码器的transformer架构。调用说明请查看：API调用文档
Cerebras	Cerebras-GPT-13B	Cerebras-GPT-13B	续写Completions	由Cerebras研发并开源，使用 Chinchilla 公式进行训练的13B参数GPT模型，可为给定的计算预算提供最高的准确性，具备更低的训练成本与功耗。调用说明请查看：API调用文档
EleutherAI	Pythia-12B	pythia-12b	续写Completions	由EleutherAI研发并开源，在Pile数据集上训练的12B参数transformer语言模型。调用说明请查看：API调用文档
EleutherAI	Pythia-12B	oasst-sft-4-pythia-12b-epoch-3.5	对话Chat	基于Pythia12B，Open-Assistant项目的第4次SFT迭代模型。该模型在`https://open-assistant.io/` 收集的人类反馈的对话数据上进行微调。调用说明请查看：API调用文档
EleutherAI	GPT-J-6B	gpt-j-6b	续写Completions	EleutherAI开发的6B参数transformer模型，基于Mesh Transformer JAX训练。调用说明请查看：API调用文档
EleutherAI、Nomic	GPT-J-6B	gpt4all-j	续写Completions	由Nomic AI研发、基于GPT-J在包括文字问题、多轮对话、代码、诗歌、歌曲和故事在内的大量语料上进行精调训练生成的模型。调用说明请查看：API调用文档
EleutherAI	GPT-NeoX-20B	gpt-neox-20b	续写Completions	由EleutherAI开发，使用GPT-NeoX库，基于Pile训练的200亿参数自回归语言模型，模型结构与GPT-3、GPT-J-6B类似。调用说明请查看：API调用文档
Stability AI	StableLM-Alpha-7B	stablelm-base-alpha-7b	续写Completions	Stability AI开发的7B参数的NeoX transformer架构语言模型，支持4k上下文。调用说明请查看：API调用文档
百度	Embedding-V1	Embedding-V1	向量Embeddings	基于百度文心大模型技术的文本表示模型，可以将文本转化为用数值表示的向量形式，用于文本检索、信息推荐、知识挖掘等场景。调用说明请查看：API调用文档
amu	tao-8k	tao-8k	向量Embeddings	支持8k上下文长度，模型效果在C-MTEB上居前列，是当前最优的中文长文本embeddings模型之一。调用说明请查看：API调用文档
智源研究院	bge-large-zh	bge-large-zh	向量Embeddings	由智源研究院研发的中文版文本表示模型，可将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。调用说明请查看：API调用文档
智源研究院	bge-large-en	bge-large-en	向量Embeddings	由智源研究院研发的英文版文本表示模型，可将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。调用说明请查看：API调用文档

平台更新记录

模型版本升级及退役机制