产品简介

更新时间：2026-07-14

Hi，您好，欢迎使用百度语音能力引擎（SPEECH）服务。

本文档主要针对API开发者，描述百度语音能力引擎接口服务的相关技术内容。如果您对文档内容有任何疑问，可以通过以下几种方式联系我们：

在百度智能云控制台内提交工单，咨询问题类型请选择人工智能-语音能力引擎 SPEECH；
客服电话：400-920-8999。

注意！

请勿通过任何第三方插件使用百度语音能力引擎服务，使用第三方非法插件会导致您的 AppID、API Key、Secret Key、Access Token 泄露，他人即可盗用您的账户进行任意消费，如因产生的恶意消费，需您自行承担责任。

如您已经使用了第三方插件，建议您立即删除对应appid并更新账户密码！

接口能力

接口名称	接口能力简要描述
端到端语音语言大模型	百度端到端语音语言大模型基于 Cross-Attention 跨模态架构，以超拟人交互、超精准查询、超低时延和超低成本四大优势，覆盖情感陪伴、智能助手、在线教育、呼叫中心及智能硬件等场景。
语音识别	采用国际领先的流式端到端语音语言一体化建模算法，将语音快速准确识别为文字，支持手机应用语音交互、语音内容分析、机器人对话等多个场景。
短语音识别	将60秒以内的语音精准识别为文字，可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景。
短语音识别极速版	采用最新解码技术，API接口识别速度提升5倍以上，耗时仅音频时长十分之一，提升语音交互体验。
实时语音识别	实时语音识别接口采用websocket协议的连接方式，边上传音频边获取识别结果。适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。
音频文件转写 (16k)	音频文件转写接口可以将大批量的音频文件异步转写为文字。适合音视频字幕生产、批量录音质检、会议内容总结、录音内容分析等场景，一般12小时内返回识别接口。
EasyDL语音识别	可以通过自助训练语言模型的方式有效提升您业务场景下的识别准确率。
语音合成	基于业内领先的深度学习技术，提供高度拟人、流畅自然的语音合成服务，支持在线、离线多种调用方式，满足泛阅读、订单播报、智能硬件等场景的语音播报需求。
短文本在线合成	基于HTTP请求的REST API接口，将文本转换为可以播放的音频文件。支持自动预测/参数控制合成语音情感，支持添加元数据标识，最长可支持1024GBK字节的文本合成语音。
长文本在线合成	长文本在线合成接口可以将10万字以内文本一次性合成，异步返回音频。支持多种优质音库，将超长文本快速转换成稳定流畅、饱满真实的音频。适用于阅读听书、新闻播报等客户。
流式文本在线合成	基于websocket协议，在用户输入文本的同时就能接近同步返回合成音频数据，实现“边合成边播放”。支持多种优质音库与多种参数，适用于语音助手、在线教育、语音播报等场景。
离线语音合成	在无网或弱网环境下，可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报，将文字合成为声音，提供稳定一致、流畅自然的合成体验。
呼叫中心语音	呼叫中心服务分为呼叫中心解决语音方案及呼叫中心音频文件转写。可用于智能语音IVR、智能外呼、客服内容质检等场景。
音频文件转写 (8k)	音频文件转写接口可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景，一般12小时内返回识别接口。
呼叫中心语音解决方案	MRCP Server端，集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力。
声音复刻	基于大模型zero-shot技术，仅需一句话音频即可极速复刻音色。广泛应用于语音助手、情感陪伴、内容配音、数字人代播等场景的语音播报需求。
HTTP在线合成	基于HTTP请求的REST API接口，将文本转换为可以播放的音频文件。支持自定义文本复刻，支持上海、四川、河南等多地方言复刻与迁移，支持日语复刻，支持参数控制合成语音情感。
流式文本在线合成	基于websocket协议，在用户输入文本的同时就能接近同步返回合成音频数据，实现“边合成边播放”。支持上海、四川、河南等多地方言复刻与迁移，支持日语复刻，支持参数控制合成语音情感。

产品更新动态