简介

更新时间：2025-04-11

短语音识别标准版-产品概述

百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。

接口类型：通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统，任意编程语言
接口限制：需要上传完整的录音文件，录音文件时长不超过 60 秒。浏览器由于无法跨域请求百度语音服务器的域名，因此无法直接调用API接口。
支持音频格式：pcm、wav、amr、m4a
音频编码要求：采样率 16000、8000（仅支持普通话模型），16 bit 位深，单声道（音频格式查看及转换)

产品价格

短语音识别标准版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语言及模型支持

支持中文普通话（能识别简单的常用英语）、英语、粤语、四川话识别。通过在请求时配置不同的pid参数，选择对应模型，详见请求说明dev-pid参数表格

语音识别模型自训练

如果您在应用语音识别能力时，有行业专有名词，如金融、医疗、餐饮、地产、制造等行业术语，无法准确识别。推荐使用语音自训练平台，可以上传词汇和长文本进行模型训练，以及根据业务发展迭代不断训练。

平台使用手册

调用短语音识别标准版版API，添加训练模型ID即可生效。

短语音识别极速版-产品概述

将60秒以内的完整音频文件识别为文字，专有GPU服务集群，识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互，如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件，录音文件时长不超过60秒。实时返回识别结果

产品价格

短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语言及模型支持

百度短语音识别极速版提供极速版模型1个模型（仅支持中文普通话，暂时不支持其他方言及英语）。识别速度更快，识别效果更好。支持智能标点，可以识别简单的常用英语语句。

语音识别模型自训练

平台使用手册

调用短语音识别极速版API，添加训练模型ID即可生效。

实时语音识别websocket-产品概述

实时语音识别接口采用websocket协议的连接方式，边上传音频边获取识别结果。可以将音频流实时识别为文字，也可以上传音频文件进行识别；返回结果包含每句话的开始和结束时间，适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。

两种输入格式

实时音频流输入：上传必须是实时，不能过快。即整体耗时略多于原始音频流长度。如果因为导致网络不稳定需要发起新请求续传，接口允许超发XXms的录音音频；即此时不必“实时“，可以一下子将需要追溯的音频全部发给服务端。单次调用接口的音频时长目前不超过1小时。
音频文件输入：支持pcm格式的音频文件，每160ms为一帧发送，间隔1-2ms，整体耗时短于音频流输入，单次调用接口的音频时长目前不超过1小时。

调用不限编程语言，只要能发送websocket请求即可，推荐在服务器上调用。

接入步骤如下：

接入步骤1-创建账号：参考文档

接入步骤2-进行接口调用：实时语音识别支持websocket协议，API方式调用。具体调用流程查看参考文档

产品价格

实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语言及模型支持

支持中文普通话、音视频字幕（中文）识别模型；支持英语识别模型

音频格式

目前只支持pcm格式的原始音频数据， 16000采样率，单声道，16bits，小端序。目前api限制一次音频时长不超过1小时。

音频内容为：清晰的真人发音，无背景音或其它噪音，日常用语。

录音环境

百度语音识别要求安静的环境，真人的正常语速的日常用语，并且不能多个人同时发音。

以下场景讲会导致识别效果变差，错误，甚至没有结果：

吵杂的环境
有背景音乐，包括扬声器在播放百度合成的语音。
离麦克风较远的场景应该选择远场语音识别。

以下场景的录音可能没有正确的识别结果：

音频里有技术专业名称或者用语（技术专业名称请到自训练平台改善）
音频里是某个专业领域的对话，非日常用语。比如专业会议，动画片等

建议先收集一定数量的真实环境测试集，按照测试集评估及反馈。

支持语音自训练平台模型训练

实时语音识别接口支持在语音自训练平台上对中文普通话模型进行训练，可以调用训练后模型。立即训练调用说明

优势 -与RestApi对比

实时识别api相比RestApi，具有客户端边上传，服务端边识别的优势。但需要使用Websocket库，相比http库而言，略微复杂，

如果是小于60s的录音文件，请选择rest api
如果是实时录音，请选择实时语音识别api

如果录音都是10s，两种api的大致流程如下

restapi http协议： 0.0s：--> 开始发起请求-->0.3s 发送完整录音文件到百度服务器 --> 3.0s: 接收返回结果

实时语音识别api WebSocket协议： 
0.0s: 【连接】发起WebSocket请求
0.1s: 【连接】连接建立
0.1s: 【发送开始参数帧】发送鉴权及识别参数
0.1s-0.2s: 【本地】录制100ms的录音
0.2s： 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
0.2s-0.3s: 【本地】录制100ms的录音
0.3s： 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
.....
1.2s-1.3s: 【本地】录制100ms的录音
1.3s： 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
1.31s：【接收结果】收到0s-1s这段语音的一句话临时识别结果
...
4.2-4.3s: 【本地】录制100ms的录音
4.3s： 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
4.39s：【接收结果】收到0s-4.1s这段语音的一句话最终识别结果
...
9.9s-10.0s: 【本地】录制100ms的录音
10.0s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
10.0s: 【发送结束帧】 告知服务端音频结束
10.3s：【接收结果】收到7.1-10.0 这段语音的一句话最终识别结果

以100ms作为录音片段举例，实际建议160ms

其他

呼叫中心及客服场景，语音识别模型不同（音频采样率为8000），可使用在该场景识别率更高的商用产品呼叫中心语音解决方案（点击使用）。

音频文件转写-产品概述

音频文件转写接口可以将大批量的音频文件异步转写为文字。适合音视频字幕生产、批量录音质检、会议内容总结、录音内容分析等场景，一般12小时内返回识别接口。接入步骤如下：

接入步骤1-创建账号：参考文档
接入步骤2-创建应用：在控制台中，创建应用，勾选开通”语音技术“-”音频文件转写“能力。获取 AppID、API Key、Secret Key，并通过请求鉴权接口换取 token ，详细见接入指南。
接入步骤3-进行接口调用：1.创建音频转写任务，创建需要识别的音频任务，音频需有可公开访问的url，创建成功后，音频会开始进行语音转写任务，再通过查询结果接口进行结果查询。2.查询转写任务结果，查询识别结果。

产品价格

实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语言及模型支持

支持中文普通话、音视频字幕（中文）识别模型；支持英语识别模型

语音字幕服务-产品概述

AI助力音视频字幕智能生产，基于海量数据和先进算法，打造音视频场景专属模型，识别准确率高达98%，并支持智能分析标点、断句，准确匹配时间轴，助力字幕生产降本增效。接入步骤如下：

接入步骤1-创建账号：参考文档
接入步骤2-创建应用：在控制台中，创建应用，勾选开通“语音技术”-“音频文件转写”、“实时语音识别”能力。获取 AppID、API Key、Secret Key，并通过请求鉴权接口换取 token ，详细见接入指南。
接入步骤3-进行接口调用：
实时字幕生产：参考文档
批量字幕生产：参考文档

产品价格

实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语言及模型支持

支持包含简单英文的中文普通话，音视频字幕（中文）模型

语音合成

鉴权认证