语音识别导览
欢迎使用百度语音识别服务,语音识别可将语音识别为文字,适用于手机应用语音交互、语音内容分析、智能硬件、呼叫中心智能客服等多种场景。
本导览文档主要针对百度语音识别的开发者,让您能够更方便快速的找到产品说明
产品定价与购买
接入指南
- 创建账号及接入说明:接入文档
短语音识别标准版
短语音识别标准版可以将语音精准识别为文字,适用于手机语音输入、语音搜索、智能语音对话等场景。包含中文普通话输入法、英语、粤语、四川话、远场5个识别模型。其中Android,iOS,Linux SDK支持超过60秒的实时场语音识别。
REST API接入
通用的 HTTP 接口。 上传完整录音文件,录音文件时长不超过60s。
SDK接入
支持超过60秒的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。
- 标准版Android SDK接入文档; SDK及Demo下载; Demo使用说明 Demo的apk安装文件在SDK压缩包中,文件名为“audiobd_speech_sdk_asr_v3*.apk”。
- 标准版iOS SDK接入文档 ; SDK及Demo下载; Demo使用说明
- 标准版Linux C++ SDK接入文档 SDK及Demo下载; Demo使用说明 支持时间戳,不支持唤醒词及离线命令词功能。
HTTP SDK接入
功能与REST API相同。上传完整录音文件,录音文件时长不超过60s。包含JAVA等6个HTTP SDK。
搜索模型下线预告
百度语音短语音识别接口全面升级,原搜索模型已与输入法模型合并为统一中文普通话接口,识别效果全面提升。
原搜索模型将于2021年2月23日下线,为了不影响您的服务,请尽快升级为中文普通话模型。
升级方式:
短语音识别API及各种语言demo:可以更换输入参数dev_pid,将搜索模型dev_pid(1536)替换为中文普通话dev_pid(1537)即可。语音识别dev_pid查看
Android、iOS、Linux SDK:可以更换SDK的输入参数,将搜索模型PID(15361、15362、15363、15364)替换为中文普通话PID(1537、15372、15373、15374)语音识别pid查看
如有问题,可通过工单咨询https://ticket.bce.baidu.com/?fromai=1#/ticket/list
短语音识别极速版
短语音识别极速版包含极速版输入法模型(普通话)。识别速度提升5倍,准确率相对提升15%。适用于对识别速度要求更高的人机对话等场景。
REST API接入
上传完整录音文件,录音文件时长不超过60s。
实时语音识别
可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用。
WebSocket API接入
单次调用接口的音频时长目前不超过1小时。
- 实时语音识别WebSocket API接入文档;示例Demo下载
SDK接入
支持超过1小时的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。
- 实时语音识别 Android SDK接入文档;SDK及Demo下载;Demo使用说明
- 实时语音识别iOS SDK接入文档;SDK及Demo下载;Demo使用说明
- 实时语音识别Linux SDK接入文档;SDK及Demo下载;Demo使用说明
音频文件转写
将批量上传的音频文件识别为文字,支持普通话和略带口音的中文识别,支持英文识别。适合录音质检、会议内容总结、音频内容分析等场景。
REST API接入
上传完整录音文件,录音文件时长不超过1小时。
- 音频文件转写REST API接入文档;示例Demo下载
语音识别效果提升
通过语音自训练平台,使用业务场景语料,零代码自助训练语言模型,精准识别语音内容,有效提升业务领域识别准确率。
- 语音自训练平台平台使用文档
补充说明
若系统判断存在违规重复开通免费额度,造成恶意请求百度语音服务的状况,百度有权进行处理而无需提前告知,由此产生的后果由用户自行承担。