资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

语音识别导览

欢迎使用百度语音识别服务,语音识别可将语音识别为文字,适用于手机应用语音交互、语音内容分析、智能硬件、呼叫中心智能客服等多种场景。

本导览文档主要针对百度语音识别的开发者,让您能够更方便快速的找到产品说明

产品定价与购买

接入指南

短语音识别标准版

短语音识别标准版可以将语音精准识别为文字,适用于手机语音输入、语音搜索、智能语音对话等场景。包含中文普通话输入法、英语、粤语、四川话、远场5个识别模型。其中Android,iOS,Linux SDK支持超过60秒的实时场语音识别。

REST API接入

通用的 HTTP 接口。 上传完整录音文件,录音文件时长不超过60s。

SDK接入

支持超过60秒的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。

HTTP SDK接入

功能与REST API相同。上传完整录音文件,录音文件时长不超过60s。包含JAVA等6个HTTP SDK。

搜索模型下线预告

百度语音短语音识别接口全面升级,原搜索模型已与输入法模型合并为统一中文普通话接口,识别效果全面提升。

原搜索模型将于2021年2月23日下线,为了不影响您的服务,请尽快升级为中文普通话模型。

升级方式

短语音识别API及各种语言demo:可以更换输入参数dev_pid,将搜索模型dev_pid(1536)替换为中文普通话dev_pid(1537)即可。语音识别dev_pid查看

Android、iOS、Linux SDK:可以更换SDK的输入参数,将搜索模型PID(15361、15362、15363、15364)替换为中文普通话PID(1537、15372、15373、15374)语音识别pid查看

如有问题,可通过工单咨询https://ticket.bce.baidu.com/?fromai=1#/ticket/list

短语音识别极速版

短语音识别极速版包含极速版输入法模型(普通话)。识别速度提升5倍,准确率相对提升15%。适用于对识别速度要求更高的人机对话等场景。

REST API接入

上传完整录音文件,录音文件时长不超过60s。

实时语音识别

可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用。

WebSocket API接入

单次调用接口的音频时长目前不超过1小时。

SDK接入

支持超过1小时的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。

音频文件转写

将批量上传的音频文件识别为文字,支持普通话和略带口音的中文识别,支持英文识别。适合录音质检、会议内容总结、音频内容分析等场景。

REST API接入

上传完整录音文件,录音文件时长不超过1小时。

语音识别效果提升

通过语音自训练平台,使用业务场景语料,零代码自助训练语言模型,精准识别语音内容,有效提升业务领域识别准确率。

补充说明

若系统判断存在违规重复开通免费额度,造成恶意请求百度语音服务的状况,百度有权进行处理而无需提前告知,由此产生的后果由用户自行承担。