开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    语音识别导览

    欢迎使用百度语音识别服务,语音识别可将语音识别为文字,适用于手机应用语音交互、语音内容分析、智能硬件、呼叫中心智能客服等多种场景。

    本导览文档主要针对百度语音识别的开发者,让您能够更方便快速的找到产品说明

    产品定价与购买

    接入指南

    短语音识别标准版

    短语音识别标准版可以将语音精准识别为文字,适用于手机语音输入、语音搜索、智能语音对话等场景。包含中文普通话输入法、英语、粤语、四川话、远场5个识别模型。其中Android,iOS,Linux SDK支持超过60秒的实时场语音识别。

    REST API接入

    通用的 HTTP 接口。 上传完整录音文件,录音文件时长不超过60s。

    SDK接入

    支持超过60秒的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。

    HTTP SDK接入

    功能与REST API相同。上传完整录音文件,录音文件时长不超过60s。包含JAVA等6个HTTP SDK。

    搜索模型下线预告

    百度语音短语音识别接口全面升级,原搜索模型已与输入法模型合并为统一中文普通话接口,识别效果全面提升。

    原搜索模型将于2021年2月23日下线,为了不影响您的服务,请尽快升级为中文普通话模型。

    升级方式

    短语音识别API及各种语言demo:可以更换输入参数dev_pid,将搜索模型dev_pid(1536)替换为中文普通话dev_pid(1537)即可。语音识别dev_pid查看

    Android、iOS、Linux SDK:可以更换SDK的输入参数,将搜索模型PID(15361、15362、15363、15364)替换为中文普通话PID(1537、15372、15373、15374)语音识别pid查看

    如有问题,可通过工单咨询https://ticket.bce.baidu.com/?fromai=1#/ticket/list

    短语音识别极速版

    短语音识别极速版包含极速版输入法模型(普通话)。识别速度提升5倍,准确率相对提升15%。适用于对识别速度要求更高的人机对话等场景。

    REST API接入

    上传完整录音文件,录音文件时长不超过60s。

    实时语音识别

    可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用。

    WebSocket API接入

    单次调用接口的音频时长目前不超过1小时。

    SDK接入

    支持超过1小时的实时长语音识别。同时也支持上传完整录音文件。支持离线唤醒词、命令词、通用语义解析等功能。

    音频文件转写

    将批量上传的音频文件识别为文字,支持普通话和略带口音的中文识别,支持英文识别。适合录音质检、会议内容总结、音频内容分析等场景。

    REST API接入

    上传完整录音文件,录音文件时长不超过1小时。

    语音识别效果提升

    通过语音自训练平台,使用业务场景语料,零代码自助训练语言模型,精准识别语音内容,有效提升业务领域识别准确率。

    补充说明

    若系统判断存在违规重复开通免费额度,造成恶意请求百度语音服务的状况,百度有权进行处理而无需提前告知,由此产生的后果由用户自行承担。

    下一篇
    产品价格