开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    产品概述

    概述

    实时语音识别接口采用websocket协议的连接方式,边上传音频边获取识别结果。可以将音频流实时识别为文字,也可以上传音频文件进行识别;返回结果包含每句话的开始和结束时间,适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。

    两种输入格式

    1. 实时音频流输入:上传必须是实时,不能过快。即整体耗时略多于原始音频流长度。如果因为导致网络不稳定需要发起新请求续传,接口允许超发XXms的录音音频;即此时不必“实时“,可以一下子将需要追溯的音频全部发给服务端。单次调用接口的音频时长目前不超过1小时。
    2. 音频文件输入:支持pcm格式的音频文件,每160ms为一帧发送,间隔1-2ms,整体耗时短于音频流输入,单次调用接口的音频时长目前不超过1小时。

    调用不限编程语言,只要能发送websocket请求即可,推荐在服务器上调用。

    接入步骤如下:

    接入步骤1-创建账号:参考文档

    接入步骤2-进行接口调用:实时语音识别支持websocket协议,API方式调用。具体调用流程查看 参考文档

    语言及模型支持

    支持中文普通话、音视频直播(中文)场景识别;支持英语识别

    音频格式

    目前只支持pcm格式的原始音频数据, 16000采样率, 单声道,16bits,小端序。 目前api限制一次音频时长不超过1小时。

    音频内容为:清晰的真人发音,无背景音或其它噪音,日常用语。

    录音环境

    百度语音识别要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。

    以下场景讲会导致识别效果变差,错误,甚至没有结果:

    1. 吵杂的环境
    2. 有背景音乐,包括扬声器在播放百度合成的语音。
    3. 离麦克风较远的场景应该选择远场语音识别。

    以下场景的录音可能没有正确的识别结果:

    1. 音频里有技术专业名称或者用语 (技术专业名称请到自训练平台改善)
    2. 音频里是某个专业领域的对话,非日常用语。比如专业会议,动画片等

    建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。

    支持语音自训练平台模型训练

    实时语音识别接口支持在语音自训练平台上对中文普通话模型进行训练,可以调用训练后模型。立即训练 调用说明

    Demo

    目前提供如下demo及演示功能,点击进入下载页面

    编程语言 操作系统及版本 使用文件流演示接口基本识别功能 耗时计算 模拟实时音频流 断网补发数据
    Java 任意,支持Java 8或以上
    Android Android Api Level 15 或以上
    Python 任意,支持Python3
    C++ Linux ,支持C++ 11 以上

    优势 -与RestApi对比

    实时识别api相比RestApi, 具有客户端边上传,服务端边识别的优势。 但需要使用Webscoket库,相比http库而言,略微复杂,

    如果是小于60s的录音文件,请选择rest api
    如果是实时录音,请选择实时语音识别api

    如果录音都是10s,两种api的大致流程如下

    restapi http协议: 0.0s:--> 开始发起请求-->0.3s 发送完整录音文件到百度服务器 --> 3.0s: 接收返回结果
    实时语音识别api WebSocket协议: 
    0.0s: 【连接】发起WebSocket请求
    0.1s: 【连接】连接建立
    0.1s: 【发送开始参数帧】发送鉴权及识别参数
    0.1s-0.2s: 【本地】录制100ms的录音
    0.2s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
    0.2s-0.3s: 【本地】录制100ms的录音
    0.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
    .....
    1.2s-1.3s: 【本地】录制100ms的录音
    1.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
    1.31s:【接收结果】收到0s-1s这段语音的一句话临时识别结果
    ...
    4.2-4.3s: 【本地】录制100ms的录音
    4.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
    4.39s:【接收结果】收到0s-4.1s这段语音的一句话最终识别结果
    ...
    9.9s-10.0s: 【本地】录制100ms的录音
    10.0s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
    10.0s: 【发送结束帧】 告知服务端音频结束
    10.3s:【接收结果】收到7.1-10.0 这段语音的一句话最终识别结果

    以100ms作为录音片段举例,实际建议160ms

    其他

    呼叫中心及客服场景,语音识别模型不同(音频采样率为8000),可使用在该场景识别率更高的商用产品呼叫中心语音解决方案点击使用)。

    上一篇
    短语音识别极速版
    下一篇
    调用流程及参数