开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    产品概述

    简介

    将60秒以内的完整音频文件识别为文字,专有GPU服务集群,识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒。实时返回识别结果

    产品价格

    短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费,一年内有效,价格更优惠。详情见产品定价文档

    语音识别模型

    百度短语音极速版提供极速版输入法模型1个模型(暂时不支持其他方言及英语)。识别速度更快,识别效果更好。支持智能标点,可以识别简单的常用英语语句。

    可通过设置dev_pid参数选择模型。点击查看详细参数

    语音识别模型自训练

    如果您在应用语音识别能力时,有行业专有名词,如金融、医疗、餐饮、地产、制造等行业术语,无法准确识别。推荐使用语音自训练平台,可以上传词汇和长文本进行模型训练,以及根据业务发展迭代不断训练。

    平台使用手册

    调用短语音识别极速版API,添加训练模型ID即可生效。操作说明

    适用范围及demo下载

    任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。

    示例Demo代码见: https://github.com/Baidu-AIP/speech-demo

    浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接使用本接口。需从服务器端发起调用。

    语音识别极速版调用地址:https://vop.baidu.com/pro_api

    语音格式

    格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型,m4a格式输入适用于微信小程序的录音文件,详见格式说明)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。

    百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。

    音频文件格式转换可以使用音频软件进行。批量音频格式转换,可使用开源ffmpeg格式转换工具文档【点击查看音频文件转码工具文档】

    超过60秒音频可使用VAD切分工具进行切分【点击查看VAD切分工具文档】

    小程序m4a格式设置

    • 参数format改为m4a
    1. 仅支持单声道
    2. 采样率仅支持16000
    3. CBR bitrates 24000-96000,推荐48000
    4. 仅支持AAC-LC, 不支持 例如HE-AAC ,LD,ELD等
    5. brand 仅支持 mp42:0, mini Version 0 ,不支持 M4A

    微信小程序录音参数,请重点关注并设置以下必填字段:

    属性 类型 默认值 必填 说明
    duration number 60000 百度语音restapi最大支持 60s,即这个值不能超过60000
    sampleRate number 16000 必须设为 16000
    numberOfChannels number 1 比如设为1,单声道
    encodeBitRate number 48000 默认值即可,建议48000,可设为24000-96000。该值越大的话,生成文件越大
    format string aac 默认值即可,只支持aac,不支持mp3