开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    简介

    简介

    目前本SDK的功能同REST API,需要联网调用http接口, 具体功能见REST API 文档, REST API 仅支持整段语音识别的模式,即需要上传完整语音文件进行识别,时长不超过60s,支持、自定义词库设置, 没有其他额外功能

    接口能力

    接口名称 接口能力简要描述
    语音识别 将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列

    支持的语音格式

    原始 PCM 的录音参数必须符合 16k 、8k采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    注意事项

    如果需要使用实时识别、长语音、唤醒词、语义解析等其它语音功能,请使用Android或者iOS SDK 或 Linux C++ SDK 等。

    1. 请严格按照文档里描述的参数进行开发,特别请关注原始录音参数以及语音压缩格式的建议,否则会影响识别率,进而影响到产品的用户体验。
    2. 目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。

    反馈

    • 在百度云控制台内提交工单,咨询问题类型请选择人工智能服务
    • QQ群快速沟通: AI开放平台官网首页底部“QQ支持群”中,查找“百度语音”。

    版本更新记录

    上线日期 版本号 更新内容
    2021.2.26 4.15.4 接口统一升级
    2019.9.3 0.8.4 修复dev_pid的问题,新增极速版接口
    2017.11.24 0.3.2 修复windows平台VC环境的编译错误
    2017.11.9 0.3.0 初始化参数修改
    2017.10.31 0.1.0 在线语音识别第一版
    上一篇
    REST-API-PHPSDK
    下一篇
    快速入门