资讯 社区 文档 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

简介

目前本SDK的功能同REST API,需要联网调用http接口, 具体功能见REST API 文档, REST API 仅支持整段语音识别的模式,即需要上传完整语音文件进行识别,时长不超过60s,支持、自定义词库设置, 没有其他额外功能

接口能力

接口名称 接口能力简要描述
语音识别 将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列

支持的语音格式

原始 PCM 的录音参数必须符合 16k或8k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

注意事项

如果需要使用实时识别、长语音、唤醒词、语义解析等其它语音功能,请使用Android或者iOS SDK 或 Linux C++ SDK 等。

  1. 请严格按照文档里描述的参数进行开发,特别请关注原始录音参数以及语音压缩格式的建议,否则会影响识别率,进而影响到产品的用户体验。
  2. 目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。

反馈

  • 在百度云控制台内提交工单,咨询问题类型请选择人工智能服务
  • QQ群快速沟通: AI开放平台官网首页底部“QQ支持群”中,查找“百度语音”。

版本更新记录

上线日期 版本号 更新内容
2021.2.26 4.15.4 接口统一升级
2017.10.18 3.2.1 使用proxy问题修复
2017.8.25 3.0.0 更新sdk打包方式:所有AI服务集成一个SDK
2017.7.14 1.0.1 更新sdk打包方式
2017.6.30 1.0.0 新增语音识别