开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

常见问题

语音识别

Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
A:语音识别、合成接口可以在控制台查看免费测试额度,完成个人实名认证及企业认证可提高额度。若需更大量级可在控制台进行购买或进一步商务合作咨询

WechatIMG161.png

Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
A:语音识别词库设置,适用于在线语音识别,目前只在搜索模型下生效(API和SDK均支持)。上传词库中的词或句子,在单说的情况下,识别率会高。具体效果见文档中的解释。
语义解析设置,目前自动全部开启,无需设置。覆盖天气、日历、航班等常见领域的语义库,可以有效识别用户意图,适用于相关领域的问答场景; 2017年6月前版本用户注意需要进行此处的设置。之后版本默认全部开启,设置无效。

Q:语音识别REST API支持的音频格式、采样率有哪些?
A:原始 PCM 的音频格式必须符合16k 采样率、16bit 位深、单声道。支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

Q:语音识别 REST API 最长支持多长的录音?
A: 最长支持60s的录音文件。对文件大小没有限制,只对时长有限制。

Q:语音识别SDK支持的操作系统、音频格式、采样率有哪些?
A:Android SDK:支持Android 2.3及以上系统,支持ARM\X86架构。安装包最小增加200k,16k 采样率、16bit 位深、单声道。,pcm格式。

iOS SDK:支持iOS 5.0及以上系统,支持ARM-v7\ARM-v7s\ARM64\i386\x86_64架构。安装包最小增加400k,合6k 采样率、16bit 位深、单声道,pcm格式。

Q:语音识别REST API是什么?有什么注意事项?
A:语音识别全平台REST API,采用http方式请求,可适用于任何平台任意可以发起http请求的编程语言。 使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

Q:百度语音SDK是否单独提供录音功能,以及语音通讯功能?
A:Android 和iOS 均可以使用系统录音, 并且有参数保存录音后的音频文件。 语音通讯功能SDK不提供,需开发者自行开发。 Android保存录音文件:请看下文档和demo中的OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

Q:语音识别和合成支持什么语言?
A: 语音识别支持:普通话、四川话、粤语、英语
语音合成支持:仅支持中英文混合,没有纯中文或者纯英文选项。

Q:SDK,代码出错,不能正常运行怎么办?
A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。 测试demo通过后,我们文档中集成指南。 如果还是有问题,可以在AI社区讨论或者发起工单,我们进一步查看原因。

Q:语音 Android SDK,集成出怎么办?
请先测试demo,不要急于集成。 文档中 集成指南部分。 demo 目录下有 doc_integration_DOCUMENT下面有多个集成文档图文教程。

Q: 出现问题如何反馈?

  1. 先确认是不是问题,可以测试我们的demo。
  2. http://aip-bot.baidu.com/ 您可以输入关键字进行文档和常见问题的搜索
  3. 如果依然没有您要的答案,您可以选择一个渠道反馈:

Q:我想提高一些词的识别准确率,有什么办法?
A: 您好,您可以通过语音自训练平台训练专属模型持续提升识别准确率,详情可见https://ai.baidu.com/docs#/SmartASR-intro/top 同时,针对少量业务名词场景,也可通过自定义词库快速提升对应名词准确率。入口是:控制台--语音应用详情页高级设置,语音识别词库设置。

Q:语音识别REST API和SDK的区别是什么?
A: REST API:http接口,开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:需要集成代码,百度语音提供从录音到识别结果返回的整体解决方案。

Q:语音识别通过哪个接口获取音频信息?
A: Android SDK:CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

Q:如何才能提高语音识别的准确率?
A:自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。注:只在搜索模型下生效

Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库

Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

Q:需要降低ASR iOS的安装包体积,应该怎么操作? A:可参考资源占用描述。可参考http://ai.baidu.com/docs#/ASR-iOS-SDK/f7fdd420

Q:需要降低ASR Android的安装包体积,应该怎么操作? A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
如果只需要在线识别功能,仅需要2个so文件。
可参考http://ai.baidu.com/docs#/ASR-Android-SDK/79870942