开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    常见问题

    语音识别

    Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
    A:语音识别、合成接口可以在控制台查看免费测试额度,完成个人实名认证及企业认证可提高额度。若需更大量级可在控制台进行购买或进一步商务合作咨询

    WechatIMG161.png

    Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
    A:语音识别词库设置,适用于在线语音识别,目前只在搜索模型下生效(API和SDK均支持)。上传词库中的词或句子,在单说的情况下,识别率会高。具体效果见文档中的解释。
    语义解析设置,目前自动全部开启,无需设置。覆盖天气、日历、航班等常见领域的语义库,可以有效识别用户意图,适用于相关领域的问答场景; 2017年6月前版本用户注意需要进行此处的设置。之后版本默认全部开启,设置无效。

    Q:语音识别REST API支持的音频格式、采样率有哪些?
    A:原始 PCM 的音频格式必须符合16k 采样率、16bit 位深、单声道。支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

    Q:语音识别 REST API 最长支持多长的录音?
    A: 最长支持60s的录音文件。对文件大小没有限制,只对时长有限制。

    Q:语音识别SDK支持的操作系统、音频格式、采样率有哪些?
    A:Android SDK:支持Android 2.3及以上系统,支持ARM\X86架构。安装包最小增加200k,16k 采样率、16bit 位深、单声道。,pcm格式。

    iOS SDK:支持iOS 5.0及以上系统,支持ARM-v7\ARM-v7s\ARM64\i386\x86_64架构。安装包最小增加400k,合6k 采样率、16bit 位深、单声道,pcm格式。

    Q:语音识别REST API是什么?有什么注意事项?
    A:语音识别全平台REST API,采用http方式请求,可适用于任何平台任意可以发起http请求的编程语言。 使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

    Q:百度语音SDK是否单独提供录音功能,以及语音通讯功能?
    A:Android 和iOS 均可以使用系统录音, 并且有参数保存录音后的音频文件。 语音通讯功能SDK不提供,需开发者自行开发。 Android保存录音文件:请看下文档和demo中的OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

    Q:语音识别和合成支持什么语言?
    A: 语音识别支持:普通话、四川话、粤语、英语
    语音合成支持:仅支持中英文混合,没有纯中文或者纯英文选项。

    Q:SDK,代码出错,不能正常运行怎么办?
    A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。 测试demo通过后,我们文档中集成指南。 如果还是有问题,可以在AI社区讨论或者发起工单,我们进一步查看原因。

    Q:语音 Android SDK,集成出怎么办?
    请先测试demo,不要急于集成。 文档中 集成指南部分。 demo 目录下有 doc_integration_DOCUMENT下面有多个集成文档图文教程。

    Q: 出现问题如何反馈?

    1. 先确认是不是问题,可以测试我们的demo。
    2. http://aip-bot.baidu.com/ 您可以输入关键字进行文档和常见问题的搜索
    3. 如果依然没有您要的答案,您可以选择一个渠道反馈:

    Q:我想提高一些词的识别准确率,有什么办法?
    A: 您好,您可以通过语音自训练平台训练专属模型持续提升识别准确率,详情可见https://ai.baidu.com/docs#/SmartASR-intro/top 同时,针对少量业务名词场景,也可通过自定义词库快速提升对应名词准确率。入口是:控制台--语音应用详情页高级设置,语音识别词库设置。

    Q:语音识别REST API和SDK的区别是什么?
    A: REST API:http接口,开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:需要集成代码,百度语音提供从录音到识别结果返回的整体解决方案。

    Q:语音识别通过哪个接口获取音频信息?
    A: Android SDK:CALLBACK_EVENT_ASR_AUDIO回调或者OUT_FILE 参数,设置需要保存的路径。此外需要将 ACCEPT_AUDIO_DATA设置为true

    iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

    Q:如何才能提高语音识别的准确率?
    A:自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。注:只在搜索模型下生效

    Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
    A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库

    Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
    A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

    Q:需要降低ASR iOS的安装包体积,应该怎么操作? A:可参考资源占用描述。可参考http://ai.baidu.com/docs#/ASR-iOS-SDK/f7fdd420

    Q:需要降低ASR Android的安装包体积,应该怎么操作? A:如果为了节省安装包体积,可以只使用armeabi目录,性能损失微小。
    如果只需要在线识别功能,仅需要2个so文件。
    可参考http://ai.baidu.com/docs#/ASR-Android-SDK/79870942

    上一篇
    语义理解协议
    下一篇
    功能发布记录