【语音识别-常见问答】汇总帖
周俊316 发布于2017-11-16 20:42 浏览:1412 回复:14
4
收藏

Q:语音识别、合成接口每天调用限额是多少,如何申请提高限额?
A:语音识别接口,限额为5万次/天,语音合成接口,限额为20万次/天。申请提高配额,请登录控制台,点击百度语音,选择应用列表,选择对应应用,查看详情,点击申请提高配额,一般会在2个工作日内完成审核,审核通过后,将可无限调用。

 

Q:控制台--语音应用详情页高级设置,语音识别词库设置、语义解析设置有什么注意事项?
A: 语音识别词库设置,目前只在语音识别SDK中,搜索模型下生效,上传词库中的词或句子,在单说的情况下,识别率会高
语义解析设置,目前只适用于语音识别SDK3.0以下版本设置,3.0以上版本,默认开启全部领域无需设置

 

Q:语音识别REST API支持的音频格式、采样率有哪些?
A:原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

 

Q:语音识别 REST API 最长支持多长的录音?
A: 最长支持60s的录音文件。对文件大小没有限制,只对时长有限制。

 

Q:语音识别SDK支持的音频格式、采样率有哪些?
A:Android SDK:支持Android 2.3及以上系统,支持ARM\X86架构。安装包最小增加200k,支持8k/16k采样率,支持pcm格式。

iOS SDK:支持iOS 5.0及以上系统,支持ARM-v7\ARM-v7s\ARM64\i386\x86_64架构。安装包最小增加400k,支持8k/16k采样率,支持pcm格式。

 

Q:什么是语音识别REST API?有什么注意事项?
A:语音识别全平台REST API,采用http方式请求,可适用于任何平台的语音识别。使用REST API,录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

 

Q:百度语音是否单独提供录音功能,以及语音通讯功能?
A:不单独提供独立录音的功能,目前识别SDK包含语音输入和识别功能。语音通讯功能需开发者自行搭建。

 

Q:语音服务是免费的?还是需要付费
A: 目前语音基础服务全部免费。

 

Q:语音识别和合成支持什么语言?
A: 语音识别和合成支持的不同 语音识别支持: 安卓+IOS支持4个语言:中文普通话、中文四川话、粤语、英语 rest api支持3个语言:中文普通话、粤语、英语

语音合成支持:中英文混合

 

Q:我使用SDK后,代码出错,不能正常运行怎么办?
A: 您好,请您先测试官方demo,测试通demo,再添加您自己的代码,基本都是可以使用的了。如果还是有问题,可以在AI社区讨论,我们进一步查看原因。

 

Q:我想提高一些词的识别准确率,有什么办法?
A: 您好,您可以自行上传词库,训练专属识别模型。

 

Q:天气、日历、航班等,这些常用的问答,是否有直接的语义库可以用?
A: 您好,您通过语义解析识别用户的意图并提取用户表达中的关键内容,从而帮助您理解用户需求。现在已经开放35个领域的解析,比如天气、日历、航班、地图等,您可以从中选择,未被选中领域的解析结果将不会输出。

 

Q:语音识别REST API和SDK的区别是什么?
A: REST API:开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:百度语音提供从录音到识别结果返回的整体解决方案

 

Q:语音识别通过哪个接口获取音频信息?
A: Android SDK:当VoiceClientStatusChangeListener.onClientStatusChange(int status, Object obj) 的status是VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA时,obj为byte[]音频数据;

iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。

 

Q:如何才能提高语音识别的准确率?
A:自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。注:只在语音识别SDK中,搜索模型下生效
设置对应的语音识别垂类:在代码中填写识别的垂类领域,识别结果将优先指向已设置的垂类,可以使得识别结果更准确,注:只在语音识别SDK中,搜索模型下生效

 

Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?
A: 与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库

 

Q:首次开启语音识别功能的延迟时间较长,需要如何调控?
A: 首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。

 

Q:如何在语音识别时获取音频文件?
A: Api:cp服务器自己备存用户录音信息;Sdk:可以通过CLIENT_STATUS_AUDIO_DATA回调,将回调对象强转成byte[]顺序写入到文件中即可得到原始的音频文件。

 

Q:语音识别垂类是什么意思?
A: 语音识别垂类就是特指某个领域的意思,开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为”音乐“,则在语音识别时会优先识别为音乐相关的歌曲名歌手名或者歌词。注:只在SDK中搜索模型下生效。

 

Q:为什么语音识别Demo的API_Key和Secret_Key是空的还能进行识别呢?我开发的应用的API_Key和Secret_Key是不是必须得填写呢?
A: SDK自带demo用的特殊的方式验证的,故可以不使用AK和SK。开发者自行开发的应用AK和SK是必须填写的,否则无法调用语音识别。

 

Q:【Android纯在线】如何从识别SDK中获取音频?
A:通过监听onClientStatusChange函数的CLIENT_STATUS_AUDIO_DATA消息(在一次会话中会回调多次)拼接音频,如:

class MyVoiceRecogListener implements VoiceClientStatusChangeListener{
OutputStream outFile;
@Override
public void onClientStatusChange(int status, Object obj) {
switch(status) {
... // 省略其它消息
case VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA:
// 有音频数据输出
if (obj!= null && obj instanceof byte[]) {
// 演示如何保持PCM音频,细节请各位工程师更加实际情况优化
byte[] buf = (byte[])obj;
FileOutputStream out = new FileOutputStream("sdcard/your_file.pcm", true);
out.write(buf);
out.close();
}
break;
default:
break;
}
}

 


Q:【Android离在线】如何从识别SDK中获取音频?
A: 方式1:设置outfile参数可以指定语音数据的保存路径,设置方式如:

intent.putExtra("outfile", "/sdcard/your_audio.pcm");
语音数据的保存格式为PCM,播放和压缩请自行查找相关类库。

方式2:通过监听onBufferReceived(byte[] buf)回调,拼接音频实现。

 

收藏
点赞
4
个赞
共14条回复 最后由lovhlv回复于2018-01-19 15:14
#2AI最前线回复于2017-11-21

识别相关的常见问答,大家可以现在这里查询解决问题

1
#3萤火丶魅子回复于2017-11-22

Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决?

请问 IOS 的冲突怎么弄?

0
#4xiaoxx1234回复于2017-12-19

百度语音,我使用Unity20172开发,调用C#SDK,打包发布EXE,可以正常使用,打包发布APK,语音识别能用,但反应好慢,语音合成没有反应,不知道是什么原因????为什么???

0
#5glorious777回复于2017-12-21

提高配额后也是免费吗,要提高到每日20万次呢,怎么收费?

0
#6慢慢的大米饭回复于2017-12-28

apk添加到内置apk中报错I/WakeupEventAdapter: wakeup name:wp.error; params:{"error":11,"desc":"Wakeup engine model file invalid","sub_error":11005}
01-01 00:00:24.067 1269-1269/ voice.jxsmartecho.com E/fwz: 唤醒错误:11;错误消息:未知错误:11; 原始返回{"error":11,"desc":"Wakeup engine model file invalid","sub_error":11005} 请问什么原因啊 

0
#7ENSMY回复于2018-01-02

2018-01-02 16:41:38.165097+0800 GSProject[2483:896706] load offline engine failed: 4001

2018-01-02 16:41:40.608795+0800 GSProject[2483:896706] load offline engine failed: 4001

2018-01-02 16:41:41.985330+0800 GSProject[2483:896909] [BoringSSL] Function boringssl_session_errorlog: line 2871 [boringssl_session_read] SSL_ERROR_ZERO_RETURN(6): operation failed because the connection was cleanly shut down with a close_notify alert

 

demo成功 集成到项目中报错?请问怎么解决

0
#8ironbridge0746回复于2018-01-11

语音识别 REST API 支持多少路的并发?

0
#9largezhou回复于2018-01-11

为什么比如我说“去吃饭啊”结果只能识别为“去吃饭,”?有解决办法吗?

0
#10lizhlin回复于2018-01-11

Encounter error: MIC ERR: audio queue start failed.--561145187   

vr_handler work_status=8, encoded_err=655361, err_desc=MIC ERR: audio queue start failed.--561145187, need_finish=1, need_stop=0, need_loop=0

iOS平台语音识别,第三方键盘的开发,第一次录音是没有问题的,也可以取到录音文件并且播放,但是还是不能识别。但是第二次之后就不行了,录音文件语音识别啥都获取不到。请问这是什么问题呀?

0
#11dun白羊123回复于2018-01-12

{u'err_no': 3303, u'err_msg': u'backend error.', u'sn': u'518901810831515740170'}

麻烦帮忙查询一下报错原因,谢谢

0
#12荒墨丶迷失回复于2018-01-13
#9 largezhou回复
为什么比如我说“去吃饭啊”结果只能识别为“去吃饭,”?有解决办法吗?

这个识别 语气词 你应该可以自己设置设置

1
#13荒墨丶迷失回复于2018-01-13
#3 萤火丶魅子回复
Q:百度语音SDK与其他百度SDK,或其他第三方SDK冲突时,如何解决? 请问 IOS 的冲突怎么弄?
展开

与其他百度sdk冲突问题。 目前语音 人脸这些都是统一sdk的吧。可以以高版本为主

1
#14lizhlin回复于2018-01-15

我想后台进行语音在线识别,但是报错为录音设备异常,请问怎么解决

 Error Domain=10 Code=655361 "MIC ERR: audio queue start failed.--560557684"

[prepareRecorder setActive failed, desc:NSOSStatusErrorDomain, code:560557684]

0
#15lovhlv回复于2018-01-19

求解 语音识别 怎么检测静音后停止录音啊

0
TOP
切换版块