志玲为您导航就是这方面的应用吧,需要对大量个人语音进行训练
你好!你调用的第三方的说话人识别效果怎么样啊?
搁置了好久。。感觉没什么原理,由于读取文件方式不同,一句话先做语音识别,再进行说话人识别,受网络影响比较慢,只是走通了流程,使用还是受限于某些因素。目前说话人识别也是调用的第三方服务。
同好奇怎么区分的,原理都没说清楚
期待,好奇是如何区别每个人的
期待!
看大神进度
还有个问题,不知百度有没有评估过 百度语音rest API 和增加了远场语音长语音识别的安卓SDK 两者的识别率哪个更高呢?
现在已经在百度安卓语音识别的基础上加了说话人识别,语音识别和说话人识别是异步进行的,因为前者是流式的,后者是文件识别,由于每句话音频截取的不够精确(是根据语音识别返回的时间参数计算截取的每句话音频),所以效果还不是很好。所以我想根据VAD检测来精确截取每句话的音频,语音识别中有VAD检测,不知demo里的VAD检测可不可以调用,如何调用呢?不然我还得另找呢。
不知道目前进度如何,是不是差一个程序员?
志玲为您导航就是这方面的应用吧,需要对大量个人语音进行训练
你好!你调用的第三方的说话人识别效果怎么样啊?
搁置了好久。。感觉没什么原理,由于读取文件方式不同,一句话先做语音识别,再进行说话人识别,受网络影响比较慢,只是走通了流程,使用还是受限于某些因素。目前说话人识别也是调用的第三方服务。
同好奇怎么区分的,原理都没说清楚
期待,好奇是如何区别每个人的
期待!
看大神进度
还有个问题,不知百度有没有评估过 百度语音rest API 和增加了远场语音长语音识别的安卓SDK 两者的识别率哪个更高呢?
现在已经在百度安卓语音识别的基础上加了说话人识别,语音识别和说话人识别是异步进行的,因为前者是流式的,后者是文件识别,由于每句话音频截取的不够精确(是根据语音识别返回的时间参数计算截取的每句话音频),所以效果还不是很好。所以我想根据VAD检测来精确截取每句话的音频,语音识别中有VAD检测,不知demo里的VAD检测可不可以调用,如何调用呢?不然我还得另找呢。
不知道目前进度如何,是不是差一个程序员?