用python,语音识别准确率太低,怎么解决?
地底君 发布于2019-02 浏览:4746 回复:15
0
收藏

用粤语几乎识别不出来,普通话准确率低,例如'你好'可以识别出来,但是'床前明月光'就会识别成'红学明月光',英语识别出来都是中文,'hello world'识别成'汤姆热'???明明dev_pid都改了!其次音频文件是从百度翻译的朗读那里下载的,不存在语音不清晰的问题???请问如何解决以上问题??

收藏
点赞
0
个赞
共15条回复 最后由用户已被禁言回复于2022-04
#20用户已被禁言回复于2022-04

http://ask.zol.com.cn/new/search.php?kword=%BD%AD%CB%D5%CC%AB%B2%D6%CD%F8%C9%CF%CA%D6%BB%FA%CD%B6%D7%A2%D6%B1%D3%AA%BF%AA%BB%A7%3AB2024.CN%BD%FA%B3%C7%B1%CF%D2%B5%C9%FA%A3%D6%A1%AB https://www.xiachufang.com/search/?keyword=%E8%80%81%E8%A1%97%E8%85%BE%E9%BE%99%E5%A8%B1%E4%B9%90%E5%85%AC%E5%8F%B8%E5%AE%98%E7%BD%91%E5%AE%A2%E6%9C%8D%E5%BC%80%E6%88%B7B2024.cN%E7%8E%89%E6%9E%97%E9%98%B2%E7%96%AB%EF%BC%A9%EF%BC%9F https://b2b.baidu.com/s?fr=wwwt&q=%E6%B2%B3%E5%8C%97%E4%BF%9D%E5%AE%9A%E6%89%8B%E6%9C%BA%E7%BD%91%E6%8A%95%E5%B9%B3%E5%8F%B0%E3%80%90TL262%C2%B7C%EF%BC%AFM%E3%80%91%E7%99%BD%E9%93%B6%E9%93%81%E9%80%9A%EF%BC%97%EF%BC%85%EF%BD%92 https://search.dxy.cn/?age=1&words=%E7%BC%85%E5%8C%97%E6%96%B0%E7%99%BE%E8%83%9C%E8%B4%B5%E5%AE%BE%E5%8E%85%E7%9B%B4%E8%90%A5%E7%BD%91TL262%C2%B7%EF%BC%A3%EF%BC%AF%EF%BC%AD%E6%B5%8E%E5%8D%97%E8%AE%BF%E8%B0%88%EF%BC%9A%EF%BC%B9%EF%BD%8B https://www.ziyuan.tv/search/%E8%80%81%E8%A1%97%E5%8D%8E%E7%BA%B3%E5%9B%BD%E9%99%85%E9%9B%86%E5%9B%A2%E6%80%8E%E4%B9%88%E4%B8%8B%E8%BD%BD%E7%9B%B4%E8%90%A5%E7%BD%91B2024.CN%E5%90%89%E5%AE%89%E5%AD%A6%E5%BA%9C%EF%BC%B3%EF%BC%B0

0
#15用户已被禁言回复于2019-04
#14 果断叫小黑回复
嗯。。咨询了一些其他的的工程师。。现在有两种方式处理。一种是软件上的降噪算法。一种是硬件上的降噪阵列模块
展开

但版主的问题应该是没有集成好,否则不会识别这么差。

0
#14果断叫小黑回复于2019-04
#13 尼基塔007不错回复
就是把噪音去除掉?

嗯。。咨询了一些其他的的工程师。。现在有两种方式处理。一种是软件上的降噪算法。一种是硬件上的降噪阵列模块

0
#13尼基塔007不错回复于2019-04
#12 果断叫小黑回复
识别没问题,主要是降噪这一块没很么好的解决方案

就是把噪音去除掉?

0
#12果断叫小黑回复于2019-02
#11 尼基塔007不错回复
python识别不行吗

识别没问题,主要是降噪这一块没很么好的解决方案

0
#11尼基塔007不错回复于2019-02

python识别不行吗

0
#10果断叫小黑回复于2019-02

主要是采样率造成的。。。降噪必须找相应的降噪算法或者降噪硬件模块来解决

0
#9用户已被禁言回复于2019-02
#8 地底君回复
我觉得应该建议录音的时候就要设置好文件格式,采样率,因为后期改这些参数基本上都是不行的
展开

如果格式参数等不符合要求的话,确实达不到应有的识别率,应调整格式和参数。

0
#8地底君回复于2019-02

我觉得应该建议录音的时候就要设置好文件格式,采样率,因为后期改这些参数基本上都是不行的

0
#7地底君回复于2019-02

谢谢,现在普通话基本上是识别率基本是百分百了,但是粤语和英语就识别不出来,用1637识别出来的文字读出来是粤语的音译,例如粤语"打开电视机"--->'大大好点息给'

0
#6彦丶子凡回复于2019-02

pcm格式的识别高一点

0
#5用户已被禁言回复于2019-02
#3 地底君回复
请问你是用什么软件录音的?格式有什么要求吗,因为电脑没麦克风,我用手机录了一段发上电脑,格式m4a转wa*v,不行.百度翻译朗读mp3转wa*v也不行,应该是格式有问题吧
展开

测试我是在这里测试的。 http://ai.baidu.com/tech/speech/tts 

REST API支持的音频格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。原始 PCM 的音频格式必须符合16k 采样率、16bit 位深、单声道。

具体格式的转换可自行百度一下,或者文档中心有 http://ai.baidu.com/docs#/ASR-Tool-convert/top

0
#4用户已被禁言回复于2019-02

语音识别建议使用 pcm 格式。

0
#3地底君回复于2019-02

请问你是用什么软件录音的?格式有什么要求吗,因为电脑没麦克风,我用手机录了一段发上电脑,格式m4a转wa*v,不行.百度翻译朗读mp3转wa*v也不行,应该是格式有问题吧

0
#2用户已被禁言回复于2019-02

我测试英语识别的不是中文而是正常的英文,建议用真实人声再试一下。参考demo教程重新集成下。

0
TOP
切换版块