用python,语音识别准确率太低,怎么解决?

首页版块访问AI主站注册发帖

地底君发布于2019-02 浏览:4746 回复:15

快速回复

用粤语几乎识别不出来,普通话准确率低,例如'你好'可以识别出来,但是'床前明月光'就会识别成'红学明月光',英语识别出来都是中文,'hello world'识别成'汤姆热'???明明dev_pid都改了!其次音频文件是从百度翻译的朗读那里下载的,不存在语音不清晰的问题???请问如何解决以上问题??

语音识别

技术问答

个赞

共15条回复最后由用户已被禁言回复于2022-04

#20用户已被禁言回复于2022-04

http://ask.zol.com.cn/new/search.php?kword=%BD%AD%CB%D5%CC%AB%B2%D6%CD%F8%C9%CF%CA%D6%BB%FA%CD%B6%D7%A2%D6%B1%D3%AA%BF%AA%BB%A7%3AB2024.CN%BD%FA%B3%C7%B1%CF%D2%B5%C9%FA%A3%D6%A1%AB https://www.xiachufang.com/search/?keyword=%E8%80%81%E8%A1%97%E8%85%BE%E9%BE%99%E5%A8%B1%E4%B9%90%E5%85%AC%E5%8F%B8%E5%AE%98%E7%BD%91%E5%AE%A2%E6%9C%8D%E5%BC%80%E6%88%B7B2024.cN%E7%8E%89%E6%9E%97%E9%98%B2%E7%96%AB%EF%BC%A9%EF%BC%9F https://b2b.baidu.com/s?fr=wwwt&q=%E6%B2%B3%E5%8C%97%E4%BF%9D%E5%AE%9A%E6%89%8B%E6%9C%BA%E7%BD%91%E6%8A%95%E5%B9%B3%E5%8F%B0%E3%80%90TL262%C2%B7C%EF%BC%AFM%E3%80%91%E7%99%BD%E9%93%B6%E9%93%81%E9%80%9A%EF%BC%97%EF%BC%85%EF%BD%92 https://search.dxy.cn/?age=1&words=%E7%BC%85%E5%8C%97%E6%96%B0%E7%99%BE%E8%83%9C%E8%B4%B5%E5%AE%BE%E5%8E%85%E7%9B%B4%E8%90%A5%E7%BD%91TL262%C2%B7%EF%BC%A3%EF%BC%AF%EF%BC%AD%E6%B5%8E%E5%8D%97%E8%AE%BF%E8%B0%88%EF%BC%9A%EF%BC%B9%EF%BD%8B https://www.ziyuan.tv/search/%E8%80%81%E8%A1%97%E5%8D%8E%E7%BA%B3%E5%9B%BD%E9%99%85%E9%9B%86%E5%9B%A2%E6%80%8E%E4%B9%88%E4%B8%8B%E8%BD%BD%E7%9B%B4%E8%90%A5%E7%BD%91B2024.CN%E5%90%89%E5%AE%89%E5%AD%A6%E5%BA%9C%EF%BC%B3%EF%BC%B0

#15用户已被禁言回复于2019-04

对#14 果断叫小黑回复

嗯。。咨询了一些其他的的工程师。。现在有两种方式处理。一种是软件上的降噪算法。一种是硬件上的降噪阵列模块

展开

但版主的问题应该是没有集成好，否则不会识别这么差。

#14果断叫小黑回复于2019-04

对#13 尼基塔007不错回复

就是把噪音去除掉？

嗯。。咨询了一些其他的的工程师。。现在有两种方式处理。一种是软件上的降噪算法。一种是硬件上的降噪阵列模块

#13尼基塔007不错回复于2019-04

对#12 果断叫小黑回复

识别没问题，主要是降噪这一块没很么好的解决方案

就是把噪音去除掉？

#12果断叫小黑回复于2019-02

对#11 尼基塔007不错回复

python识别不行吗

识别没问题，主要是降噪这一块没很么好的解决方案

#11尼基塔007不错回复于2019-02

python识别不行吗

#10果断叫小黑回复于2019-02

主要是采样率造成的。。。降噪必须找相应的降噪算法或者降噪硬件模块来解决

#9用户已被禁言回复于2019-02

对#8 地底君回复

我觉得应该建议录音的时候就要设置好文件格式,采样率,因为后期改这些参数基本上都是不行的

展开

如果格式参数等不符合要求的话，确实达不到应有的识别率，应调整格式和参数。

#8地底君回复于2019-02

我觉得应该建议录音的时候就要设置好文件格式,采样率,因为后期改这些参数基本上都是不行的

#7地底君回复于2019-02

谢谢,现在普通话基本上是识别率基本是百分百了,但是粤语和英语就识别不出来,用1637识别出来的文字读出来是粤语的音译,例如粤语"打开电视机"--->'大大好点息给'

#6彦丶子凡回复于2019-02

pcm格式的识别高一点

#5用户已被禁言回复于2019-02

对#3 地底君回复

请问你是用什么软件录音的?格式有什么要求吗,因为电脑没麦克风,我用手机录了一段发上电脑,格式m4a转wa*v,不行.百度翻译朗读mp3转wa*v也不行,应该是格式有问题吧

展开

测试我是在这里测试的。 http://ai.baidu.com/tech/speech/tts

REST API支持的音频格式有：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）。原始 PCM 的音频格式必须符合16k 采样率、16bit 位深、单声道。

具体格式的转换可自行百度一下，或者文档中心有 http://ai.baidu.com/docs#/ASR-Tool-convert/top

#4用户已被禁言回复于2019-02

语音识别建议使用 pcm 格式。

#3地底君回复于2019-02

#2用户已被禁言回复于2019-02

我测试英语识别的不是中文而是正常的英文，建议用真实人声再试一下。参考demo教程重新集成下。

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服