语音识别到底需要啥样的音频文件?
whg4585 发布于2019-07 浏览:1716 回复:1
0
收藏

本地的音频文件全部不能识别,无论是pcm、wav、mp3哪种格式的文件,无论是网上下的,还是自己合成的,都不能

用百度语音合成的音频文件,反过来用语音识别技术却识别不了!这让我很奇怪

有点奇葩的是百度语音合成的音频,自己识别不了,但用其它平台的识别技术却能识别出来

什么鬼?

测试环境:win10+python3

收藏
点赞
0
个赞
共1条回复 最后由chrisberg923回复于2019-07
#2chrisberg923回复于2019-07

文档中明确写道:

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。

这里也提供了官方示例供测试使用 https://ai.baidu.com/docs#/ASR-API/top

 

文档中同样也有说明,语音合成的音频文件为非自然人发音,无法保证被准确识别。

 

建议您下载官方示例音频文件,如果有正确的返回结果则说明您的代码没有问题,以后只许提供符合标准的音频文件即可;

如果报错请反馈。

0
TOP
切换版块