请问带背景音乐的音频,能识别出来人说话或者唱歌的文字吗?目前我将(往后余生歌曲片段10s)转16k的pcm来识别,结果就两个字--小雨!请问为什么,是我集成不对还是还需要什么技术处理呢
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
额
请问语音识别能精确到ms吗,例如一段3s的语音“你好”,说话开始时间是1.5ms,识别是能检测到开始时间是1.5ms吗?
干扰太大了。建议拿这首歌跟音频做一下AEC,过滤下噪音