一行代码搞定中英文语音识别、合成、翻译核心功能！

首页版块访问AI主站注册发帖

精

官

用户已被禁言发布于2021-12 浏览:3014 回复:6

一行代码搞定中英文语音识别、合成、翻译核心功能！

快速回复

导读

要说生活里最常见的 AI 应用场景，语音合成与识别当属大家最为耳熟能详的场景之一了。

寻常到平时地图导航的播报、微信语音转文字、手机语音输入，以及小度智能音箱，都离不开语音技术的加持。

语音技术到底是怎么实现的？有哪些现成可用的开源代码可以快速集成到项目里？可以说是每一名开发者非常关心的问题。

那么，福利时间到了，今天这个集成了中英文语音识别、语音翻译、语音合成、声音分类能力，而且一行代码轻松试验效果的开源项目，你一定不能错过！

项目介绍

话不多说，先来看项目中给出的效果展示。

语音识别

输入音频 1

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=0&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzg5&sn=7aacd9f6d9737fc8e9ca33f94ab6b975#wechat_redirect
识别结果 1
I knocked at the door on the ancient side of the building.

输入音频 2

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=1&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkw&sn=c4dd22c0470580b174236510b72c98cd#wechat_redirect

识别结果 2
我认为跑步最重要的就是给我带来了身体健康。

语音翻译（英译中）
输入音频

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=2&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkx&sn=dda717c6fbe4d8e7f1a5a9642abac7f0#wechat_redirect
识别结果

我在这栋建筑的古老门上敲门。

语音合成
输入文本 1
Life was like a box of chocolates, you never know what you're gonna get.

合成音频 1

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=3&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzky&sn=641ff8c4c99d448d26264533ec766f2c#wechat_redirect

输入文本 2
早上好，今天是2020/10/29，最低温度是-3°C。

合成音频 2

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=4&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzkz&sn=e9b625d90d02a5c9032078addec7ce25#wechat_redirect

可以看到，无论是中英文的识别，还是中英文的合成，这个开源项目都有不错的效果，特别的，项目中还包含了语音翻译能力，可以实现英文语音同传翻译为中文字幕，这个确实太强大了。

传送门：

GitHub 地址：https://github.com/PaddlePaddle/PaddleSpeech

有读者肯定想问，这么强大的语音能力，是不是想要用起来比较麻烦？

不得不说，这个项目在易用性上真的也是考虑得非常周到。

安装测试效果

按照首页的引导：

一行命令安装：

一行命令快速开始使用：

这里，可以抱着试一试的态度，在本机上安装了这个项目，安装完成之后，先使用语音合成试一下。

生成的效果大家可以听一下~

点击链接立即查看：https://mp.weixin.qq.com/mp/audio?_wxindex_=5&scene=104&__biz=MzI5NzUyMzM1Mg==&mid=2247591395&idx=1&voice_id=MzI5NzUyMzM1Ml8yMjQ3NTkxMzk0&sn=07afba97d57e77290278a1b7a82ff64d#wechat_redirect

然后，带着好奇心，再把合成的结果送到语音识别试一下，看看效果：