【征稿计划第二期】智能录音转写APP
让天涯 发布于2019-07 浏览:2110 回复:0
0
收藏

【产品建议】【语音识别】

一、需求描述

相信很多人在参加会议、讲座等情境下,都会下意识的利用手机、录音笔等工具进行录音,后期会对录音内容进行重听,摘取重要内容进行笔记。如果能够一款产品,可以直接对录音文件进行语音识别,返回文字内容,并可以保存到云端,多平台共享使用,相应会受到很多人的欢迎。

前段时间,看了讯飞智能录音笔的发布,感觉百度其实完全可以结合现有的技术,做出一个简单的功能类似的“智能录音”APP,当然,做出一个类似的成品也是可以的,不过成品的话,涉及到硬件方面的知识,这方便我不太熟悉。这里,我就如何结合百度相关现有技术,做出一个类似功能的“智能录音”APP提供建议。

讯飞智能录音笔主要有三方便的功能:

(1)、语音转写识别。

(2)、英文录音,智能翻译。

(3)、语音搜索,多平台同步、分享、编辑。

根据我的理解,这里面主要用到了这几个技术:语音识别技术,文本翻译技术,和云同步技术。如果论单一功能,百度都有对应的产品了:百度语音、百度翻译、百度网盘。

如果百度能够结合这几种产品技术,就可以开发出一个利用手机录音的“智能录音”APP了,如果能进一步结合相关硬件,就可以开发出一个类似讯飞智能录音笔的百度智能录音笔了。

二、产品建议

(1)具体思路:

1、手机录音,生成录音文件。

2、上传录音文件,存到百度网盘。

3、利用百度语音识别技术,将存放在百度网盘的录音文件进行语音识别,生成对应的文字内容。

4、如果语音为英文,生成英文文字内容,再用百度翻译功能,将英文翻译为中文,进行关联存储。

5、如果需要其他语种的文字,也可以运用百度翻译功能,将语音识别后的文字进行翻译。

6、对识别后的文本,可以进行相应的分享、编辑操作。

7、语音搜索,则可以先用百度语音识别技术,识别出语音文字,然后利用文字在用户的相应百度网盘录音文字文件内进行搜索,返回相应的结果。

(2)优化功能:

1、参考百度音乐的歌词歌曲时间同步功能,如果能将录音文件和识别结果文字文件也进行同步:拉动文字,可以播放对应时间段的录音信息,或者拉动录音显示对应时间段的文字内容,那效果会更好,也方便进行编辑纠错。也可以在此基础上,运用百度翻译功能,实时翻译文字,显示另一语种内容,那就可以当成一个语种翻译学习APP用了。

2、结合文本纠错技术,提高语音识别的准确率。

3、结合新闻摘要技术,自动提取录音文字摘要。

4、录音文件过大问题:可以控制录音文件在一定大小范围内,也可以使用语音剪辑技术,自动将录音文件分割成相应大小的录音文件片段,再进行相应的语音识别,最后合成识别结果,关联原始录音文件。

5、录音时间过长问题:同2,可以使用语音剪辑技术,自动将录音文件分割成相应时间长度的录音文件片段,对片段录音文件进行语音识别,最后合成识别结果,关联原始录音文件。

6、如果能采取语音实时识别技术,只要识别速度够快,可以当做半个翻译器用了。

收藏
点赞
0
个赞
TOP
切换版块