【产品建议】【语音识别】
一、需求描述
相信很多人在参加会议、讲座等情境下,都会下意识的利用手机、录音笔等工具进行录音,后期会对录音内容进行重听,摘取重要内容进行笔记。如果能够一款产品,可以直接对录音文件进行语音识别,返回文字内容,并可以保存到云端,多平台共享使用,相应会受到很多人的欢迎。
前段时间,看了讯飞智能录音笔的发布,感觉百度其实完全可以结合现有的技术,做出一个简单的功能类似的“智能录音”APP,当然,做出一个类似的成品也是可以的,不过成品的话,涉及到硬件方面的知识,这方便我不太熟悉。这里,我就如何结合百度相关现有技术,做出一个类似功能的“智能录音”APP提供建议。
讯飞智能录音笔主要有三方便的功能:
(1)、语音转写识别。
(2)、英文录音,智能翻译。
(3)、语音搜索,多平台同步、分享、编辑。
根据我的理解,这里面主要用到了这几个技术:语音识别技术,文本翻译技术,和云同步技术。如果论单一功能,百度都有对应的产品了:百度语音、百度翻译、百度网盘。
如果百度能够结合这几种产品技术,就可以开发出一个利用手机录音的“智能录音”APP了,如果能进一步结合相关硬件,就可以开发出一个类似讯飞智能录音笔的百度智能录音笔了。
二、产品建议
(1)具体思路:
1、手机录音,生成录音文件。
2、上传录音文件,存到百度网盘。
3、利用百度语音识别技术,将存放在百度网盘的录音文件进行语音识别,生成对应的文字内容。
4、如果语音为英文,生成英文文字内容,再用百度翻译功能,将英文翻译为中文,进行关联存储。
5、如果需要其他语种的文字,也可以运用百度翻译功能,将语音识别后的文字进行翻译。
6、对识别后的文本,可以进行相应的分享、编辑操作。
7、语音搜索,则可以先用百度语音识别技术,识别出语音文字,然后利用文字在用户的相应百度网盘录音文字文件内进行搜索,返回相应的结果。
(2)优化功能:
1、参考百度音乐的歌词歌曲时间同步功能,如果能将录音文件和识别结果文字文件也进行同步:拉动文字,可以播放对应时间段的录音信息,或者拉动录音显示对应时间段的文字内容,那效果会更好,也方便进行编辑纠错。也可以在此基础上,运用百度翻译功能,实时翻译文字,显示另一语种内容,那就可以当成一个语种翻译学习APP用了。
2、结合文本纠错技术,提高语音识别的准确率。
3、结合新闻摘要技术,自动提取录音文字摘要。
4、录音文件过大问题:可以控制录音文件在一定大小范围内,也可以使用语音剪辑技术,自动将录音文件分割成相应大小的录音文件片段,再进行相应的语音识别,最后合成识别结果,关联原始录音文件。
5、录音时间过长问题:同2,可以使用语音剪辑技术,自动将录音文件分割成相应时间长度的录音文件片段,对片段录音文件进行语音识别,最后合成识别结果,关联原始录音文件。
6、如果能采取语音实时识别技术,只要识别速度够快,可以当做半个翻译器用了。