百度新一代面向AIGC的语音合成技术升级！定制音高效赋能媒体创作

控制台

发布日期：2023-03-06 12:36浏览量：6361次

“人的生命是有限的，可是，为人民服务是无限的，我要把有限的生命，投入到无限的为人民服务之中去……”，随着人工智能语音技术的不断突破发展，语音定制合成技术让人们在离开雷锋的日子里，依然有机会听到雷锋讲述他的故事和感人的志愿服务经历，这将比仅仅看到文字描述更加具有感染力和真实性，让雷锋精神在新时代绽放更加璀璨的光芒，成为随着时代进步而不断发展的与时俱进的精神，也为我们讲述雷锋故事、传递雷锋精神提供了新的表达方式。

3月5日，正值“向雷锋同志学习”题词60周年，长江日报联合百度智能云打造的“和雷锋一起读《雷锋日记》”上线，采用百度新一代面向AIGC的语音合成技术方案，基于雷锋原始录音，即可完成声音建模，生动地合成模拟雷锋阅读《雷锋日记》的声音，收获了无数用户的点赞！了解详情>

媒体行业一直以来面临着，要做出高质量的企业级音库用于快速完成内容制作宣传，但此类音库合成定制训练技术，对录音质量要求高、数据量要求多，标注难度大等问题，导致发音人制作周期长且制作费用高昂。

本次雷锋声音的还原，采用了百度新一代面向AIGC的语音合成技术方案，在核心技术方案上包括三大创新：

1、大幅降低了录音质量的门槛，无需到录音棚录制，也无需照稿朗读，仅需提供已有录音，1天内即可完成快速建库：依托了百度语音合成研发的语音->文本->语音的自重构预训练框架完成自动建模，可精确提取出对应到字的细粒度声学特征，保留了原始语音中绝大部分的表达方式，使得几句到几万句训练的模型都能够稳定合成；

2、 只需要提供50~150句的语音，即可完成声音建模，获得媲美上千句的企业级音库的效果：创新研发了相应的富表现力合成技术，通过引入概率分布完成一对多的细粒度声学特征建模，为合成提供更多的多样性选择，克服了少量录音数据带来的过平稳问题，做到即使用少量数据也能生动地合成；

3、 突破性还原真人声音及情感表达：将NLP语言预训练模型与TTS声学模型相结合的前后端合成技术，通过将语言模型中潜在的韵律、语义信息提供给声学模型学习，解决录音中语义内容单一的问题，使得合成效果在语义和句式上更加贴切，在跨语境合成中更能契合场景。

了解定制音库> 点击合作咨询，填写您的需求与基本信息，百度智能云工作人员会与您取得联系，请保持通讯及邮箱畅通。

还原雷锋的声音，为媒体通过AI技术续写时代新篇增添浓墨重彩的一笔。面向未来，百度智能云将充分发挥 AI 技术优势，继续打造智能化创新性服务，助力媒体行业在内容生产上实现更多创新性传播。

百度智能云语音合成现已推出：短文本在线合成、长文本在线合成、离线语音合成等产品，满足各种场景的语音识别需求。提供公有云服务、本地化部署、语音场景解决方案等多种产品形态，接入便捷、稳定可靠。