资讯 社区 文档
百度新一代面向AIGC的语音合成技术升级!定制音高效赋能媒体创作
发布日期:2023-03-06 12:36浏览量:4983次
“人的生命是有限的,可是,为人民服务是无限的,我要把有限的生命,投入到无限的为人民服务之中去……”,随着人工智能语音技术的不断突破发展,语音定制合成技术让人们在离开雷锋的日子里,依然有机会听到雷锋讲述他的故事和感人的志愿服务经历,这将比仅仅看到文字描述更加具有感染力和真实性,让雷锋精神在新时代绽放更加璀璨的光芒,成为随着时代进步而不断发展的与时俱进的精神,也为我们讲述雷锋故事、传递雷锋精神提供了新的表达方式。
 
3月5日,正值“向雷锋同志学习”题词60周年,长江日报联合百度智能云打造的“和雷锋一起读《雷锋日记》”上线,采用百度新一代面向AIGC的语音合成技术方案,基于雷锋原始录音,即可完成声音建模,生动地合成模拟雷锋阅读《雷锋日记》的声音,收获了无数用户的点赞!了解详情>
 
媒体行业一直以来面临着,要做出高质量的企业级音库用于快速完成内容制作宣传,但此类音库合成定制训练技术,对录音质量要求高、数据量要求多,标注难度大等问题,导致发音人制作周期长且制作费用高昂。
 
本次雷锋声音的还原,采用了百度新一代面向AIGC的语音合成技术方案,在核心技术方案上包括三大创新:
1、 大幅降低了录音质量的门槛,无需到录音棚录制,也无需照稿朗读,仅需提供已有录音,1天内即可完成快速建库:依托了百度语音合成研发的语音->文本->语音的自重构预训练框架完成自动建模,可精确提取出对应到字的细粒度声学特征,保留了原始语音中绝大部分的表达方式,使得几句到几万句训练的模型都能够稳定合成;
2、 只需要提供50~150句的语音,即可完成声音建模,获得媲美上千句的企业级音库的效果:创新研发了相应的富表现力合成技术,通过引入概率分布完成一对多的细粒度声学特征建模,为合成提供更多的多样性选择,克服了少量录音数据带来的过平稳问题,做到即使用少量数据也能生动地合成;
3、 突破性还原真人声音及情感表达:将NLP语言预训练模型与TTS声学模型相结合的前后端合成技术,通过将语言模型中潜在的韵律、语义信息提供给声学模型学习,解决录音中语义内容单一的问题,使得合成效果在语义和句式上更加贴切,在跨语境合成中更能契合场景。
了解定制音库> 点击合作咨询,填写您的需求与基本信息,百度智能云工作人员会与您取得联系,请保持通讯及邮箱畅通。
 
还原雷锋的声音,为媒体通过AI技术续写时代新篇增添浓墨重彩的一笔。面向未来,百度智能云将充分发挥 AI 技术优势,继续打造智能化创新性服务,助力媒体行业在内容生产上实现更多创新性传播。
 
百度智能云语音合成现已推出:短文本在线合成长文本在线合成离线语音合成等产品,满足各种场景的语音识别需求。提供公有云服务、本地化部署、语音场景解决方案等多种产品形态,接入便捷、稳定可靠。
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术