资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

声音复刻

简介

HI,您好,欢迎使用百度智能云声音复刻产品服务。

百度智能云声音服务产品服务为您提供轻量级声音定制方案,仅需10-20分钟音频,即可在1-2天内完成音库定制训练。可应用于有声阅读、在线教育、语音助手、视频配音等多种语音播报场景

——————————————————————

使用流程概述

您可以在【控制台-语音技术-声音复刻】下使用本产品服务,产品使用的基本流程如下图所示,全程可视化简易操作,在数据已经准备好的情况下,最快一天即可完成声音复刻。

image.png

1、创建音库:点击创建音库,填写音库名称,上传授权印和训练音频,提交训练并发起人工审核流程。如当前没有创建音库额度,可在控制台领取免费测试额度或联系我们

2、人工审核:提交声音复刻训练任务后,我们预计在1-2个工作日内完成人工审核,人工审核通过后自动进入模型训练流程,您可在音库列表查看任务当前进度

3、模型训练:人工审核通过后,预计1-2个工作日内完成模型训练任务(视具体机器资源可能存在排队),您可在音库列表查看任务当前进度

4、试听效果:模型训练完成后,在音库列表可试听声音复刻合成效果,我们将提供一段固定文本合成音频,同时支持由您编辑自定义测试文本合成音频供您试听体验。如当前没有自定义试听额度,可在控制台领取免费测试额度或联系我们

5、上线调用:如您对定制音库试听效果满意,有调用在线合成API服务的需求,请联系我们

——————————————————————

训练音频录制指导

训练音频质量对模型训练至关重要,为保障声音复刻效果,建议您按照如下指导录制训练音频。

  • 音频格式:支持wav、mp3、m4a格式;采样位数16bit;采样率不低于16K;文件大小不超过300M;单声道
  • 音频时长:推荐有效音频时长在10-20分钟,约对应100-200句文本
  • 音频质量:仅单人说话,发音清晰、音量适中、语速稳定、停顿得当,避免口水声、喉音、其他人声、环境噪音等杂音干扰
  • 内容及风格:结合实际使用场景设定相关的录音文本内容,并以适合的风格进行发音。如有声阅读场景建议以小说/文章作为文本,风格抑扬顿挫、更有故事性;语音助手场景建议以日常对话作为文本,风格语气丰富、更加口语化。中文普通话朗读,保持整体语句通顺