声音复刻

更新时间：2024-09-20

简介

HI，您好，欢迎使用百度智能云声音复刻产品服务。

百度智能云声音服务产品服务为您提供轻量级声音定制方案，仅需10-20分钟音频，即可在1-2天内完成音库定制训练。可应用于有声阅读、在线教育、语音助手、视频配音等多种语音播报场景

——————————————————————

您可以在【控制台-语音技术-声音复刻】下使用本产品服务，产品使用的基本流程如下图所示，全程可视化简易操作，在数据已经准备好的情况下，最快一天即可完成声音复刻。

1、创建音库：点击创建音库，填写音库名称，上传授权印和训练音频，提交训练并发起人工审核流程。如当前没有创建音库额度，可在控制台领取免费测试额度或联系我们

2、人工审核：提交声音复刻训练任务后，我们预计在1-2个工作日内完成人工审核，人工审核通过后自动进入模型训练流程，您可在音库列表查看任务当前进度

3、模型训练：人工审核通过后，预计1-2个工作日内完成模型训练任务（视具体机器资源可能存在排队），您可在音库列表查看任务当前进度

4、试听效果：模型训练完成后，在音库列表可试听声音复刻合成效果，我们将提供一段固定文本合成音频，同时支持由您编辑自定义测试文本合成音频供您试听体验。如当前没有自定义试听额度，可在控制台领取免费测试额度或联系我们

5、上线调用：如您对定制音库试听效果满意，有调用在线合成API服务的需求，请联系我们

——————————————————————

训练音频质量对模型训练至关重要，为保障声音复刻效果，建议您按照如下指导录制训练音频。

音频格式：支持wav、mp3、m4a格式；采样位数16bit；采样率不低于16K；文件大小不超过300M；单声道
音频时长：推荐有效音频时长在10-20分钟，约对应100-200句文本
音频质量：仅单人说话，发音清晰、音量适中、语速稳定、停顿得当，避免口水声、喉音、其他人声、环境噪音等杂音干扰
内容及风格：结合实际使用场景设定相关的录音文本内容，并以适合的风格进行发音。如有声阅读场景建议以小说/文章作为文本，风格抑扬顿挫、更有故事性；语音助手场景建议以日常对话作为文本，风格语气丰富、更加口语化。中文普通话朗读，保持整体语句通顺