简介

更新时间：2026-06-18

产品说明

百度大模型声音复刻是使用全新自研语音大模型算法打造的轻量级音色定制方案。用户只需录制5s的音频，即可极速复刻音色。支持自定义文本复刻与双流式语音合成，广泛应用于配音、数字人、情感陪伴、语音助手等场景。
若您希望快速体验相关功能，请点击链接进入大模型声音复刻体验专区。

产品优势

自定义文本复刻：无需指定音频文本，实现自由复刻，降低调试成本
超低门槛：无需专业设备与场地，极大提升效率，降低使用门槛
精准还原：精准还原音色特点、说话风格、韵律起伏、声学环境
极速复刻：最低5秒即可完成高品质复刻，精准呈现音色细节，高效逼真
多种语言：支持日语复刻，支持河南话、上海话、四川话等多地方言的复刻还原与生成
多种情绪：支持情感迁移，支持参数控制合成语音呈现高兴、惊讶、愤怒等情绪

接口列表

序号	接口名称	接口URL
1	获取训练文本	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text
2	创建音色	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create
3	音色列表查询	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list
4	音色详情查询	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail
5	删除音色	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete
6	流式在线合成	wss://aip.baidubce.com/ws/2.0/speech/publiccloudspeech/v1/voice/clone/tts
7	非流式在线合成	https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/tts

示例代码

您可以参考以下示例代码，进行音色创建与在线合成：voiceclone_demo.zip

返回码

返回码	提示信息	备注说明
0	success	处理成功
10014	user concurrency limit exceeded	用户的并发超限，如有高并发需求，请先提交合作咨询，或者提交工单
10015	user usage limit reached	用户的配额超限，如有高额度需求，请先提交合作咨询，或者提交工单
10020	temporary service err, please try again	服务临时错误，请稍候再试
10021	voiceprint detection failed	音频与文本匹配校验失败，请按照返回text进行朗读
10022	text id not exists or text id already expire	text_id 不存在或者 text_id 已经超过 24 小时，请重新调用获取训练文本接口
10023	download failed or audio file size exceeded limit	音频URL不可访问或上传文件超过5M，请确保音频URL可访问并且上传文件小于等于5M
10025	the data has been deleted or does not have permission	该音色不存在，或者该音色已经被开发者删除
10026	invalid audio content	文件内容无效，请提供格式正确的音频，避免修改音频后缀
10027	voiceprint detection failed	音频可能涉及敏感人物，请重新上传音频或尝试指定文本复刻
11000	Synthesis exception	合成异常，请检查音色和合成语音的语种是否一致
11002	限流无额度	用户的配额超限，如有高额度需求，请先提交合作咨询，或者提交工单
11003	限流并发超限	用户的并发超限，如有高并发需求，请先提交合作咨询，或者提交工单
11004	text exceeded the limit	文本超长，请缩短文本重试
11006	No access permission for this voice_id	当前voice_id 错误，请检查 voice_id 是否正确
11007	token information or iam information must exist	未传递有效的鉴权信息，请正确输入 access_token 鉴权信息或者 Iam鉴权信息
11008	temporary service err, please try again	服务临时异常，请稍候重试
11009	required parameters are missing	参数缺失，请检查输入参数
11010	parameters are invalid	参数无效，请检查输入参数
11011	voice_id not exists	当前的 voice_id 不存在，请检查 voice_id 是否正确
11012	invalid page parameter, must be at least 1	page 参数无效，请确保page参数大于等于 1
11013	invalid base64-encoded audio content	音频内容无效，请使用有效的 base64编码音频
11014	this token/iam information invalid or has no access data permission	用户没有访问该数据的权限，请检查账号权限
11015	the text contains memorable vocabulary	文本包含敏感信息，请去掉敏感信息后重试
12001	the audio file is too short	音频内容太短，请更换音频
12000	download file failed	文件下载失败，请检查音频下载链接
12002	wer check failed	未检测到有效音频，请根据返回text 进行朗读
12003	audio detect snr failed	未检测到有效音频，请根据返回text 进行朗读
12004	recognition failed	无有效的人声，请更换音频
12005	detect audio level failed	无有效的人声，请调整音量后重新复刻
12006	detect audio speed failed	无有效的人声，请调整语速后重新复刻
12007	qualiry failed	音频质量较差，请更换音频

反馈

若您对文档内容有任何疑问，可以通过百度云控制台提交工单联系我们，咨询问题类型请选择人工智能服务；

端到端语音语言大模型

音色创建与管理