资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介

产品说明

百度大模型声音复刻是使用全新自研语音大模型算法打造的轻量级音色定制方案。用户只需录制5s的音频,即可极速复刻音色。支持自定义文本复刻与双流式语音合成,广泛应用于配音、数字人、情感陪伴、语音助手等场景。
若您希望快速体验相关功能,请点击链接进入大模型声音复刻体验专区

产品优势

  • 自定义文本复刻:无需指定音频文本,实现自由复刻,降低调试成本
  • 超低门槛:无需专业设备与场地,极大提升效率,降低使用门槛
  • 精准还原:精准还原音色特点、说话风格、韵律起伏、声学环境
  • 极速复刻:最低5秒即可完成高品质复刻,精准呈现音色细节,高效逼真
  • 多种语言:支持日语复刻,支持河南话、上海话、四川话等多地方言的复刻还原与生成

接口列表


序号
接口名称
接口URL
1 获取训练文本 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text
2 创建音色 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create
3 音色列表查询 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list
4 音色详情查询 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail
5 删除音色 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete
6 流式在线合成 wss://aip.baidubce.com/ws/2.0/speech/publiccloudspeech/v1/voice/clone/tts
7 非流式在线合成 https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/tts

返回码


返回码
提示信息 备注说明
0 success 处理成功
10014 user concurrency limit exceeded 用户的并发超限,如有高并发需求,请先提交合作咨询,或者提交工单
10015 user usage limit reached 用户的配额超限,如有高额度需求,请先提交合作咨询,或者提交工单
10020 temporary service err, please try again 服务临时错误,请稍候再试
10021 voiceprint detection failed 音频与文本匹配校验失败,请按照返回text进行朗读
10022 text id not exists or text id already expire text_id 不存在或者 text_id 已经超过 24 小时,请重新调用获取训练文本接口
10023 download failed or audio file size exceeded limit 音频URL不可访问或上传文件超过5M,请确保音频URL可访问并且上传文件小于等于5M
10025 the data has been deleted or does not have permission 该音色不存在,或者该音色已经被开发者删除
10026 invalid audio content 文件内容无效,请提供格式正确的音频,避免修改音频后缀
10027 voiceprint detection failed 音频可能涉及敏感人物,请重新上传音频或尝试指定文本复刻
11002 限流无额度 用户的配额超限,如有高额度需求,请先提交合作咨询,或者提交工单
11003 限流并发超限 用户的并发超限,如有高并发需求,请先提交合作咨询,或者提交工单
11004 text exceeded the limit 文本超长,请缩短文本重试
11006 No access permission for this voice_id 当前voice_id 错误,请检查 voice_id 是否正确
11007 token information or iam information must exist 未传递有效的鉴权信息,请正确输入 access_token 鉴权信息或者 Iam鉴权信息
11008 temporary service err, please try again 服务临时异常,请稍候重试
11009 required parameters are missing 参数缺失,请检查输入参数
11010 parameters are invalid 参数无效,请检查输入参数
11011 voice_id not exists 当前的 voice_id 不存在,请检查 voice_id 是否正确
11012 invalid page parameter, must be at least 1 page 参数无效,请确保page参数大于等于 1
11013 invalid base64-encoded audio content 音频内容无效,请使用有效的 base64编码音频
11014 this token/iam information invalid or has no access data permission 用户没有访问该数据的权限,请检查账号权限
11015 the text contains memorable vocabulary 文本包含敏感信息,请去掉敏感信息后重试
12001 the audio file is too short 音频内容太短,请更换音频
12000 download file failed 文件下载失败,请检查音频下载链接
12002 wer check failed 未检测到有效音频,请根据返回text 进行朗读
12003 audio detect snr failed 未检测到有效音频,请根据返回text 进行朗读
12004 recognition failed 无有效的人声,请更换音频
12005 detect audio level failed 无有效的人声,请调整音量后重新复刻
12006 detect audio speed failed 无有效的人声,请调整语速后重新复刻
12007 qualiry failed 音频质量较差,请更换音频

反馈

若您对文档内容有任何疑问,可以通过百度云控制台提交工单联系我们,咨询问题类型请选择人工智能服务;

上一篇
端到端语音语言大模型
下一篇
音色创建与管理