音色创建与管理

更新时间：2026-02-03

音色创建

获取训练文本（非必需）

接口描述

接口描述：通过此接口获取用于训练的文本，使用此接口则创建音色时需要上传与此文本内容对应的音频；若希望使用自定义复刻，无需调用本接口，在创建音色接口处无需填写音频文本ID，其他参数保持不变。

接口名称：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text

请求方法：POST

输入参数

属性	参数名称	类型	是否必填	说明
鉴权令牌	access_token	string	鉴权方式二选一	鉴权令牌
鉴权API Key	Authorization	string	鉴权方式二选一	鉴权API Key

输出参数

属性	参数名称	类型	说明
错误状态	status	int
错误信息	message	string
数据	data	object	响应数据

data响应参数

属性	参数名称	类型	说明
文本ID	text_id	string	唯一文本id（获取文本id后，文本id有效期为24小时，每个文本id创建音色后自动失效）
文本内容	text	string

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text?access_token=XXX'

创建音色

接口描述

接口描述：通过上传训练音频来创建音色，支持音频链接与音频内容两种音频上传方式

接口名称：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create

请求方法：POST

输入参数

属性	参数名称	类型	是否必填	说明
鉴权令牌	access_token	string	鉴权方式二选一	鉴权令牌
鉴权API Key	Authorization	string	鉴权方式二选一	鉴权API Key
音色名称	voice_name	string	必填	音色名称，同一个用户下面，音色名称不能重复
音色描述	voice_desc	string	可选	音色说明
音色语种	lang	string	可选	创建的音色语种，目前支持的语种：中英语：zh; 日语：ja; 若创建音色阶段未填写lang参数，默认为zh（中英语）。若希望音色用于日语合成，建议选择ja参数，并使用10秒至30秒长度的日语音频作为注册音频。
音频链接	audio_url	string	音频链接和音频内容二选一	两个参考同时传：以 audio_file 为准支持：wav、mp3、m4a、ogg、aac。音频大小 5M以内，5～20 秒内
音频内容	audio_file	string	音频链接和音频内容二选一	音频文件内容base64 支持上传方言进行复刻和迁移，范围包括河南话、上海话、四川话、湖南话、贵州话
音频文本ID	text_id	string	选填	即文本ID，使用自定义文本复刻则无需填写

输出参数

属性	参数名称	类型	说明
错误状态	status	int	0 创建成功，其他为异常
错误信息	message	string
数据	data	object	对应发音人ID

data响应参数

属性	参数名称	类型	说明
音色 ID	voice_id	int	唯一id

示例

通过音频URL创建音色

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_url": "https://bj.bcebos.com/example.wav",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'

通过音频-base64 编码创建音色

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_file": "音频 Base64 编码",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'

大模型声音复刻的音色创建说明：

通过以上接口创建的音色，若在1年内没有调用合成记录，该音色将被删除，后续将无法使用。

大模型声音复刻和迁移能力说明：

大模型声音复刻分为复刻和迁移两种能力。复刻指保留声音语种/方言等特征的能力，迁移指保持音色特征的同时增加语种/方言等特征的能力。例如：

创建音色时输入普通话，合成普通话=复刻

创建音色时输入河南话，合成河南话=复刻

创建音色时输入普通话，合成河南话=迁移

大模型语种方言复刻说明：

目前支持河南话、上海话、四川话、贵州话、湖南话五种方言的复刻及迁移。为确保方言复刻迁移效果，建议您使用普通话或对应方言进行音色创建。

目前支持日语语种的复刻。为确保日语复刻效果，建议您使用10-30秒的日语内容进行音色创建。

为保证不同语种合成效果，建议您避免在音色创建和语音合成时选择不一致的lang参数，或者使用中日文混合的文本。

音色管理

音色列表查询

接口描述

接口描述：获取用户已经创建的音色列表

接口名称：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list

请求方法：POST

输入参数

属性	参数名称	类型	是否必填	说明
鉴权令牌	access_token	string	鉴权方式二选一	鉴权令牌
鉴权API Key	Authorization	string	鉴权方式二选一	鉴权API Key
页码	page	int	选填	列表页面：page>=1

输出参数

属性	参数名称	类型	说明
错误状态	status	int	0代表成功，其他为异常
错误信息	message	string
数据	data	object	音色列表信息

data响应参数

属性	参数名称	类型
总数	total	int
页码	page	int
每页数量	page_size	int
音色列表	items	object [ ]

items响应参数

属性	参数名称	类型	说明
音色 ID	voice_id	int	训练后的音色 ID
音色名称	voice_name	string	音色名称
音色描述	voice_desc	string	音色说明
音色语种	lang	string	音色语种
创建时间	create_time	string	创建时间，Unix 时间戳
状态	status	int	恒等于 0

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list?access_token=XXX' \
--data '{
    "page": 1
}'

音色详情查询

接口描述

接口描述：根据音色ID查询音色的详情信息

接口名称：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail

请求方法：POST

输入参数

属性	参数名称	类型	是否必填	说明
鉴权令牌	access_token	string	鉴权方式二选一	鉴权令牌
鉴权API Key	Authorization	string	鉴权方式二选一	鉴权API Key
音色ID	voice_id	int	必填

输出参数

属性	参数名称	类型	说明
错误状态	status	int	0代表成功，其他为异常
错误信息	message	string
数据	data	object	音色详情信息

data响应参数

属性	参数名称	类型	说明
音色 ID	voice_id	int	训练后的音色 ID
音色名称	voice_name	string	音色名称
音色描述	voice_desc	string	音色说明
音色语种	lang	string	音色语种
音色状态	status	int	恒等于 0
创建时间	create_time	string	创建时间

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'

删除音色

接口描述

接口描述：对已经创建的音色进行删除

接口名称：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete

请求方法：POST

输入参数

属性	参数名称	类型	是否必填	说明
鉴权令牌	access_token	string	鉴权方式二选一	鉴权令牌
鉴权API Key	Authorization	string	鉴权方式二选一	鉴权API Key
音色ID	voice_id	int	必填

输出参数

通过返回的status判断是否成功，如失败则查看message获得具体错误信息

属性	参数名称	类型	说明
错误状态	status	int	0 删除成功，1 删除异常
错误信息	message

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'

简介

语音合成