资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

音色创建与管理

音色创建

获取训练文本(非必需)

接口描述

接口描述:通过此接口获取用于训练的文本,使用此接口则创建音色时需要上传与此文本内容对应的音频;若希望使用自定义复刻,无需调用本接口,在创建音色接口处无需填写音频文本ID,其他参数保持不变。

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text

请求方法:POST

输入参数

属性
参数名称 类型
是否必填
说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key

输出参数

属性 参数名称 类型 说明
错误状态 status int
错误信息 message string
数据 data object 响应数据

data响应参数

属性 参数名称 类型 说明
文本ID text_id string 唯一文本id(获取文本id后,文本id有效期为24小时,每个文本id创建音色后自动失效)
文本内容 text string

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text?access_token=XXX'

创建音色

接口描述

接口描述:通过上传训练音频来创建音色,支持音频链接与音频内容两种音频上传方式

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create

请求方法:POST

输入参数

属性
参数名称 类型
是否必填
说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色名称 voice_name string 必填 音色名称,同一个用户下面,音色名称不能重复
音色描述 voice_desc string 可选 音色说明
音色语种 lang string 可选 创建的音色语种,目前支持的语种:
中英语:zh;
日语:ja;
若创建音色阶段未填写lang参数,默认为zh(中英语)。
若希望音色用于日语合成,建议选择ja参数,并使用10秒至30秒长度的日语音频作为注册音频。
音频链接 audio_url string 音频链接和音频内容二选一 两个参考同时传:以 audio_file 为准
支持:wav、mp3、m4a、ogg、aac。音频大小 5M以内,5~20 秒内
音频内容 audio_file string 音频链接和音频内容二选一 音频文件内容base64
支持上传方言进行复刻和迁移,范围包括河南话、上海话、四川话、湖南话、贵州话
音频文本ID text_id string 选填 即文本ID,使用自定义文本复刻则无需填写

输出参数

属性 参数名称 类型 说明
错误状态 status int 0 创建成功,其他为异常
错误信息 message string
数据 data object 对应发音人ID

data响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 唯一id

示例

  • 通过音频URL创建音色
curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_url": "https://bj.bcebos.com/example.wav",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'
  • 通过音频-base64 编码创建音色
curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_file": "音频 Base64 编码",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'

大模型声音复刻的音色创建说明:

通过以上接口创建的音色,若在1年内没有调用合成记录,该音色将被删除,后续将无法使用。

大模型声音复刻和迁移能力说明:

大模型声音复刻分为复刻和迁移两种能力。复刻指保留声音语种/方言等特征的能力,迁移指保持音色特征的同时增加语种/方言等特征的能力。例如:

  • 创建音色时输入普通话,合成普通话=复刻
  • 创建音色时输入河南话,合成河南话=复刻
  • 创建音色时输入普通话,合成河南话=迁移

大模型语种方言复刻说明:

  • 目前支持河南话、上海话、四川话、贵州话、湖南话五种方言的复刻及迁移。为确保方言复刻迁移效果,建议您使用普通话或对应方言进行音色创建。
  • 目前支持日语语种的复刻。为确保日语复刻效果,建议您使用10-30秒的日语内容进行音色创建。
  • 为保证不同语种合成效果,建议您避免在音色创建和语音合成时选择不一致的lang参数,或者使用中日文混合的文本。

音色管理

音色列表查询

接口描述

接口描述:获取用户已经创建的音色列表

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
页码 page int 选填 列表页面:page>=1

输出参数

属性 参数名称 类型 说明
错误状态 status int 0代表成功,其他为异常
错误信息 message string
数据 data object 音色列表信息

data响应参数

属性 参数名称 类型 说明
总数 total int
页码 page int
每页数量 page_size int
音色列表 items object [ ]

items响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 训练后的音色 ID
音色名称 voice_name string 音色名称
音色描述 voice_desc string 音色说明
音色语种 lang string 音色语种
创建时间 create_time string 创建时间,Unix 时间戳
状态 status int 恒等于 0

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list?access_token=XXX' \
--data '{
    "page": 1
}'

音色详情查询

接口描述

接口描述:根据音色ID查询音色的详情信息

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色ID voice_id int 必填

输出参数

属性 参数名称 类型 说明
错误状态 status int 0代表成功,其他为异常
错误信息 message string
数据 data object 音色详情信息

data响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 训练后的音色 ID
音色名称 voice_name string 音色名称
音色描述 voice_desc string 音色说明
音色语种 lang string 音色语种
音色状态 status int 恒等于 0
创建时间 create_time string 创建时间

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'

删除音色

接口描述

接口描述:对已经创建的音色进行删除

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色ID voice_id int 必填

输出参数

通过返回的status判断是否成功,如失败则查看message获得具体错误信息

属性 参数名称 类型 说明
错误状态 status int 0 删除成功,1 删除异常
错误信息 message

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'
上一篇
简介
下一篇
语音合成