资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

音色创建与管理

音色创建

获取训练文本(非必需)

接口描述

接口描述:通过此接口获取用于训练的文本,使用此接口则创建音色时需要上传与此文本内容对应的音频;若希望使用自定义复刻,无需调用本接口,在创建音色接口处无需填写音频文本ID,其他参数保持不变。

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text

请求方法:POST

输入参数

属性
参数名称 类型
是否必填
说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key

输出参数

属性 参数名称 类型 说明
错误状态 status int
错误信息 message string
数据 data object 响应数据

data响应参数

属性 参数名称 类型 说明
文本ID text_id string 唯一文本id(获取文本id后,文本id有效期为24小时,每个文本id创建音色后自动失效)
文本内容 text string

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text?access_token=XXX'

上传训练音色

接口描述

接口描述:通过上传训练音频来创建音色,支持音频链接与音频内容两种音频上传方式

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create

请求方法:POST

输入参数

属性
参数名称 类型
是否必填
说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色名称 voice_name string 必填 音色名称,同一个用户下面,音色名称不能重复
音色描述 voice_desc string 可选 音色说明
音频链接 audio_url string 音频链接和音频内容二选一 两个参考同时传:以 audio_file 为准
支持:wav、mp3、ogg、aac。音频大小 5M以内,5~20 秒内
音频内容 audio_file string 音频链接和音频内容二选一 音频文件内容base64
支持上传方言进行复刻和迁移,范围包括河南话、上海话、四川话、湖南话、贵州话
音频文本ID text_id string 选填 即文本ID,使用自定义文本复刻则无需填写

输出参数

属性 参数名称 类型 说明
错误状态 status int 0 创建成功,其他为异常
错误信息 message string
数据 data object 对应发音人ID

data响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 唯一id

示例

  • 通过音频URL创建音色
curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_url": "https://bj.bcebos.com/example.wav",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'
  • 通过音频-base64 编码创建音色
curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_name": "example",
    "voice_desc": "温柔细腻的音色",
    "audio_file": "音频 Base64 编码",
    "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
}'

大模型声音复刻的音色创建说明:

通过以上接口创建的音色,若在1年内没有调用合成记录,该音色将被删除,后续将无法使用。

大模型声音复刻和迁移能力说明:

大模型声音复刻分为复刻和迁移两种能力。复刻指保留声音语种/方言等特征的能力,迁移指保持音色特征的同时增加语种/方言等特征的能力。例如:

  • 创建音色时输入普通话,合成普通话=复刻
  • 创建音色时输入河南话,合成河南话=复刻
  • 创建音色时输入普通话,合成河南话=迁移

目前支持河南话、上海话、四川话三种方言的复刻及迁移。为确保方言复刻迁移效果,建议您使用普通话或对应方言进行音色创建。


音色管理

音色列表查询

接口描述

接口描述:获取用户已经创建的音色列表

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
页码 page int 选填 列表页面:page>=1

输出参数

属性 参数名称 类型 说明
错误状态 status int 0代表成功,其他为异常
错误信息 message string
数据 data object 音色列表信息

data响应参数

属性 参数名称 类型 说明
总数 total int
页码 page int
每页数量 page_size int
音色列表 items object [ ]

items响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 训练后的音色 ID
音色名称 voice_name string 音色名称
音色描述 voice_desc string 音色说明
创建时间 create_time string 创建时间,Unix 时间戳
状态 status int 恒等于 0

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list?access_token=XXX' \
--data '{
    "page": 1
}'

音色详情查询

接口描述

接口描述:根据音色ID查询音色的详情信息

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色ID voice_id int 必填

输出参数

属性 参数名称 类型 说明
错误状态 status int 0代表成功,其他为异常
错误信息 message string
数据 data object 音色详情信息

data响应参数

属性 参数名称 类型 说明
音色 ID voice_id int 训练后的音色 ID
音色名称 voice_name string 音色名称
音色描述 voice_desc string 音色说明
音色状态 status int 恒等于 0
创建时间 create_time string 创建时间

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'

删除音色

接口描述

接口描述:对已经创建的音色进行删除

接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete

请求方法:POST

输入参数

属性 参数名称 类型 是否必填 说明
鉴权令牌 access_token string 鉴权方式二选一 鉴权令牌
鉴权API Key Authorization string 鉴权方式二选一 鉴权API Key
音色ID voice_id int 必填

输出参数

通过返回的status判断是否成功,如失败则查看message获得具体错误信息

属性 参数名称 类型 说明
错误状态 status int 0 删除成功,1 删除异常
错误信息 message

示例

curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete?access_token=XXX' \
--header 'Content-Type: application/json' \
--data '{
    "voice_id": 1063622
}'
上一篇
简介
下一篇
语音合成