资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介

短文本在线合成

百度短文本在线合成服务,基于HTTP请求的REST API接口,将文本转换为可以播放的音频文件

每次请求合成的文本建议120GBK以内,如需更长文本转换可使用长文本在线合成。

合成的文件格式为 mp3,pcm(8k及16k),wav(16k),具体见aue参数。 若您需要其它格式,音频文件的转换方法请参考“语音识别工具”=>“音频文件转码”一节

本文档描述了使用语音合成服务REST API的方法。

  • 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
  • 目前只有中英文混合这一种语言,优先中文发音。示例: " I bought 3 books” 发音 “three”; “ 3 books are bought” 发音 “three”; “我们买了 3 books” 发音“三”

接口更新说明

日期 更新内容 更新前的历史状态
2021-06-10 POST 方式提交文本不超过120 GBK字节,即约60个汉字或者字母数字记为1次请求。每超过120个GBK字节则多记1次计费调用。
建议每次请求合成的文本不超过120个GBK。
POST 方式提交文本小于2048个中文字或者英文数字(5003、5118发音人需小于512个中文字或者英文数字)
2020-07-21 新增2个精品音库,在线合成音库总数扩充到11个,满足更多应用场景 在线合成音库总数为11个
2019-07-12 增加精品音库per接口,在线合成音库总数扩充到9个,满足更多应用场景 只有基础音库per接口
2018-07-14 添加 aue 参数,可以下载wav和pcm格式
只能下载mp3格式
2018-07-14 tex参数兼容一次urlencode, 推荐两次urlencode
tex参数 urlencode一次,会出现如“+”等特殊字符不能正确发音
2018-07-14 使用POST方式提交,合成限制2048个汉字。使用GET方式提交(不推荐),
拼接的url长度不超过1000个字符。注意:过长的文本将需要更多的请求耗时。
如果对时间敏感,请请自行按照标点切割,可以采用多次请求的方式。
tex参数限制512个汉字

浏览器跨域

目前合成接口支持浏览器跨域。 跨域demo示例: https://github.com/Baidu-AIP/SPEECH-TTS-CORS 由于获取token的接口不支持浏览器跨域。因此需要您从服务端获取或者每隔30天手动输入更新。

长文本在线合成

长文本在线合成接口可以将10万字以内文本一次性合成,异步返回音频。支持多种优质音库,将超长文本快速转换成稳定流畅、饱满真实的音频。适用于阅读听书、新闻播报等客户。

应用场景

阅读听书:万字小说一次性合成,可反复播放,给用户带来更流畅、更稳定的听书体验

新闻播报:长篇稿件批量快速合成,释放播音员人力,保障新闻生产时效性

产品优势

  • 一次性合成:支持一次性合成10万字,无需拆分文本和拼接音频,并支持下载到本地,大幅节省开发成本
  • 优质音库:为您提供极致拟人、情感饱满的语音合成效果
  • 合成速度快:5万字最快仅需5分钟,合成速度业界领先水平

产品功能

  1. 支持中文普通话、简单中英文混读
  2. 支持 mp3-16k、mp3-48k、wav、pcm-8k、pcm-16k 等多种音频格式和采样率
  3. 支持自定义语速、语调、音量调节
  4. 支持多音字标注发音,格式如:重(chong2)报集团。
  5. 支持文本分段,段落间增加1s停顿
  6. 支持主动查询、自动回调两种方式获取结果
上一篇
语音识别技术
下一篇
短文本在线合成API