资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介

简介

本文档是百度在线语音合成Andriod SDK的用户指南(无离线合成功能,需要离线合成请使用离线合成SDK)。

在线合成SDK下载

在线语音合成SDK的策略是边下载边播放。区别于Rest Api一次性下载整个录音文件。

语言

目前只有中英文混合这一种语言,优先中文发音。

示例:

  • ” I bought 3 books” 发音 “three”;
  • “我们买了 3 books” 发音“三”

标注发音

该功能适用于多音字或特殊名词的发音设置,仅在线合成适用。

如: 重(chong2)报集团, “重”发音 chong第二声

在线和离线判别

在线合成SDK仅支持纯在线模式,如需使用离线模式请选使用离线合成sdk

纯在线模式 : WIFI 4G 3G 2G 都会尝试连接百度服务器。如果百度服务器失败,那么合成失败。

建议使用场景: 使用WIFI或者网络稳定的场所场景中,若存在网络信号不稳定(频繁断网)的情况,您可以使用百度提供的离线合成sdk。

发音

在线时支持9种发音

  • 普通音库:普通女声 普通男声 特别男声 情感男声<度逍遥> 情感儿童声<度丫丫>
  • 精品音库: 度小宇 度小美 度逍遥 度丫丫

合成效果

通过对PARAM_SPEAKER(发音人)、PARAM_PITCH(音调)、PARAM_VOLUME(音量)和PARAM_SPEED(语速)参数的调整,可以获得不同的发声效果,更好满足您业务场景中的播报需求。 如音调越高,声音听起来会显得越年轻。

合成和播放

synthesize 方法直接合成。不播放。 开发者可以通过onSynthesizeDataArrived 获取音频数据,自行处理。

speak 方法先合成为音频,之后立即播放。等同调用 synthesize方法,再调用系统播放器。

在SDK内部中有队列,可以不断调用synthesize或者speak方法,将合成的文本添加到队列中。

其它事项

  1. 每次合成的文本不超过120 GBK字节,即60个汉字或者字母数字。
  2. 合成的耗时同文本长度成正比。对合成速度敏感的话,请自行按照标点切分成短句。
  3. 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。