开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    简介

    简介

    本文档是百度在线语音合成Andriod SDK的用户指南(无离线合成功能,需要离线合成请使用离线合成SDK)。

    在线合成SDK下载

    在线语音合成SDK的策略是边下载边播放。区别于Rest Api一次性下载整个录音文件。

    语言

    目前只有中英文混合这一种语言,优先中文发音。

    示例:

    • ” I bought 3 books” 发音 “three”;
    • “我们买了 3 books” 发音“三”

    标注发音

    该功能适用于多音字或特殊名词的发音设置,仅在线合成适用。

    如: 重(chong2)报集团, “重”发音 chong第二声

    在线和离线判别

    在线合成SDK仅支持纯在线模式,如需使用离线模式请选使用离线合成sdk

    纯在线模式 : WIFI 4G 3G 2G 都会尝试连接百度服务器。如果百度服务器失败,那么合成失败。

    建议使用场景: 使用WIFI或者网络稳定的场所场景中,若存在网络信号不稳定(频繁断网)的情况,您可以使用百度提供的离线合成sdk。

    发音

    在线时支持9种发音

    • 普通音库:普通女声 普通男声 特别男声 情感男声<度逍遥> 情感儿童声<度丫丫>
    • 精品音库: 度小宇 度小美 度逍遥 度丫丫

    合成效果

    通过对PARAM_SPEAKER(发音人)、PARAM_PITCH(音调)、PARAM_VOLUME(音量)和PARAM_SPEED(语速)参数的调整,可以获得不同的发声效果,更好满足您业务场景中的播报需求。 如音调越高,声音听起来会显得越年轻。

    合成和播放

    synthesize 方法直接合成。不播放。 开发者可以通过onSynthesizeDataArrived 获取音频数据,自行处理。

    speak 方法先合成为音频,之后立即播放。等同调用 synthesize方法,再调用系统播放器。

    在SDK内部中有队列,可以不断调用synthesize或者speak方法,将合成的文本添加到队列中。

    其它事项

    1. 每次合成的文本不超过120 GBK字节,即60个汉字或者字母数字。
    2. 合成的耗时同文本长度成正比。对合成速度敏感的话,请自行按照标点切分成短句。
    3. 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
    上一篇
    在线合成API接口
    下一篇
    集成指南