资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

在线合成REST-API-Node.js-SDK

快速入门

安装语音合成 Node SDK

语音合成 Node SDK目录结构

├── src
│  ├── auth                                //授权相关类
│  ├── http                                //Http通信相关类
│  ├── client                              //公用类
│  ├── util                                //工具类
│  └── const                               //常量类
├── AipSpeech.js                      //语音合成交互类
├── index.js                               //入口文件
└── package.json                           //npm包描述文件

支持 node 版本 4.0+

查看源码

Nodejs SDK代码已开源,您可以查看代码、或者在License范围内修改和编译SDK以适配您的环境。

github链接:https://github.com/Baidu-AIP/nodejs-sdk

直接使用node开发包步骤如下

1.在官方网站下载识别、合成 RESTful API node SDK压缩包。

2.将下载的aip-node-sdk-version.zip解压后,复制到工程文件夹中。

3.进入目录,运行npm install安装sdk依赖库

4.把目录当做模块依赖

其中,version为版本号,添加完成后,用户就可以在工程中使用语音合成 Node SDK。

直接使用npm安装依赖

npm install baidu-aip-sdk

6.调用示例可以参考 https://github.com/Baidu-AIP/sdk-demo

新建AipSpeechClient

AipSpeechClient是语音合成的node客户端,为使用语音合成的开发人员提供了一系列的交互方法。

用户可以参考如下代码新建一个AipSpeechClient:

var AipSpeechClient = require("baidu-aip-sdk").speech;

// 设置APPID/AK/SK
var APP_ID = "你的 App ID";
var API_KEY = "你的 Api Key";
var SECRET_KEY = "你的 Secret Key";

// 新建一个对象,建议只保存一个对象调用服务接口
var client = new AipSpeechClient(APP_ID, API_KEY, SECRET_KEY);

为了使开发者更灵活的控制请求,模块提供了设置全局参数和全局请求拦截器的方法;本库发送网络请求依赖的是request模块,因此参数格式与request模块的参数相同

更多参数细节您可以参考request官方参数文档

var HttpClient = require("baidu-aip-sdk").HttpClient;

// 设置request库的一些参数,例如代理服务地址,超时时间等
// request参数请参考 https://github.com/request/request#requestoptions-callback
HttpClient.setRequestOptions({timeout: 5000});

// 也可以设置拦截每次请求(设置拦截后,调用的setRequestOptions设置的参数将不生效),
// 可以按需修改request参数(无论是否修改,必须返回函数调用参数)
// request参数请参考 https://github.com/request/request#requestoptions-callback
HttpClient.setRequestInterceptor(function(requestOptions) {
    // 查看参数
    console.log(requestOptions)
    // 修改参数
    requestOptions.timeout = 5000;
    // 返回参数
    return requestOptions;
});

在上面代码中,常量APP_ID在百度云控制台中创建,常量API_KEYSECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

接口说明

语音合成

接口描述

基于该接口,开发者可以轻松的获取语音合成能力

请求说明

  • 合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。不可文本长度超过限制

举例,要把一段文字合成为语音文件:

// 语音合成
var fs = require('fs');

client.text2audio('百度语音合成测试').then(function(result) {
    if (result.data) {
        fs.writeFileSync('tts.mpVoice.mp3', result.data);
    } else {
        // 服务发生错误
        console.log(result)
    }
}, function(e) {
    // 发生网络错误
    console.log(e)
});

// 语音合成, 附带可选参数
client.text2audio('百度语音合成测试', {spd: 0, per: 4}).then(function(result) {
    if (result.data) {
        fs.writeFileSync('tts.mpVoice.mp3', result.data);
    } else {
        // 服务发生错误
        console.log(result)
    }
}, function(e) {
    // 发生网络错误
    console.log(e)
});

接口函数说明:

// 语音合成
// options为可选参数
var options = {spd: 0, per: 4};
client.text2audio(tex, options);
参数 类型 描述 是否必须
tex String 合成的文本,文本长度必须小于1024GBK字节,建议每次请求文本不超过120字节,约为60个汉字或者字母数字。
请注意计费统计依据:120个GBK字节以内(含120个)记为1次计费调用;每超过120个GBK字节则多记1次计费调用。
cuid String 用户唯一标识,用来区分用户,
填写机器 MAC 地址或 IMEI 码,长度为60以内
spd String 语速,取值0-9,默认为5中语速
pit String 音调,取值0-9,默认为5中语调
vol String 音量,取值0-15,默认为5中音量
per String 普通发音人选择:度小美=0(默认),度小宇=1,,度逍遥(基础)=3,度丫丫=4
per String 精品发音人选择:度逍遥(精品)=5003,度小鹿=5118,度博文=106,度小童=110,度小萌=111,度米朵=103,度小娇=5

tex字段2次urlencode

由于urlencode有两个标准 RFC 1738和RFC 3986. 百度为了更好地兼容,支持1次及2次urlencode, 其中2次urlencode可以覆盖全部的特殊字符。SDK内部加了1次urlencode,因而推荐传递tex 参数时再做1次urlencode编码。

测试用例:“1+1=2”。 依靠SDK内的1次urlencode时,“+”可能会没有合成。


返回样例

如果合成成功,返回结果为对象,其中data字段为音频文件的Buffer对象。

如果返回失败,则返回以下格式的错误对象:

// 失败返回
{
  "err_no":500,
  "err_msg":"notsupport.",
  "sn":"abcdefgh",
  "idx":1
}
上一篇
在线合成REST-API-C#-SDK
下一篇
在线合成REST-API-C++-SDK