资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

呼叫中心语音-在线合成

接口描述及运行环境

本文档是百度呼叫中心语音MRCP的用户指南。

本程序做为MRCP Server端,集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力,用户可分别单独使用某一种或同时使用。

接入步骤

开发环境

  • 开发环境依赖:

    	- Linux 64位 centos 6u3、centos 7+版本
    
    	- gcc: 8.2以上版本libc,CXX11。程序自带compiler.tar.gz压缩包
  • 并发受机器内存、核数等性能影响。

    	- 参考:4核8G内存,并发数为20。

音频格式

要求项 取值要求
采样率 8KHz
采样精度 16bits
声道 单声道
  • 音频内容为:清晰的真人发音,无背景音或其它噪音,日常用语。
  • 开发者Mrcp Client端发送的音频格式通过sip协议交互约定,目前mrcp server支持的音频格式有: PCMU PCMA L16/96/8000

语言及模型支持

支持中文普通话

发音人

目前仅支持一位发音人

调用流程

Mrcp下载与目录

点击呼叫中心语音解决方案MrcpServer完成Mrcp Server下载;

目录结构

${SERVER_ROOT}
|--- README  	// 说明文件
|--- bootstrap.sh 	// 环境初始化
|--- compiler.tar.gz 	// gcc-8.2编译器lib库
|--- mrcp-server 	// 主程序模块
	|--- audio		// 音频保存目录
	|--- bin    	// 服务可执行程序
		|--- unimrcpserver_control // 启动脚本
	|--- conf 		// 配置文件
		|--- unimrcpserver.xml 	// 可执行程序框架配置项
		|--- unimrcpserver_control.conf // 启动配置项
		|--- mrcp-asr.conf 		// 识别插件配置项
		|--- mrcp-proxy.conf 	// 合成插件配置项
		|--- comlog.conf 		// 日志配置项
	|--- data  		// 资源文件
	|--- lib   		// 依赖库
	|--- log   		// 日志目录
	|--- plugin  	// 插件目录

鉴权与IP参数配置

用户首先需进行相关配置以启动程序。一般地,配置采用默认值即可,需要用户修改的主要有:

  • 在主程序配置文件 ${SERVER_ROOT}/mrcp-server/conf/unimrcpserver.xml 中配置本程序IP,具体位置:unimrcpserver->properties->ip,可选用多种方式,只能同时使用一种:
	* type="auto",由程序自动获取机器IP。默认配置,用户无需修改。
	* type="iface",填写网口名称,较少使用。
	* 直接手动填写IP,如:<ip>10.10.0.1</ip>,可以使用。
  • 语音识别配置conf/mrcp-asr.conf中更改AUTH_APPID和AUTH_APPKEY为从百度官方获取的APPID和API Key的值。
  • 语音合成配置conf/mrcp-proxy.conf中更改AUTH_APPID和AUTH_APPKEY为从百度官方获取的APPID和API Key的值。
  • 启动配置文件 ${SERVER_ROOT}/mrcp-server/conf/unimrcpserver_control.conf,用于监测相应IP和端口,判断程序是否启动成功。搜索到_check_cmd_pro="./bin/check 127.0.0.1 1544"的位置:
	* 如果主程序配置IP采用默认type="auto"方式,则该处"127.0.0.1"不用修改。
	* 如果主程序配置IP使用手动填写IP方式,则该处的IP值修改为与它相同的值。

详细的配置说明见模块内README文件-${SERVER_ROOT}/mrcp-server/README

服务启动

  1. 初次下载MRCP server安装包,需要在 ${SERVER_ROOT}/ 目录下,以 root 权限执行 bootstrap.sh 脚本,以完成百度自带gcc8.2环境配置。
  2. 程序调试阶段,建议在程序目录${SERVER_ROOT}/mrcp-server/下,手动使用命令"./bin/unimrcpserver -r . &"启动程序,方便查看输出、定位问题。使用netstat -nlp | grep unimrcp,查看IP和端口5060/1544/1554,看是否启动成功。如果公司有防火墙限制,请记得将这三个端口打开。
  3. 使用启动脚本,以守护进程形式启动程序。在生产环境使用时,建议使用该方式:

    • 启动:在${SERVER_ROOT}/mrcp-server目录执行 ./bin/unimrcpserver_control start
    • 停止:在${SERVER_ROOT}/mrcp-server目录执行 ./bin/unimrcpserver_control stop
    • 重启:在${SERVER_ROOT}/mrcp-server目录执行 ./bin/unimrcpserver_control restart
  4. 进行start前确保系统无mrcp进程;进行stop/restart时确保系统有mrcp进程。如果不行,通过 ps aux | grep mrcp 尝试将所有mrcp相关的进程kill掉,重新 start

请求说明

如需使用语音合成能力,则需在下载的Mrcp Server中对合成配置文件进行参数更改 {SERVER_ROOT}/mrcp-server/conf/mrcp-proxy.conf。确保AUTH_APPID和AUTH_APPKEY填写正确。

  • AUDIO_CONTROLLER_ADDR,百度上游服务地址(默认值当前有效)。
  • AUTH_APPID和AUTH_APPKEY,从百度官方获取的APPID和API Key的值。
  • NEED_SAVE_AUDIO,是否保存合成语音,默认1为保存。
  • TR_ENABLE,默认为1表示开启合成文本正则替换功能,详见./data/rules.dat,注意,正则替换原则是按配置从上到下逐条进行匹配,因此建议将泛化能力强的正则放在上面,配置不当下面的正则会使上面的失效,请用户自行体验。不需要该功能可以关闭。
  • 目前配置中,仅支持一种精品发音人:fduxiaowen,用户呼叫软件在进行合成请求时,发音人参数可以不填写,否则,请填写fduxiaowen

合成效果

在mrcp-proxy.conf中可以通过修改参数更改效果。通过对VOICE_PITCH(音调)、VOICE_VOLUME(音量)和VOICE_SPEED(语速)参数的调整,可以获得不同的发声效果,更好满足您业务场景中的播报需求。

如音调稍高,声音听起来会显得年轻。

程序验证

首先,需要将程序lib库加入环境变量中,export LD_LIBRARY_PATH=${SERVER_ROOT}/mrcp-server/lib:$LD_LIBRARY_PATH,注意将${SERVER_ROOT}修改为程序真实路径。

在主程序启动后,可使用自带的测试工具进行验证。conf/client-profiles/unimrcp.xml是测试工具的配置文件,需要将其中的unimrcpclient->settings->sip-settings->server-ip的值修改为主程序配置的IP,端口设置为主程序端口,如5060。

切换到 ${SERVER_ROOT}/mrcp-server/bin 目录下。

  1. 验证语音合成正确性,则执行 ./unimrcpclient,输入 run synth,等待一段时间,确保合成结束。合成的是 mrcp-server/data 目录下的speak.xml文本,查看audio目录下是否有相应音频,如有错误,log目录下日志mrcp_debug.log可以看到相关信息。

注意,在输入识别或合成命令后,等待一段时间,确保识别或合成结束,再使用 quit 退出。使用help查看帮助。

返回说明

如果配置文件设置了NEED_SAVE_AUDIO,音频会在audio目录下保存,名称为{sn}.pcm,当前请求的sn可在日志文件mrcp_debug.log里查看。

上一篇
音色列表
下一篇
SDK文档