资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

简介及运行环境

简介

本文档是百度呼叫中心语音MRCP的用户指南。

本程序做为MRCP Server端,集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力,用户可分别单独使用某一种或同时使用。

接入步骤

开发环境

  • 开发环境依赖: - Linux 64位 centos 6u3、centos 7+版本

    	- gcc: 8.2以上版本libc,CXX11。程序自带compiler.tar.gz压缩包
  • 并发受机器内存、核数等性能影响。 - 参考:4核8G内存,并发数为20。

音频格式

要求项 取值要求
采样率 8KHz
采样精度 16bits
声道 单声道
  • 音频内容为:清晰的真人发音,无背景音或其它噪音,日常用语。
  • 开发者Mrcp Client端发送的音频格式通过sip协议交互约定,目前mrcp server支持的音频格式有: PCMU PCMA L16/96/8000

语言及模型支持

支持中文普通话

发音

目前仅支持一位发音人

上一篇
音频文件转写
下一篇
调用流程