开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
语音技术

    简介及运行环境

    简介

    本文档是百度呼叫中心语音MRCP的用户指南。

    本程序做为MRCP Server端,集成了呼叫中心8K采样率语音识别(ASR)和呼叫中心专属发音人语音合成(TTS)两种能力,用户可分别单独使用某一种或同时使用。

    接入步骤

    开发环境

    • 开发环境依赖: - Linux 64位 centos 6u3、centos 7+版本

      	- gcc: 8.2以上版本libc,CXX11。程序自带compiler.tar.gz压缩包
    • 并发受机器内存、核数等性能影响。 - 参考:4核8G内存,并发数为20。

    音频格式

    要求项 取值要求
    采样率 8KHz
    采样精度 16bits
    声道 单声道
    • 音频内容为:清晰的真人发音,无背景音或其它噪音,日常用语。
    • 开发者Mrcp Client端发送的音频格式通过sip协议交互约定,目前mrcp server支持的音频格式有: PCMU PCMA L16/96/8000

    语言及模型支持

    支持中文普通话

    发音

    目前仅支持一位发音人

    上一篇
    音频文件转写
    下一篇
    调用流程