【邀测】开口即真人！欢迎体验端到端语音语言大模型

控制台

发布日期：2025-07-15 03:09浏览量：2817次

近日，百度发布业界首个基于Cross-Attention的端到端语音语言大模型，正式开启语音交互新纪元！该模型不仅能够精准识别包括重庆、广西、河南、广东、山东等地在内的多地方言，还能实现情感饱满、自然流畅的对话交流，让用户仿佛在与真人对话。目前API、在线SDK均已支持，详情可点击：https://ai.baidu.com/tech/speech/chatbot

亮点解析

超拟人交互：智能感知原始语音携带的情绪、语气等信息，快速理解人物设定与情境要求，通过悄声、快速、慢速等语气效果，实现情绪丝滑切换，打造高质量语音交互服务
超精准查询：集成38个垂类助手功能，能够高效处理天气、日历等查询需求；强大的信息检索和指令跟随能力，对于时效性和非时效性问题，均能给出精准且实时的回答
超低响应时延：对话过程中融合RTC低延迟AEC处理以及对齐技术，响应时延低至1秒，让对话无停顿、交流无障碍，为用户带来超自然交互体验
超低调用成本：低成本高速推理，在满足语音交互硬延迟等要求的同时，极大降低使用成本

核心创新

业界首个基于Cross-Attention的语音语言大模型：百度首次将Cross-Attention机制应用于语音语言大模型中，实现了语音与文本之间的深度跨模态融合。
高效的全查询注意力EALLQA技术：采用隐式RNN两级位置编码，训练时在128空间上的MHA，推理在模型各层共享的512空间上的MQA，将KV cache降低到几十分之一，进一步提升模型的推理效率。
Encoder与语音识别结合：实现对用户question的极速理解，计算量显著降低10倍。
Decoder与语音合成结合：依赖大模型强Context理解能力，直接生成语音合成所需的文本、情感、风格以及TN、多音字、韵律等信息。
流式逐字的情感语音合成：业内领先的流式逐字语音合成，结合大模型实现多情感、超自然合成效果，同时语音语言大模型与合成系统一体化输出，打造极致性价比。