资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

多模态RAG:图文问答助手

本文介绍了如何利用知识库的多模态信息处理,整合多模态信息并实现跨模态内容检索,从而生成更准确、更丰富的回答。文章以千帆AppBuilder平台问答助手为例,演示了多模态RAG问答助手的实现过程,并与传统基于OCR后再进行RAG的问答方法进行了对比。

能力介绍

多模态检索增强生成(Multimodal Retrieval-Augmented Generation)是一种新兴的架构范式,使AI模型能够综合利用文本、图像、视频等多种类型的数据进行交互与推理。 通过整合图像和音频等多模态知识源,扩展了传统RAG框架,为内容生成提供更加丰富的上下文信息。这种整合不仅提高了生成输出的精确度,还利用多模态线索增强了MLLMs(Multi-modal Large Language Models)的推理能力。提高了视觉叙事的连贯性,并确保多模态摘要内容与事实保持一致。 处理流程:

  • 离线处理阶段:系统首先对多模态文档进行分割,随后通过多模态Embedding技术将不同模态(如文本、图像等)映射到统一的语义空间中,实现跨模态的语义对齐。
  • 在线检索阶段:借助多模态Embedding模型,将用户查询嵌入为向量表示,从而召回与之最相关的文档片段,支持图文混合检索。系统还支持自定义检索策略,进一步提升了上下文筛选的准确性与可靠性。

功能优势

能够整合图像、音频、结构化数据等多种模态的信息,极大地丰富了上下文来源。 利用跨模态线索进行联合推理(例如,根据图片内容回答问题,或根据文本来解释图表),从而生成更准确、更丰富的回答。

行业 场景 传统 RAG 症结 多模态 RAG 优势
政务 面向执法人员的智能问询助理。 处理证据图像有限,证据解读能力弱。 输入现场照片、证据截屏、文档扫描等,多模态 RAG 可以召回相关案件中的相似图像证据与文字说明,帮助生成“问询方案”或“证据比对报告”,支持图文并茂的案情推理与查证。
制造 面向经销商的咨询助手。 缺乏视觉参考,无法解决因语义差异导致的信息匹配问题,文字描述与实际屏幕或产品照片可能差别大,检索结果不准确。 输入产品照片、设备状态截屏、文档样表等,多模态 RAG 能从历史案件中检索类似产品问题的图文解决方案,生成带图片解释的操作步骤或维修建议。
制造 面向研发人员的咨询助手。 缺少图像理解能力,研发问题常涉及设计图、原理图、错误截图等,仅靠文本检索会丢失关键信息。传统 RAG 无法检索或理解图中结构、布局及标注。 输入上传设计图、流程图、故障截图、接口文档等多种形式材料,多模态 RAG 能从历史案件资料中召回信息,为当前研发问题生成问询方案或调试建议。

最佳实践:千帆Appbuilder平台知识问答助手

应用场景 为什么传统RAG解决不了? 多模态RAG的优势

用户想快速了解千帆 AppBuilder 的平台功能与框架。知识库中包含 AppBuilder 平台介绍、RAG 概述等信息,其中既有文字说明,也有架构框架图、功能示意图等图片资料。部分信息以流程图说明,无文字描述。

需要解答的问题示例:
说明知识库流程图里包含哪些步骤,并解释它们的执行顺序。

附件: 知识库文档

  • 只能看到字,看不懂图:OCR 只能提取图片文字,但无法理解图形元素、布局和逻辑关系,丢失关键语义。
  • 回答缺乏直观性:用户提问往往涉及整体结构,例如“某模块在框架图位置、与谁相连”,传统 RAG 只能返回文字。
  • 上下文割裂:文字说明 + 配图常常组合出现,传统 RAG 不能融合,容易导致遗漏或混淆。
  • 读懂图 + 文:能识别文字,还能理解图像语义、关系和结构,如模块划分、箭头指向、组件关联。
  • 答案更直观:检索结合图文,回答时输出图文混排,让说明和图示对应。
  • 上下文融合:文字说明与图表对齐,避免割裂,保证答案完整连贯。

操作步骤

Step 1: 上传多模态数据文档

  • 创建知识库 - 配置选择 中,勾选 文档图片解析,并选择 图片理解(VLM)策略。 完整创建知识库流程可查看创建知识库
  • 1.png
  • 图片文字识别(OCR)侧重于把图中的字符转为文本,但无法理解图表、示意或场景语义;而图片理解(VLM)不仅能识别文字,还能理解图像整体语义、结构关系并结合语言推理。因此推荐选择图片理解(VLM)。

Step 2: 命中测试

  • 知识库创建后,您可在命中测试页面输入查询Query(图搜图功能敬请期待)。系统将返回与之相关的知识库图片或图文混排内容。展示效果如下:
多模态 RAG 示例 传统 RAG 示例

效果对比

  • 传统 RAG:召回的文本切片主要是通用段落(如场景举例、RAG 概述等),虽然也带了图,但是没有精准定位。
  • 多模态 RAG:检索召回的图片直接对应提问“包含哪些步骤、执行顺序”。定位更精准,节约了输入大模型的消耗tokens。

Step 3: 智能体调用

您可在以下四类 Agent 中调用已创建的多模态知识库,实现图文混排的智能回答或内容生成:

Agent 类型 多模态 RAG 示例 传统 RAG 示例 效果
自主规划 Agent 自主规划 Agent 调用多模态 RAG 时,既能检索文字,又能同时召回并理解文档中的图片内容,并正确理解其中的结构和位置关系。

传统 RAG 只能提取文字片段,容易误判模块所在位置(如将粗排与重排序错放到「知识解析 & 索引构建模块」),无法理解图片信息,容易遗漏关键信息。

完整流程参考自主规划Agent
工作流 Agent 大模型节点引用 content 字段后,可输出图文混排内容。

- 在工作流 Agent 下,传统 RAG 没有对图片进行理解,输出了其他相关信息;而 多模态 RAG 能理解图片的结构和含义,能更好地支持需要直观理解的任务。

完整流程参考工作流Agent
多智能体协同 Agent 多智能体协同 Agent 通过调用自主规划 Agent,实现图文混排内容输出。

多模态 RAG:能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性
传统 RAG:只能解析文字,无法理解结构,容易错漏关键信息

完整流程参考多智能体协同Agent
交互式写作 Agent 交互式写作场景下,多模态 RAG 能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性。

传统 RAG 无法调用或理解图像内部结构,容易遗漏关键信息。

完整流程参考交互式写作Agent
  • 使用多模态RAG进行知识库问答,能够更清晰地描述流程图中的处理过程,而在传统OCR后进行检索问答的方法中,这部分内容往往容易出现事实性错误。
  • 例如,千帆AB的知识增强主要体现在知识解析与索引构建阶段,而非问答生成阶段。多模态RAG很好的进行理解,但是传统RAG回答有误。
上一篇
航司行李规格查询助手
下一篇
图谱增强RAG:医疗诊断助手