多模态RAG：图文问答助手

更新时间：2025-09-19

本文介绍了如何利用知识库的多模态信息处理，整合多模态信息并实现跨模态内容检索，从而生成更准确、更丰富的回答。文章以千帆AppBuilder平台问答助手为例，演示了多模态RAG问答助手的实现过程，并与传统基于OCR后再进行RAG的问答方法进行了对比。

能力介绍

多模态检索增强生成（Multimodal Retrieval-Augmented Generation）是一种新兴的架构范式，使AI模型能够综合利用文本、图像、视频等多种类型的数据进行交互与推理。通过整合图像和音频等多模态知识源，扩展了传统RAG框架，为内容生成提供更加丰富的上下文信息。这种整合不仅提高了生成输出的精确度，还利用多模态线索增强了MLLMs（Multi-modal Large Language Models）的推理能力。提高了视觉叙事的连贯性，并确保多模态摘要内容与事实保持一致。处理流程：

离线处理阶段：系统首先对多模态文档进行分割，随后通过多模态Embedding技术将不同模态（如文本、图像等）映射到统一的语义空间中，实现跨模态的语义对齐。
在线检索阶段：借助多模态Embedding模型，将用户查询嵌入为向量表示，从而召回与之最相关的文档片段，支持图文混合检索。系统还支持自定义检索策略，进一步提升了上下文筛选的准确性与可靠性。

功能优势

能够整合图像、音频、结构化数据等多种模态的信息，极大地丰富了上下文来源。利用跨模态线索进行联合推理（例如，根据图片内容回答问题，或根据文本来解释图表），从而生成更准确、更丰富的回答。

行业	场景	传统 RAG 症结	多模态 RAG 优势
政务	面向执法人员的智能问询助理。	处理证据图像有限，证据解读能力弱。	输入现场照片、证据截屏、文档扫描等，多模态 RAG 可以召回相关案件中的相似图像证据与文字说明，帮助生成“问询方案”或“证据比对报告”，支持图文并茂的案情推理与查证。
制造	面向经销商的咨询助手。	缺乏视觉参考，无法解决因语义差异导致的信息匹配问题，文字描述与实际屏幕或产品照片可能差别大，检索结果不准确。	输入产品照片、设备状态截屏、文档样表等，多模态 RAG 能从历史案件中检索类似产品问题的图文解决方案，生成带图片解释的操作步骤或维修建议。
制造	面向研发人员的咨询助手。	缺少图像理解能力，研发问题常涉及设计图、原理图、错误截图等，仅靠文本检索会丢失关键信息。传统 RAG 无法检索或理解图中结构、布局及标注。	输入上传设计图、流程图、故障截图、接口文档等多种形式材料，多模态 RAG 能从历史案件资料中召回信息，为当前研发问题生成问询方案或调试建议。

最佳实践：千帆Appbuilder平台知识问答助手

应用场景	为什么传统RAG解决不了？	多模态RAG的优势
用户想快速了解千帆 AppBuilder 的平台功能与框架。知识库中包含 AppBuilder 平台介绍、RAG 概述等信息，其中既有文字说明，也有架构框架图、功能示意图等图片资料。部分信息以流程图说明，无文字描述。需要解答的问题示例：说明知识库流程图里包含哪些步骤，并解释它们的执行顺序。附件：知识库文档	只能看到字，看不懂图：OCR 只能提取图片文字，但无法理解图形元素、布局和逻辑关系，丢失关键语义。回答缺乏直观性：用户提问往往涉及整体结构，例如“某模块在框架图位置、与谁相连”，传统 RAG 只能返回文字。上下文割裂：文字说明 + 配图常常组合出现，传统 RAG 不能融合，容易导致遗漏或混淆。	读懂图 + 文：能识别文字，还能理解图像语义、关系和结构，如模块划分、箭头指向、组件关联。答案更直观：检索结合图文，回答时输出图文混排，让说明和图示对应。上下文融合：文字说明与图表对齐，避免割裂，保证答案完整连贯。

操作步骤

Step 1: 上传多模态数据文档

在 创建知识库 - 配置选择 中，勾选 文档图片解析，并选择 图片理解（VLM）策略。完整创建知识库流程可查看创建知识库。
图片文字识别（OCR）侧重于把图中的字符转为文本，但无法理解图表、示意或场景语义；而图片理解（VLM）不仅能识别文字，还能理解图像整体语义、结构关系并结合语言推理。因此推荐选择图片理解（VLM）。

Step 2: 命中测试

知识库创建后，您可在命中测试页面输入查询Query（图搜图功能敬请期待）。系统将返回与之相关的知识库图片或图文混排内容。展示效果如下：

多模态 RAG 示例	传统 RAG 示例

效果对比：

传统 RAG：召回的文本切片主要是通用段落（如场景举例、RAG 概述等），虽然也带了图，但是没有精准定位。
多模态 RAG：检索召回的图片直接对应提问“包含哪些步骤、执行顺序”。定位更精准，节约了输入大模型的消耗tokens。

Step 3: 智能体调用

您可在以下四类 Agent 中调用已创建的多模态知识库，实现图文混排的智能回答或内容生成：

Agent 类型	多模态 RAG 示例	传统 RAG 示例	效果
自主规划 Agent			自主规划 Agent 调用多模态 RAG 时，既能检索文字，又能同时召回并理解文档中的图片内容，并正确理解其中的结构和位置关系。传统 RAG 只能提取文字片段，容易误判模块所在位置（如将粗排与重排序错放到「知识解析 & 索引构建模块」），无法理解图片信息，容易遗漏关键信息。完整流程参考自主规划Agent。
工作流 Agent			大模型节点引用 `content` 字段后，可输出图文混排内容。 - 在工作流 Agent 下，传统 RAG 没有对图片进行理解，输出了其他相关信息；而多模态 RAG 能理解图片的结构和含义，能更好地支持需要直观理解的任务。完整流程参考工作流Agent。
多智能体协同 Agent			多智能体协同 Agent 通过调用自主规划 Agent，实现图文混排内容输出。多模态 RAG：能够输出框架图的正确分析，对图像中的各个模块全面讲解，显著增强召回效果和直观性传统 RAG：只能解析文字，无法理解结构，容易错漏关键信息完整流程参考多智能体协同Agent。
交互式写作 Agent			交互式写作场景下，多模态 RAG 能够输出框架图的正确分析，对图像中的各个模块全面讲解，显著增强召回效果和直观性。传统 RAG 无法调用或理解图像内部结构，容易遗漏关键信息。完整流程参考交互式写作Agent。

使用多模态RAG进行知识库问答，能够更清晰地描述流程图中的处理过程，而在传统OCR后进行检索问答的方法中，这部分内容往往容易出现事实性错误。
例如，千帆AB的知识增强主要体现在知识解析与索引构建阶段，而非问答生成阶段。多模态RAG很好的进行理解，但是传统RAG回答有误。

航司行李规格查询助手

图谱增强RAG：医疗诊断助手