点击关注我们,🚀这里是AI技术、产品、工程与学术的交汇点!我们致力于为您带来最前沿的AI资讯、最深入的技术解析、最实用的产品应用以及最具启发性的学术成果。
检索增强生成(Retrieval-Augmented Generation, RAG)通过使大模型(LMs)能够利用外部知识解决问题来增强其能力。随着信息表达形式的日益多样化,我们经常需要处理包含 图表、曲线图、表格等视觉元素的丰富文档。这些视觉元素使信息更易理解,并广泛应用于教育、金融、法律等领域。
从视觉丰富的文档中理解信息仍然是传统检索增强生成(Retrieval-Augmented Generation, RAG)方法面临的一个重要挑战。纯视觉检索方法难以有效整合文本和视觉特征,以往的方法通常分配不足的推理 token,限制了其有效性。
为了弥补这一差距,阿里巴巴通义实验室、中国科学技术大学和上海交通大学 联合发表的最新研究成果——ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents):专为跨视觉文档的复杂推理而设计的新型多代理 RAG 框架,首个面向大规模文档集的问答数据集,其每个查询对应约6,000张图像库中的唯一答案。通过创新的 多智能体框架 和 动态迭代推理机制,为视觉丰富文档检索增强生成(RAG)提供有效解决方案。
为系统化评估检索增强生成(RAG)模型在视觉文档处理中的综合性能,该团队创新性构建了 ViDoSeek 评估基准。涵盖文本、数据可视化图表、结构化表格及复杂版式设计等四大文档类型,构建包含 1200 个精细标注样本的评估库。每个查询均对应大规模文档集合中唯一的跨模态答案锚点,并配备精确的源文档定位信息,高度还原真实应用场景。
多模态混合检索是一种整合文本与视觉特征的检索技术,主要用于处理图文混排、图表密集的视觉文档。其核心挑战在于:单一模态检索(如仅文本或仅图像)难以捕捉跨模态关联信息,且传统固定参数(如固定检索数量K)无法适应不同查询的模态需求变化,导致检索冗余或遗漏关键内容。
为了解决这一问题,ViDoRAG 提出了 多模态混合检索策略。这一策略的核心在于将视觉和文本特征进行有机结合,通过 高斯混合模型(GMM)动态调整检索结果的分布。具体来说,ViDoRAG首先分别通过视觉和文本管道进行信息检索,然后利用GMM模型对检索结果进行融合。
GMM模型能够根据查询与文档集合之间的相似度分布,自动确定每个模态的最优检索数量。这种方法不仅提高了检索的准确性,还减少了不必要的计算,使得模型能够更高效地处理大规模文档集合。
在推理生成阶段,引入由 探索代理(Seeker Agent)、审查代理(Inspector Agent) 和 应答代理(Answer Agent)组成的多代理框架。
探索代理负责从粗略的视图中选择相关的图片,基于查询和审查代理的反馈,逐步筛选出最相关的图片。审查代理对探索者选择的图片进行详细审查,提供反馈或初步答案。如果当前信息足以回答查询,审查代理提供一个草稿答案和相关图片的引用;如果信息不足,审查代理则会指出需要进一步获取的信息,并保留相关图片以供后续审查。应答代理在最终步骤中,验证审查代理草稿答案的一致性,并根据参考图片和草稿答案,给出最终答案。
论文地址:https://arxiv.org/abs/2502.18017 Github地址:https://github.com/Alibaba-NLP/ViDoRAG 数据集地址:https://huggingface.co/datasets/autumncc/ViDoSeek