前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >文本图表全搞定!通义实验室发布多代理RAG框架ViDoRAG

文本图表全搞定!通义实验室发布多代理RAG框架ViDoRAG

作者头像
AI研思录
发布2025-03-04 21:52:43
发布2025-03-04 21:52:43
650
举报
文章被收录于专栏:AI研思录AI研思录

点击关注我们,🚀这里是AI技术、产品、工程与学术的交汇点!我们致力于为您带来最前沿的AI资讯、最深入的技术解析、最实用的产品应用以及最具启发性的学术成果。

检索增强生成(Retrieval-Augmented Generation, RAG)通过使大模型(LMs)能够利用外部知识解决问题来增强其能力。随着信息表达形式的日益多样化,我们经常需要处理包含 图表、曲线图、表格等视觉元素的丰富文档。这些视觉元素使信息更易理解,并广泛应用于教育、金融、法律等领域。

从视觉丰富的文档中理解信息仍然是传统检索增强生成(Retrieval-Augmented Generation, RAG)方法面临的一个重要挑战。纯视觉检索方法难以有效整合文本和视觉特征,以往的方法通常分配不足的推理 token,限制了其有效性。

为了弥补这一差距,阿里巴巴通义实验室、中国科学技术大学和上海交通大学 联合发表的最新研究成果——ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents):专为跨视觉文档的复杂推理而设计的新型多代理 RAG 框架,首个面向大规模文档集的问答数据集,其每个查询对应约6,000张图像库中的唯一答案。通过创新的 多智能体框架动态迭代推理机制,为视觉丰富文档检索增强生成(RAG)提供有效解决方案。

为系统化评估检索增强生成(RAG)模型在视觉文档处理中的综合性能,该团队创新性构建了 ViDoSeek 评估基准。涵盖文本、数据可视化图表、结构化表格及复杂版式设计等四大文档类型,构建包含 1200 个精细标注样本的评估库。每个查询均对应大规模文档集合中唯一的跨模态答案锚点,并配备精确的源文档定位信息,高度还原真实应用场景。

多模态混合检索

多模态混合检索是一种整合文本与视觉特征的检索技术,主要用于处理图文混排、图表密集的视觉文档。其核心挑战在于:单一模态检索(如仅文本或仅图像)难以捕捉跨模态关联信息,且传统固定参数(如固定检索数量K)无法适应不同查询的模态需求变化,导致检索冗余或遗漏关键内容。

为了解决这一问题,ViDoRAG 提出了 多模态混合检索策略。这一策略的核心在于将视觉和文本特征进行有机结合,通过 高斯混合模型(GMM)动态调整检索结果的分布。具体来说,ViDoRAG首先分别通过视觉和文本管道进行信息检索,然后利用GMM模型对检索结果进行融合。

GMM模型能够根据查询与文档集合之间的相似度分布,自动确定每个模态的最优检索数量。这种方法不仅提高了检索的准确性,还减少了不必要的计算,使得模型能够更高效地处理大规模文档集合。

多代理迭代推理生成

在推理生成阶段,引入由 探索代理(Seeker Agent)、审查代理(Inspector Agent) 和 应答代理(Answer Agent)组成的多代理框架。

探索代理负责从粗略的视图中选择相关的图片,基于查询和审查代理的反馈,逐步筛选出最相关的图片。审查代理对探索者选择的图片进行详细审查,提供反馈或初步答案。如果当前信息足以回答查询,审查代理提供一个草稿答案和相关图片的引用;如果信息不足,审查代理则会指出需要进一步获取的信息,并保留相关图片以供后续审查。应答代理在最终步骤中,验证审查代理草稿答案的一致性,并根据参考图片和草稿答案,给出最终答案。

论文地址:https://arxiv.org/abs/2502.18017 Github地址:https://github.com/Alibaba-NLP/ViDoRAG 数据集地址:https://huggingface.co/datasets/autumncc/ViDoSeek

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 多模态混合检索
  • 多代理迭代推理生成
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档