首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PDF通过新的RAG架构更容易进入GenAI

PDF通过新的RAG架构更容易进入GenAI

作者头像
云云众生s
发布于 2024-10-10 04:48:25
发布于 2024-10-10 04:48:25
1600
举报
文章被收录于专栏:云云众生s云云众生s

ColPali 简化并增强了从复杂、视觉丰富的文档中检索信息的能力,从而改变了检索增强型生成。

译自 PDFs Get an Easier Entry to GenAI via New RAG Architecture,作者 Bonnie Chase。

虽然一张图片胜过千言万语,但为 检索增强生成 (RAG) 工作流程准备视觉丰富的多模态文档(如 PDF)既耗时又容易出错。在医疗保健或金融服务等对准确性至关重要的行业,放射学报告或财务报表等文档通常包含提供宝贵上下文信息的图像或图表。虽然这些视觉丰富的元素通常被排除在 RAG 工作流程之外,但一种用于从视觉增强文档中检索信息的新方法将简化多模态文档准备,并改变 RAG 和生成式 AI (GenAI) 的潜力。

大多数检索系统主要关注基于文本的表示,而忽略了文档的视觉元素,例如图像、表格和布局。这种限制会降低检索效率,尤其是在这些视觉特征是理解文档内容的关键的情况下。

针对 PDF(或其他复杂格式)的典型现实世界 RAG 管道涉及以下步骤:

  1. 提取文本和元数据
  2. 光学字符识别 (OCR)
  3. 布局分析:提取表格、图表、饼图等。

在完成获取文本表示的处理步骤后,文本可以作为 检索系统的输入

这些处理步骤可能很耗时,并会影响检索质量,但 Contextualized Late Interaction over PaliGemma (ColPali) 是一种新的检索模型架构,专注于文档密集型环境中的 RAG,克服了这些挑战。这种新的检索方法直接将整个渲染后的文档(包括其视觉元素)嵌入到适合检索的向量表示中。

ColPali 如何改进文档检索

通过将文档视为视觉实体而不是文本,ColPali 为更准确、更具上下文感知的文档检索开辟了新的可能性,尤其适用于视觉丰富的內容。ColPali 通过以下方式代表了文档检索的进步:

  • 消除了对复杂预处理步骤的需求
  • 保留文档的视觉上下文
  • 能够更全面地理解文档
  • 简化 RAG 管道

通过绕过传统的文本提取和 OCR 流程,ColPali 不仅简化了检索过程,而且有可能提高 RAG 系统中检索信息的质量和相关性。

ColPali 的架构建立在两个关键概念之上:来自 视觉语言模型 (VLMs) 的上下文视觉嵌入和后期交互机制。

视觉嵌入

ColPali 使用 PaliGemma 模型,这些模型是 Google 为图像文本压缩等通用任务创建的轻量级 VLM。与传统的纯文本模型相比,VLM 具有独特的优势,因为它集成了 视觉和文本数据,使它们能够处理需要全面理解视觉上下文才能完成的复杂任务,例如解释图像、为视觉输入生成描述性文本以及根据视觉线索回答问题。

使用 PaliGemma,ColPali 可以直接从文档图像创建高质量的上下文嵌入,而无需进行文本提取、OCR 或布局分析等复杂步骤。这种简化的方法使索引更快、更容易,从而提高了文档检索的效率。检索到文档后,RAG 系统中的生成阶段可以专注于使用文本和视觉信息处理和总结最相关的文档。

该模型能够使用视觉元素和文本,从而能够更全面地理解文档内容。这种方法使 ColPali 能够找到传统纯文本方法可能遗漏的相关文档,尤其是在视觉信息至关重要的场合,例如包含图表或包含图表和图形的科学论文的财务报告。

后期交互机制

在检索阶段,交互 描述了通过比较文档的向量表示来评估文档与用户查询的相关性的过程。这种比较有助于系统将文档与查询的意图和内容匹配,从而获得更准确的搜索结果。

ColPali 利用后期交互,即在检索的最后阶段之前分别处理查询和文档。这种后期交互机制可以对图像网格单元向量表示与查询文本标记向量表示进行丰富的比较。通过在查询时执行这些比较,ColPali 避免了对图像和文本一起进行处理的繁重计算负载,从而优化了检索效率。这种方法加快了检索速度并降低了系统的处理要求,使其非常适合处理海量的文档集合。

展望未来

ColPali 架构为文档检索树立了新标准,提供了一个灵活的框架,可以适应新兴的 VLM。基准测试结果表明 ColPali 优于传统方法,标志着该领域范式转变。ColPali 为更加复杂且具备上下文感知功能的系统铺平了道路,这些系统通过将视觉信息有效集成到 RAG 管道中,革新了文档交互和理解。

有了 ColPali 和 Vespa,开发人员仅使用文档页面的可视化表示,即可为 PDF 等复杂文档格式构建一个完整的 RAG 管道。Vespa 的复杂张量框架和计算引擎无缝容纳 ColPali 嵌入,以便通过 Vespa 排名表达式实现后期交互评分。

您可以使用我们的综合笔记本探索 ColPali 的潜力,展示如何在 Vespa 中利用 ColPali 嵌入。深入视觉文档检索的世界,亲自体验 ColPali 的强大功能!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-10-092,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI-Compass Embedding模型模块:15+主流向量化技术的多模态语义表示生态,涵盖文本图像音频嵌入、RAG检索增强、向量数据库集成与工程化实践
AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
汀丶人工智能
2025/08/13
360
独家 | 进阶RAG-提升RAG效果
在我的上一篇博客中,我深入地介绍了RAG以及它是如何用LlamaIndex实现的。然而,RAG在回答问题时经常遇到许多挑战。在本博客中,我将解决这些挑战,更重要的是,我们将深入研究提高RAG性能的解决方案,使其可用于生产环境。
数据派THU
2024/06/28
9480
独家 | 进阶RAG-提升RAG效果
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
首先,我们将 RAG 工作流程分为三个部分,以增强我们对 RAG 的理解,并优化每个部分以提高整体性能:
致Great
2025/02/22
1.5K0
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
最全梳理:一文搞懂RAG技术的5种范式!
本文主要回顾 RAG 技术的发展,第一部分梳理了综述和关键论文,第二部分梳理了工程实践工具。 
Datawhale
2025/02/24
2.4K0
最全梳理:一文搞懂RAG技术的5种范式!
Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)
在本文中,我将介绍Ollama最近对Llama 3.2 Vision的支持更新,并分享Llama 3.2 Vision的实测结果。同时,我还将介绍一个视觉RAG系统,展示如何将Llama 3.2 Vision与该系统结合,完成基于视觉RAG检索的任务。
AI进修生
2024/12/02
2.5K0
Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)
深入理解RAG:检索与生成的融合
原文地址:https://dev.to/portkey/understanding-rag-a-deeper-dive-into-the-fusion-of-retrieval-and-generation-1l4b
明明如月学长
2024/05/24
4190
深入理解RAG:检索与生成的融合
大模型+RAG,全面介绍!
大型语言模型(LLMs)在处理特定领域或高度专业化的查询时存在局限性,如生成不正确信息或“幻觉”。缓解这些限制的一种有前途的方法是检索增强生成(RAG),RAG就像是一个外挂,将外部数据检索集成到生成过程中,增强模型提供准确和相关响应的能力。
算法进阶
2024/05/31
1.1K0
大模型+RAG,全面介绍!
一文读懂 Vision RAG 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景中的将视觉理解与检索增强生成技术深度融合的视觉模型 - Vision RAG。
Luga Lee
2025/05/21
2830
一文读懂 Vision RAG 模型
RAG科普文!检索增强生成的技术全景解析
增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后,RAG 迅速成为基石,提高了大型语言模型 (LLM) 输出的可靠性和可信度。
致Great
2025/02/15
1.1K0
RAG科普文!检索增强生成的技术全景解析
LLM Agent和 Agentic RAG 的最佳综述
代理式检索增强生成(Agentic RAG)通过在RAG管道中嵌入自主代理,代表了人工智能领域的重大飞跃。本仓库补充了综述论文《代理式检索增强生成(Agentic RAG):综述》,提供了以下方面的见解:
致Great
2025/01/22
5630
LLM Agent和 Agentic RAG 的最佳综述
同济大学发布最新检索增强(RAG)的LLM生成技术综述
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augmented Generation,RAG)作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题,已经被证明能显著提高回答的准确性,减少模型产生的幻觉,尤其是在知识密集型任务中。
唐国梁Tommy
2023/12/21
17.4K0
同济大学发布最新检索增强(RAG)的LLM生成技术综述
技术前沿综述:RAG领域的重要进展与创新亮点
在已经过去的 2024 年,RAG 的发展可以称得上是风起云涌,我们回顾全年,从多个角度对全年的发展进行总结。 首先用下图镇楼:
汀丶人工智能
2025/04/23
1.2K0
技术前沿综述:RAG领域的重要进展与创新亮点
LangChain 与 Elastic 合作,加入向量数据库和语义重排序功能以增强 RAG
在过去的一年里,生成式 AI 领域发生了很多变化。许多新服务和库相继出现。LangChain 已成为构建大语言模型 (LLM) 应用程序(例如检索增强生成 (RAG) 系统)最受欢迎的库之一。这个库使得原型设计和实验不同模型及检索系统变得非常容易。
点火三周
2024/08/11
7670
检索增强生成(RAG)
检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合了检索机制和生成模型的先进技术,旨在提高自然语言处理系统的准确性和上下文相关性。本文将详细介绍如何从零开始构建一个RAG系统,包括数据处理、检索、生成以及部署等各个环节。
@小森
2025/01/03
5890
精彩手绘全解:RAG技术,从入门到精通
本文整理自IVAN ILIN发布于Towards AI的博客[1]。感谢作者的精彩讲解。
zenRRan
2024/01/12
2.7K0
精彩手绘全解:RAG技术,从入门到精通
RAG检索策略深度解析:从BM25到Embedding、Reranker,如何为LLM选对“导航系统”?
大家好!今天我们来聊聊一个热门技术——RAG(检索增强生成)中至关重要的“检索”环节。如果你正在探索如何让你的大型语言模型(LLM)更智能、回答更靠谱,那这篇文章你可千万别错过。
LeonAlgo
2025/07/01
7690
RAG检索策略深度解析:从BM25到Embedding、Reranker,如何为LLM选对“导航系统”?
RAG 2.0架构详解:构建端到端检索增强生成系统
关于检索增强生成(RAG)的文章已经有很多了,如果我们能创建出可训练的检索器,或者说整个RAG可以像微调大型语言模型(LLM)那样定制化的话,那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调,就像一个缝合怪一样,虽然能够工作但各部分并不和谐,所以我们这里介绍RAG 2.0的概念来解决这个问题。
deephub
2024/04/26
2.3K0
RAG 2.0架构详解:构建端到端检索增强生成系统
Advanced RAG的相关技巧
在这篇文章中,我们将深入研究检索增强生成 (RAG),并向您展示改进 RAG 流程每个部分的实用技巧和窍门!我们首先考虑一个实际示例:构建一个聊天机器人来模拟或协助人类医生。
致Great
2025/01/04
1670
高级RAG技巧(二)
检索增强生成 (RAG)将文档检索与自然语言生成相结合,创建更准确、更具情境感知的响应。
致Great
2025/01/04
3140
RAG (Retrieval-Augmented Generation) 教程
在自然语言处理(NLP)领域,生成式 AI(如 GPT-4)在文本生成方面表现优异,但其主要依赖于预训练的知识,无法动态获取最新信息。为了解决这一问题,RAG(检索增强生成,Retrieval-Augmented Generation)应运而生,它结合了信息检索(IR)与文本生成(NLG)技术,使得 AI 可以利用外部知识库,提高回答的准确性和可解释性。
IT蜗壳-Tango
2025/03/31
9900
推荐阅读
相关推荐
AI-Compass Embedding模型模块:15+主流向量化技术的多模态语义表示生态,涵盖文本图像音频嵌入、RAG检索增强、向量数据库集成与工程化实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档