
检索找到了某个语义上接近的片段,LLM 围绕它写出一段文字,但是没人发现答案是错的。这是 vector RAG 调参解决不了的失败问题。而现在有2种方法可以解决他:
这篇文章将介绍它们之间的差异,让你不必花三周读论文也能为自己的系统做出正确选择。

Vector RAG 之所以成为标准是因为它真的能用。
把文档分块,对块做 embedding,然后按相似度检索。对简单查询来说:快、便宜、够用。
但是Vector RAG 会出现三种失败模式。
第一,它没有"关系"这个概念。语义相似度找的是"听起来像 query"的 chunk,无法跟踪"第 4 节中的法规交叉引用了附录 C 中的例外条款"。这两节在 embedding 空间里可能相距很远,即使其中一节定义了另一节。模型永远看不到这种关联。
第二,chunking 破坏了结构。把一份财务报告切成 512-token 的窗口,就把表格和它的表头、脚注和它所限定的数字、多段答案和它们的上下文都断开了。一个单元格里的数字脱离列标题就毫无意义,而 chunking 会把这种关系剥离掉。这不是 chunk size 能调好的问题,是架构层面的局限。
第三,当查询变复杂,准确率会崩溃。在 Diffbot 的 benchmark 上,没有 knowledge graph 支持时,每个 query 涉及的实体数超过 5 个之后,准确率会退化到 0%。Metrics & KPIs 与 Strategic Planning 这两个类别里,传统 vector RAG 在 schema-bound query 上的准确率都是 0,不是低是零。

GraphRAG 不替代向量搜索。它增加了一层向量搜索本质上无法复现的能力:一张关于事物如何彼此关联的地图。
不再把文档集合当作一袋 chunk,而是构建一张 knowledge graph。实体(人、公司、概念、法规)成为节点,实体之间的关系成为边。这张图能以向量相似度永远做不到的方式,把"GDPR Article 17 由 European Data Protection Board 执行"这样的关系刻画出来。
工作流程分步如下:
GRAPHRAG ARCHITECTURE
Documents
↓
Entity Extraction (LLM identifies: people, orgs, concepts)
↓
Relationship Extraction (LLM identifies: who connects to what and how)
↓
Community Detection (Leiden algorithm groups related entities)
↓
Community Summaries (LLM summarizes each cluster)
↓
Knowledge Graph (nodes + edges stored in graph database) 这里最大的一个误区是用 GraphRAG 必须先有一张现成的 knowledge graph。其实不需要,因为可以直接用 LLM 来构建它。抽取 pipeline 会读取你的文档并自动构建图。
GraphRAG 真正擅长的事情:
GraphRAG 在企业场景下相比传统 RAG 实现了 72–83% 的 comprehensiveness,准确率提升 3.4 倍。
最初的 Microsoft GraphRAG 方案,索引一份典型企业语料库需要 $20–500,因为它需要 LLM 调用来从每一份文档中抽取每一个实体和关系。Microsoft 在 2025 年发布的 LazyGraphRAG 改变了这个问题:把摘要延迟到查询时再计算,索引成本降至完整 GraphRAG 的 0.1%,代价是每个查询多 2–8 秒。
GraphRAG 失效的场景:
"GraphRAG 不是更好的 RAG。它是为另一类问题设计的检索方法。"
如果你为简单事实查询去搭建它,那就是花了几千美元的索引基础设施,去回答一个 50 行的向量 pipeline 在 200ms 内就能解决的问题。

Vectorless RAG 走的是更难的一个方向,它不是在已有的检索模型上加一层图,而是直接发问:如果整个检索模型本身就是错误的起点呢?
PageIndex 是 vectorless RAG 的主要框架,由 VectifyAI 的 Mingtian Zhang 和 Yu Tang 在 2025 年 9 月发布,在 GitHub 上获得了超过 23,000 个 star。它的核心借鉴自 AlphaGo:不要穷举搜索,而是用学到的策略进行智能导航。
传统 RAG 找的是在语义上与 query 相似的 chunk;PageIndex 让 LLM 推理"答案应该在文档结构的哪个位置",然后直接导航过去。这就是人类专家实际使用文档的方式——打开它,扫一眼目录,去到相关章节,读那张表。
Vectorless RAG 是怎么工作的:
VECTORLESS RAG ARCHITECTURE (PageIndex)
Document Ingestion:
PDF/Doc → Tree Indexing (preserves natural hierarchy)
→ Chapter → Section → Subsection → Table cells
NO chunking. NO embeddings. NO vector database.
Tree structure looks like:
├── Chapter 1: Revenue
│ ├── 1.1 Q1 Results
│ │ ├── Table: Revenue by Region
│ │ └── Footnotes: Currency adjustments
│ └── 1.2 Q2 Results
└── Chapter 2: Expenses
Query Time:
User Query → LLM inspects Table of Contents tree
→ LLM reasons: "Revenue figures would be in Chapter 1"
→ LLM navigates to Chapter 1.1, retrieves context
→ LLM generates answer with exact citations
If incomplete → LLM navigates further → Iterates until answer is found这正是专家阅读文档的方式。不是关键词搜索也不是 embedding 相似度。打开报告,扫目录,去到相关章节,读相关表格——PageIndex 教 LLM 做的就是这件事。
由 PageIndex 驱动的 Mafin 2.5 在 FinanceBench 上达到了 98.7% 的准确率。传统 vector RAG 约 50%,无 RAG 的 GPT-4o 约 31%,Perplexity 约 45%。相对 vector RAG 49 个百分点的差距,不是渐进式改进,是另一个量级的结果。
差距这么大的原因有三个:
PageIndex 也不是通用替代品。它是一种特化工具,适合"准确性高到值得付出更高开销"的场景。
"vectorless" 这个说法引来过质疑:PageIndex"完全是通过对 LLM 的迭代和递归调用来实现的"。它并没有消除依赖,只是把向量近似换成了 LLM 推理近似。两种方式都有成本。
那些 LLM 调用会累积。如果你有数百万份文档而 query 又简单,vectorless RAG 会比 vector RAG 慢、贵,且没有有意义的精度提升。这种开销只有在准确性是首要约束时才划得来。
下面是这三种架构在生产环境中真正会出现差异的几个维度:

GraphRAG 和 Vectorless RAG 不是彼此竞争的关系。它们解决的是不同问题。
2026 年新的生产模式是 Adaptive RAG:一个 query classifier 根据复杂度,把每个 query 路由到合适的 pipeline。简单 query 走 vector RAG(快、便宜);复杂 query 走 agentic RAG;关系型 query 走 GraphRAG。这样可以达到最优的成本-质量权衡。
GraphRAG 真正发挥价值的场景,几乎都是关系密集型的:
Vectorless RAG 取胜的地方,是那些"差不多就行"完全不可接受的精度敏感领域:
传统 Vector RAG 仍然占优的地方:

在做决定之前可以先回答这四个问题。
用户在问什么样的问题?
准确性有多重要?
文档结构是什么样的?
延迟和成本约束是什么?
没有任何一种架构能在所有场景里通吃,在做最好的 AI 系统的团队,并不是只挑一种方案而是在做路由。
入口处坐着一个 query classifier。简单的语义问题走 vector RAG;复杂的关系问题走 GraphRAG;结构化文档查询走 vectorless RAG。每个 query 根据自己真正需要什么,找到对应的检索路径。
这比单一 pipeline 更难搭。但在规模化场景下,它准确性更高、成本更低——大多数系统里,绝大部分 query 都是简单的,简单的 query 不需要图遍历或迭代式 LLM 导航的开销。
Adaptive RAG 模式按 query 复杂度做路由:
User Query → Complexity Classifier
↓
Simple? → Vector RAG (fast, cheap)
Complex? → GraphRAG or Vectorless RAG (accurate)
Relationship? → GraphRAG
Structured doc? → Vectorless RAG这不是理论,而是认真的工程团队此刻正在向生产环境交付的东西。
那些上线了有问题的 RAG 系统的团队并不是工程能力差。他们正确地使用了 vector RAG。只不过 vector RAG 不是回答用户真正问的那些问题的合适工具。
RAG 已经不再是一种技术而是三种共用一个名字的检索方式。
Vector RAG 是乐观的匹配:找到接近的东西,然后期望它是对的。
GraphRAG 是结构性的映射:在问题到来之前就已经知道关系。
Vectorless RAG 是有意识的导航:推理答案在哪里,而不是基于相似度分数去猜。
理解这一区别的团队,正在搭建一些检索不再是瓶颈的系统。不理解的团队,则在不断打磨 prompt,去掩盖那些一开始就注定无法在复杂场景下工作的检索。
by Divy Yadav
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!