斯坦福最新研究重设RAG新基线：你的RAG基准该更新了！2025

AgenticAI

发布于 2025-07-02 18:51:41

2870

文章被收录于专栏：AgenticAIAgenticAI

就在我们感叹 GPT-4.1、Gemini 2.5 Pro 等模型动辄百万的上下文窗口将彻底改变游戏规则时，一个灵魂拷问随之而来：我们精心构建的、层层嵌套的复杂 RAG 流水线，是否已经成为了“屠龙之术”？当 LLM 自身就能“读”完一整本书时，我们还需要费尽心机地去设计多步检索、信息重组、递归摘要吗？

来自斯坦福大学的一篇最新论文Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models[1]给了我们一个响亮且可能出乎意料的答案。这篇论文不仅挑战了当前 RAG 领域的“内卷”趋势，更重要的是，它为我们所有从业者提供了一个极其强大，却又简单到极致的新基准。

1. 力大砖飞遇上精雕细琢

长上下文语言模型的出现，让一种最简单粗暴的方案变得可行：全文投喂（Full-Document）。只要成本和延迟允许，把所有相关文档一股脑儿塞给模型，似乎是理论上的最优解。然而，在现实世界中，成本和延迟是无法忽视的铁律。因此，RAG 仍然是必需的。但问题变成了：哪种 RAG 是最高效的？

过去一两年，我们看到了各种精巧的 RAG 架构：

多阶段迭代式 RAG：如 ReadAgent，通过多次与 LLM 互动来提炼问题、检索信息。
层次化 RAG：如 RAPTOR，通过对文档进行聚类和摘要，构建一个信息金字塔。

这些方法无疑是强大的，但它们也带来了更高的系统复杂性、更长的处理链路和更多的潜在故障点。斯坦福的研究者们决定正本清源，用一场公平的对决，来检验“精雕细琢”是否真的优于“返璞归真”。

2. 对决舞台与核心选手

研究者们搭建了一个标准的评测环境，在 ∞Bench、NarrativeQA、QuALITY 等长文档问答数据集上，对比了以下几位“选手”：

复杂派代表：

ReadAgent，参考前文《拒绝碎片化 RAG，谷歌 DeepMind 推出 ReadAgent：模拟人类阅读长文本，或是NotebookLM底层技术？》
RAPTOR，是一种多阶段检索增强方法，它通过将文档结构层级聚类、递归摘要和再排序，来高效选择最相关内容供大模型读取，从而提升长文问答性能。

2. 简约派代表：

全文基线：将源文档的全部内容直接输入给语言模型，作为性能的理论上限。
朴素 RAG：这是最标准的 RAG 方法。它会检索与问题最相关的文本片段，然后按照相关性得分从高到低排序，最后将这些排好序的片段和问题一起交给语言模型。
DOS RAG：这是论文提出的一个核心对比方法，意为“保留文档原始结构的 RAG（Document's Original Structure RAG）”。

什么是 DOS RAG？它的流程简单到令人发指：

检索：和传统 RAG 完全一样，使用向量检索等技术，找出与问题最相关的文本片段（Chunks）。
排序：这是唯一的、也是最关键的区别。它放弃了按相关性得分排序，而是将检索到的片段，按照它们在原始文档中出现的先后顺序进行重新排列。
生成：将这些按原文顺序排列的片段连同问题一起，输入给 LLM。

3. 大道至简

实验结果清晰明了，且极具冲击力：在几乎所有的 Token 预算和评测场景下，简单的 DOS RAG 的表现都持平甚至超越了复杂的 ReadAgent 和 RAPTOR。

在 ∞Bench 表现，其中∞Bench 是一个多文档、多选题的问答任务集，旨在系统评估语言模型在处理数千到数万 token 的长文档背景下的问答能力。

在 NarrativeQA 表现，其中 NarrativeQA 是一个经典的自然语言理解与问答数据集，专注于对**长篇叙事性文本（如小说、电影剧本）**的深层语义理解。

在 QuALITY 上表现，其中QuALITY 是一个专门用于评估 长文档阅读理解能力 的高质量问答数据集。它是目前最具代表性和挑战性的多选问答（Multiple-Choice QA）长文理解基准之一。

3 个图表也能看出，全文效果自然是最好的。Read Agent 性能非常不错，准确率也非常稳定，但消耗也稳定的大。而 RAPTOR 在这几个任务中，居然不及朴素 RAG。但 DOS RAG 真的这么强吗？

为什么一个如此简单的改动，会产生如此巨大的能量？论文分析，DOS RAG 的成功秘诀在于它深刻地契合了语言模型的工作原理：

保留叙事流与逻辑链：任何写得不错的文档，其段落和章节的顺序都蕴含着作者的逻辑。强行按相关性打乱顺序，实际上是破坏了上下文的连贯性，增加了 LLM 的理解负担。DOS RAG 则像是在给 LLM 提供一个“连贯的摘要”。
信息保真度最大化：直接从原文提取片段，避免了复杂 RAG 流程中因摘要、重组等操作带来的信息损失或扭曲。
在检索与阅读间取得最佳平衡：它通过检索过滤了海量无关信息（解决了“大海捞针”问题），又通过保留原始顺序，让 LLM 能在一个更自然、更结构化的语境中进行推理（解决了“迷失在上下文”问题）。

4. 启示

这项研究的价值远不止一篇学术论文，它为我们的日常工作提供了极具操作性的指导。

对于开发者（Developers）：

拥抱 KISS 原则（Keep It Simple, Stupid）：在你着手构建一个包含多跳检索、意图识别、递归摘要的复杂 RAG 系统之前，请先停下来。将 DOS RAG 作为你的第一个、也是最强的基准。
降本增效的捷径：DOS RAG 不仅效果好，而且实现简单、计算开销小、延迟低。这意味着更快的响应速度、更低的 API 调用成本和更容易的维护。在商业应用中，这是巨大的优势。
你的新baseline：在你的 RAG 项目代码库里，DOS RAG 理应成为默认的性能基准。任何新功能的上线，都应该回答一个问题：“它比 DOS RAG 好多少？”

对于研究人员（Researchers）：

重新评估创新的“必要性”：这篇论文提高了 RAG 领域创新的门槛。未来，任何新提出的复杂 RAG 架构，如果不能在主流数据集上显著击败 DOS RAG，其存在的价值就需要被打上一个问号。
研究方向的转移：也许 RAG 未来的发展重点，不应再是无限叠加复杂的检索策略，而应该转向：
- 如何更高效地进行第一步检索（即提高召回率）。
- 如何让 LLM 更好地利用其被“喂”入的、按原始顺序排列的上下文。
- 探索 RAG 与纯长上下文处理的混合（Hybrid）模式。

5. One More

最让人惊喜的是，作者不仅完整开源了评估代码：https://github.com/alex-laitenberger/stronger-baselines-rag，还重新实现了 Read Agent（有小伙伴苦于 google deepmind 只是 demo 或者 PageIndex 仅有 Index）。

https://github.com/Lightnz/read-agent-eval，重新实现的 Read Agent 评估方法。
https://github.com/alex-laitenberger/raptor-eval，RAPTOR 的评估方法
https://github.com/alex-laitenberger/dos-rag-eval, 本文所提出的 DOS RAG 评估方法。
https://github.com/alex-laitenberger/vanilla-rag-eval, 朴素 RAG 评估方法

6. 总结

技术的发展总是在螺旋中上升。当我们被长上下文的能力所震撼，又在 RAG 的复杂性中“内卷”时，斯坦福的这项研究如同一股清流，提醒我们回归问题的本质。它证明了，在构建智能系统时，对基础原理的深刻理解，有时比设计复杂的算法更为重要。所以，下次当你启动一个新的 RAG 项目时，不妨先问问自己：我是否需要那个复杂的流水线，还是一个简单的 DOS RAG 就已经足够？答案可能会让你节省大量的时间、金钱和精力。