前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

作者头像
机器之心
发布于 2025-06-10 05:07:55
发布于 2025-06-10 05:07:55
980
举报
文章被收录于专栏:机器之心机器之心

本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

  • 文档质量不可控:真实搜索引擎返回内容不可控,训练过程易受噪声干扰。
  • 搜索 API 成本高昂:Rollout 阶段频繁调用搜索 API,训练成本极高。

为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。

图片
图片
  • 论文标题:ZeroSearch: Incentivize the Search Capability of LLMs without Searching
  • 论文地址:https://arxiv.org/pdf/2505.04588
  • 代码地址:https://github.com/Alibaba-NLP/ZeroSearch
  • 项目主页:https://alibaba-nlp.github.io/ZeroSearch
  • Huggingface 主页:https://huggingface.co/collections/sunhaonlp/zerosearch-v2-6827f4ee6b6265069d443d4e

方法

无需搜索的强化学习框架

传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成本:

图片
图片

为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。

结构化训练模板

图片
图片

ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:

  • <think > 对已有信息分析,明确下一步行动 </think>
  • <search > 提炼搜索 query </search>
  • <answer > 总结推理过程,形成最终答案 </answer>

这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。

搜索模拟微调

图片
图片

直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:

  • 轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对
  • 质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别
  • 监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)

此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。

基于课程学习的文档生成策略

图片
图片

经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。

为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:

  • 训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。
  • 训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。

该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。

奖励函数设计

图片
图片

在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。

实验结果

主要性能表现

图片
图片
  • ZeroSearch 超越所有基线方法,该性能优势在域内以及域外数据集上均得以体现,展示了我们方法的鲁棒性。
  • ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1,凸显其在大规模强化学习中替代真实搜索引擎的潜力。
  • ZeroSearch 展现了强大的泛化能力,随着模型参数量增加,其性能进一步提升,体现了良好的扩展性。

与真实搜索引擎对比

图片
图片
  • ZeroSearch 与真实搜索的奖励趋势相似,随着训练的推进,ZeroSearch 和 Search-R1 的奖励分数都稳步上升。
  • ZeroSearch 的奖励提升更加显著,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1,但它最终实现了超越,并且波动更小。
  • ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力,在这两类模型下,ZeroSearch 的奖励表现都持续提升。

模拟搜索设定对比

图片
图片
  • 相对于 Base Model,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。
  • 基于 Prompt 的方法效果较差,主要由于其生成的文档风格与真实搜索引擎差异较大,且质量不稳定,难以支撑稳定训练。
  • 经过微调的 Simulation LLM,即便仅有 3B 参数量,也能显著提升策略模型性能;随着模型规模扩大,性能进一步提升:SFT-7B 可达到与 Google 相当的效果,SFT-14B 甚至实现超越 Google 的性能。

交互轮数研究

图片
图片
  • 训练初期:交互轮数迅速下降,奖励缓慢上升

此阶段模型尚未掌握搜索调用机制,经常产生冗余交互,检索效果不佳。

  • 训练中期:交互轮数迅速回升,奖励同步显著提升

模型逐渐学会如何高效调用搜索引擎,能够获取准确信息,回答质量显著提高。

  • 训练后期:交互轮数和奖励趋于稳定

模型已适应数据集的跳数分布,交互策略逐步固化,在课程学习设定下,模型需提升推理能力以应对更低质量文档,从而维持较高奖励水平。

课程学习策略研究

图片
图片
  • 实验结果表明,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略,验证了该训练范式在激发模型推理能力方面的有效性。
  • 与 Random 类似,真实搜索引擎在训练过程中难以控制文档难度,导致模型缺乏系统性的能力提升路径,从而限制了推理能力的持续进化。

总结

本文提出了 ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将 LLM 转变为一个检索模块,在 RL 训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。

大量实验表明,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力,7B 模型的检索性能已接近真实搜索引擎,而 14B 模型甚至实现了超越。此外,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力,并可兼容多种 RL 算法,具备极强的适应性与可扩展性。

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
每周AI论文速递(250505-250509)
推理是智能的核心能力,决定了系统在决策、结论推导及跨领域泛化方面的表现。在人工智能领域,随着系统日益需要在开放、不确定和多模态环境中运行,推理成为实现鲁棒性与自适应行为的关键。大型多模态推理模型 (Large Multimodal Reasoning Models, LMRMs) 作为一种新兴范式,通过整合文本、图像、音频和视频等多模态数据,旨在实现全面感知、精准理解和深度推理。该领域的研究已从早期的模块化感知驱动流程,发展为以语言为核心的统一框架,显著提升了跨模态理解的连贯性。尽管指令微调与强化学习提升了模型推理能力,但在全模态泛化、推理深度和智能体行为等方面仍存在挑战。为此,本文提出了一种基于四阶段发展路线图的系统性综述,该路线图反映了领域设计理念的演变与新兴能力。首先,我们分析了基于任务专用模块的早期研究,其推理过程隐含于表征、对齐与融合的各个阶段;其次,探讨了当前将推理统一至多模态大语言模型的方法,多模态思维链 (Multimodal Chain-of-Thought, MCoT) 和多模态强化学习等技术推动了结构化推理链的发展;最后,结合 OpenAI O3 和 O4-mini 的基准测试与实验案例,阐述了原生大型多模态推理模型 (Native-LMRMs, N-LMRMs) 的设计理念,该模型致力于在复杂现实环境中实现可扩展、自主和自适应的推理与规划能力。
叶子的技术碎碎念
2025/05/12
860
每周AI论文速递(250505-250509)
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
在人工智能领域,大型语言模型的复杂推理研究正成为学术界和工业界关注的焦点。随着 OpenAI 的 O1 以及后续 DeepSeek R1 等突破性成果的发布,这一领域的研究热度持续升温,引发了广泛的学术讨论和实践探索。这些里程碑式的研究成果不仅推动了相关技术的快速发展,也激励着研究者们不断尝试复现并拓展其应用边界。
机器之心
2025/03/07
1720
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略?
机器之心
2025/06/09
1120
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
Search-R1:复现 OpenAI Deep Research 能力的开源强化学习框架
整合知识的能力是创造新知识的先决条件。因此,深入研究标志着我们朝着开发通用人工智能(AGI)这一更宏大目标迈出了重要一步。
AgenticAI
2025/04/14
4560
Search-R1:复现 OpenAI Deep Research 能力的开源强化学习框架
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8810
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1310
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
仅5天注册用户超百万的爆火ChatGPT是什么
作者:qizailiu,腾讯 IEG 应用研究员 导读 OpenAI 近期发布聊天机器人模型 ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。 为什么有如此高的评价?理论支撑是什么?背后的技术原理是什么?待解决的问题和方案有哪些?资本怎么看待这件事?本文的目标是将这些问题详细的给大家讲清楚。 1 ChatGPT 是什么? ChatGPT 本质是一个应用在对话场景
腾讯技术工程官方号
2022/12/13
2K0
仅5天注册用户超百万的爆火ChatGPT是什么
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求。
机器之心
2025/04/09
1450
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
RAG:我不只是一个检索器!
年初在我独到的技术见解:LLM的演进与发展文章中和大家分享了LLM的应用和发展,其中有简单介绍过RAG技术,也提到我个人建议在大模型的应用中,能用prompt搞定就别碰RAG,能利用好RAG技术实现需求就别去训练模型,非要训练模型能sft就别pretrain,以上三个大招都用上都实现不了你的需求,非要训自己的垂域大模型,那就快点准备数据,真正应用的时候,估计还是躲不掉三面三步。(不针对算法人员,我说应用呢~)
languageX
2024/06/22
1.1K0
RAG:我不只是一个检索器!
LLM 为什么需要 RLHF
大型语言模型(LLM)的训练流程通常分为预训练(Pre-training) 和后训练(Post-training) 两个核心阶段。在后训练阶段,监督微调(SFT)虽能教会模型遵循指令,但其效果存在明显瓶颈。而基于人类反馈的强化学习(RLHF)作为对齐阶段的核心技术,被广泛证明能显著提升模型性能,尤其是在人类偏好对齐、安全性和生成质量等方面。
AI浩
2025/06/17
1980
LLM 为什么需要 RLHF
解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
前两章,我们分别介绍了基于微调和prompt的工具调用方案,核心都是如何让大模型和工具进行交互,包括生成工具调用语句和处理工具调用请求。不过在实际应用中,想要设计一个可以落地的LLM Agent,需要更全面整体的系统设计。本章我们以搜索工具为例,介绍如何更好和搜索引擎进行交互的LLM Agent。
风雨中的小七
2023/08/31
3.4K0
解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
同济大学发布最新检索增强(RAG)的LLM生成技术综述
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augmented Generation,RAG)作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题,已经被证明能显著提高回答的准确性,减少模型产生的幻觉,尤其是在知识密集型任务中。
唐国梁Tommy
2023/12/21
17.2K0
同济大学发布最新检索增强(RAG)的LLM生成技术综述
通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
作者介绍: 本文作者来自通义实验室 RAG 团队,致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。
机器之心
2025/06/13
1290
通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
年度总结:AI大模型技术年度大盘点
2024年又过去了,去年的总结在这里我独到的技术见解:LLM的演进与发展,是时候对2024年get的新技术进行一次的沉淀和总结了。 本文从以下几个方面进行梳理
languageX
2024/12/31
1.7K0
年度总结:AI大模型技术年度大盘点
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3640
DeepSeek-R1:强化学习驱动的LLM推理能力提升
算法工程师深度解构ChatGPT技术
引言 | 本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨,用专业视野带你由浅入深了解ChatGPT技术全貌。它经历了什么训练过程?成功关键技术是什么?将如何带动行业的变革?开发者如何借鉴ChatGPT思路和技术,投入到日常工作中?期望本文能给你新的灵感。 ChatGPT主要特点 ChatGPT本质是一个对话模型,它可以回答日常问题、进行多轮闲聊,也可以承认错误回复、挑战不正确的问题,甚至会拒绝不适当的请求。在上周公布博文和试用接口后,ChatGPT很快以令人惊叹的对话能力“引爆”网络。 1)
腾讯云开发者
2022/12/10
3K1
算法工程师深度解构ChatGPT技术
每周AI论文速递(250203-250207)
测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s1K,包含 1,000 个典型问题样本,每个样本都配备完整的推理轨迹。这些数据经过严格筛选,确保在难度、多样性和质量方面达到最优平衡。 在此基础上,我们提出了一种新型预算管理机制——预算强制算法。该方法通过动态调整计算资源,在模型生成过程中实现自动优化:当检测到模型输出接近完成时,系统会智能选择是继续推理还是终止过程,从而有效提升结果质量。 实验结果表明,采用这一改进方案后,模型在数学推理任务中的表现显著提升,在 MATH 和 AIME24 数据集上较 o1- preview 基线最高提升了 27%。进一步的扩展测试显示,通过优化预算管理策略,模型性能还可继续提升:AIME24 测试中准确率从 50% 提升至 57%。 该研究全部成果已开源发布,包括完整代码、数据集和实验配置,助力学术界共同推进相关研究工作。访问 https://github.com/simplescaling/s1 即可获取全部资料。 本研究的成功表明,在保持计算效率的同时实现性能提升是完全可行的,为未来语言模型优化提供了新的思路和方法论参考。
叶子的技术碎碎念
2025/04/08
630
每周AI论文速递(250203-250207)
反思RLHF,如何更加高效训练有偏好的LLM
当前 LLM 蓬勃发展,各种模型和方法层出不穷,但总体看来,但是朝着以下3点目标前进:
ShuYini
2023/11/20
1.5K0
反思RLHF,如何更加高效训练有偏好的LLM
全景解读 LLM 后训练技术
本文介绍了大语言模型的后训练技术,包括微调、强化学习和测试时扩展,探讨其挑战与未来方向,并提供实践指南。
一点人工一点智能
2025/03/20
1330
全景解读 LLM 后训练技术
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。
zenRRan
2024/07/04
5160
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
推荐阅读
相关推荐
每周AI论文速递(250505-250509)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档