
[面向大语言模型的智能体推理](https://arxiv.org/abs/2601.12538)
推理是支撑推断、问题解决与决策制定的基本认知过程。尽管大语言模型 (LLMs) 在封闭环境设定下展现出强大的推理能力,但在开放、动态的环境中却表现欠佳。智能体推理 (Agentic Reasoning) 标志着一种范式转变,它将大语言模型重构为能够通过持续交互进行规划、行动和学习的自主智能体。本综述从三个互补的维度来梳理智能体推理。首先,我们通过三个层级来刻画环境动态:基础智能体推理,它在稳定环境中建立核心的单智能体能力,包括规划、工具使用和搜索;自我进化智能体推理,它研究智能体如何通过反馈、记忆和适应来完善这些能力;以及集体多智能体推理,它将智能延伸至涉及协调、知识共享和共同目标的协作场景。在这些层级中,我们区分了上下文推理(通过结构化编排来扩展测试时的交互)与训练后推理(通过强化学习和监督微调来优化行为)。我们进一步回顾了跨越现实世界应用与基准测试的代表性智能体推理框架,涵盖科学、机器人、医疗保健、自主研究与数学等领域。本综述将各类智能体推理方法综合成一个连接思维与行动的统一路线图,并概述了开放的挑战与未来方向,包括个性化、长周期交互、世界模型建模、可扩展的多智能体训练以及实际部署的治理机制。
[群体相对优势估计存在偏差](https://arxiv.org/abs/2601.08521)
基于验证器奖励的强化学习 (Reinforcement Learning from Verifier Rewards, RLVR) 已成为对大语言模型进行推理任务后训练的一种广泛应用方法,其中基于群体的方法,如 GRPO 及其变体,得到了广泛采用。这些方法依赖于群体相对优势估计 (group-relative advantage estimation) 来避免使用学习到的评论家,但其理论性质仍不明确。
本工作揭示了基于群体的强化学习的一个根本问题:群体相对优势估计量相对于真实(期望)优势存在固有偏差。我们首次进行了理论分析,证明该估计量会系统性地低估困难提示的优势,同时高估简单提示的优势,从而导致探索与利用的失衡。为解决此问题,我们提出了历史感知自适应难度加权 (History-Aware Adaptive Difficulty Weighting, HA-DW),这是一种自适应重加权方案,能够根据一个动态变化的难度锚点和训练过程动态来调整优势估计。在五个数学推理基准测试上的理论分析与实验均表明,将 HA-DW 集成到 GRPO 及其变体中能持续提升性能。我们的结果表明,纠正有偏差的优势估计对于实现稳健、高效的 RLVR 训练至关重要。
[Being-H0.5: 面向跨形态泛化的以人为中心机器人学习规模化](https://arxiv.org/abs/2601.12993)
我们提出了 Being-H0.5,这是一个基础视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在实现跨多样化机器人平台的鲁棒跨形态泛化。针对现有 VLA 模型常受限于形态异构性与数据稀缺的问题,我们提出了一种以人为中心的学习范式,将人类交互轨迹视为物理交互的通用“母语”。为此,我们推出了 UniHand-2.0,这是迄今为止规模最大的具身预训练方案,包含了跨越 30 种不同机器人形态的超过 35,000 小时多模态数据。我们的方法引入了一个统一动作空间,将异构的机器人控制映射到语义对齐的槽位,从而使低资源机器人能够从人类数据和高资源平台中自举学习技能。基于此以人为中心的基础,我们设计了一个统一的序列建模与多任务预训练范式,以弥合人类演示与机器人执行之间的差距。在架构上,Being-H0.5 采用了一种混合 Transformer(Mixture-of-Transformers)设计,其核心是新颖的混合流(Mixture-of-Flow, MoF)框架,用于将共享的运动基元与专门的形态特定专家解耦。最后,为确保跨形态策略在现实世界中的稳定性,我们引入了流形保持门控(Manifold-Preserving Gating)以应对感知变化下的鲁棒性挑战,以及通用异步分块(Universal Async Chunking)以实现跨不同延迟与控制特性的机器人形态的通用分块控制。实验结果表明,Being-H0.5 在模拟基准测试(如 LIBERO (98.9%) 和 RoboCasa (53.9%))上取得了最先进的性能,同时在五个机器人平台上展现出强大的跨形态能力。
[EvoCUA: 通过从可扩展合成经验中学习演进计算机使用智能体](https://arxiv.org/abs/2601.15876)
原生计算机使用智能体 (CUA) 的发展是多模态 AI 领域的一次重大飞跃。然而,其潜力目前受限于静态数据扩展的瓶颈。主要依赖对静态数据集进行被动模仿的现有范式,难以捕捉长程计算机任务中固有的复杂因果动态。本文中,我们提出了 EvoCUA,一个原生计算机使用智能体模型。与静态模仿不同,EvoCUA 将数据生成与策略优化整合为一个自我维持的演进循环。为缓解数据稀缺问题,我们开发了一个可验证的合成引擎,能自主生成多样化任务并附带可执行的验证器。为实现大规模经验获取,我们设计了一个可扩展的基础设施,可协调数万个异步沙盒模拟运行。基于这些大规模轨迹,我们提出了一种迭代演进学习策略,以高效吸收这些经验。该机制通过识别能力边界来动态调节策略更新——强化成功的行为模式,同时通过错误分析与自我纠正将失败轨迹转化为丰富的监督信号。在 OSWorld 基准测试上的实证评估表明,EvoCUA 实现了 56.7% 的成功率,创造了新的开源模型最佳性能。值得注意的是,EvoCUA 显著优于此前最佳的开源模型 OpenCUA-72B (45.0%),并且超越了领先的闭源权重模型,如 UI-TARS-2 (53.1%)。关键的是,我们的结果证明了该方法的泛化能力:这种由经验学习驱动的演进范式,在不同规模的基础模型上均能实现一致的性能提升,从而为增强原生智能体能力开辟了一条稳健且可扩展的路径。
[ABC-Bench: 面向真实世界开发环境的智能体后端编码基准测试](https://arxiv.org/abs/2601.11077)
大语言模型 (LLMs) 向自主 AI 智能体 (AI Agent) 的演进,已将人工智能 (AI) 编码的范畴从局部代码生成,扩展至复杂的、仓库级别的、由执行驱动的问题求解。然而,现有的基准测试主要评估静态上下文中的代码逻辑,忽视了真实世界工程项目中动态的、全流程的需求,尤其是在需要严格环境配置与服务部署的后端开发领域。为弥补这一不足,我们提出了 ABC-Bench,这是一个专为在真实、可执行的工作流中评估智能体后端编码能力而设计的基准测试。通过一个可扩展的自动化流水线,我们从开源仓库中构建了 224 个实际任务,涵盖 8 种编程语言和 19 个框架。与以往的评估不同,ABC-Bench 规定智能体必须管理从仓库探索到部署容器化服务的完整开发生命周期,并且要通过外部的端到端 API 测试。我们的大量评估结果表明,即便是最先进的模型,在面对这些综合性任务时也难以提供稳定可靠的性能,这凸显了当前模型能力与实际后端工程需求之间存在的显著差距。我们的代码开源在 https://github.com/OpenMOSS/ABC-Bench。
[HERMES: 将 KV 缓存作为分层内存以实现高效流式视频理解](https://arxiv.org/abs/2601.14724)
多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的最新进展,在离线视频理解任务上取得了显著进步。然而,将其能力扩展至流式视频输入仍面临挑战,因为现有模型难以在保持稳定理解性能的同时,兼顾实时响应与较低的 GPU 内存开销。为应对这一挑战,我们提出了 HERMES,一种新颖的免训练架构,旨在实现对视频流的实时、准确理解。基于对注意力机制的机理探究,我们将 KV 缓存 (KV Cache) 概念化为一个分层内存框架,该框架能以多种粒度封装视频信息。在推理过程中,HERMES 通过重用紧凑的 KV 缓存,在有限资源下实现了高效的流式理解。值得注意的是,HERMES 在用户查询到达时无需任何辅助计算,从而确保了连续视频流交互的实时响应能力,其首次令牌生成时间 (Time To First Token, TTFT) 比之前的 SOTA 方法快 10 倍。即使与均匀采样相比,视频令牌数量减少了高达 68%,HERMES 在所有基准测试中仍取得了相当或更优的准确率,在流式数据集上的性能提升最高达 11.4%。
[基于大语言模型的软件工程问题解决:进展与前沿综述](https://arxiv.org/abs/2601.11655)
问题解决是现实软件开发中一项不可或缺的复杂软件工程任务,现已成为人工智能面临的一项重大挑战。SWE-bench等基准测试的建立表明,此项任务对大语言模型而言极具难度,从而极大地推动了自主编码智能体的演进。本文对这一新兴领域进行了系统性综述。首先,我们考察了数据构建流程,包括自动收集与合成方法。接着,我们全面分析了相关方法,范围从具备模块化组件的免训练框架,到基于训练的技术(如监督微调和强化学习)。随后,我们对数据质量和智能体行为进行了批判性分析,并探讨了实际应用。最后,我们指出了当前面临的关键挑战,并展望了未来有前景的研究方向。我们在 https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution 维护了一个开源仓库,作为该领域的动态资源。
[灵活性陷阱:为何任意顺序会限制扩散语言模型的推理潜力](https://arxiv.org/abs/2601.15165)
扩散大语言模型 (Diffusion Large Language Models, dLLMs) 打破了传统大语言模型严格的从左到右约束,允许以任意顺序生成 Token。直观上看,这种灵活性意味着其解空间严格包含了固定的自回归轨迹,理论上能为数学和编码等通用任务释放更强大的推理潜力。因此,许多研究都利用强化学习 (Reinforcement Learning, RL) 来挖掘 dLLMs 的推理能力。本文揭示了一个反直觉的事实:在当前形式下,任意顺序生成非但没有扩大,反而缩小了 dLLMs 的推理边界。我们发现,dLLMs 倾向于利用这种顺序灵活性来规避对探索至关重要的高不确定性 Token,从而导致解空间过早坍缩。这一发现挑战了现有 dLLMs 强化学习方法的前提,这些方法通常为了保持这种灵活性而引入了相当大的复杂性,例如处理组合轨迹和难解的似然问题。我们证明,通过有意放弃任意顺序,转而应用标准的组相对策略优化 (Group Relative Policy Optimization, GRPO),可以更有效地激发推理能力。我们的方法 JustGRPO 设计极其简洁,却效果惊人(例如,在 GSM8K 上达到 89.1% 的准确率),同时完全保留了 dLLMs 的并行解码能力。项目页面:https://nzl-thu.github.io/the-flexibility-trap
[RubricHub: 通过自动化由粗到细生成构建的全面高区分度评分标准数据集](https://arxiv.org/abs/2601.08430)
具有可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 在数学等推理密集型领域已取得重大进展。然而,由于缺乏真实标签,优化开放式生成任务仍面临挑战。基于评分标准的评估虽为验证提供了一种结构化替代方案,但现有方法受限于可扩展性瓶颈和粗糙的评判标准,导致了监督性能瓶颈。为解决此问题,我们提出了一种自动化的由粗到细评分标准生成框架。该框架协同利用原则引导的合成、多模型聚合与难度演化,能够生成全面且高区分度的评判标准,从而捕捉生成内容中的细微差别。基于此框架,我们发布了 RubricHub,这是一个大规模(约 11 万条)且覆盖多领域的数据集。我们通过一个两阶段的后训练流程验证了其有效性,该流程包含基于评分标准的拒绝采样微调 (Rubric-based Rejection Sampling Fine-Tuning, RuFT) 和强化学习 (Rubric-based Reinforcement Learning, RuRL)。实验结果表明,RubricHub 能显著提升模型性能:经后训练的 Qwen3-14B 模型在 HealthBench 基准上取得了最先进 (state-of-the-art, SOTA) 的性能(69.3 分),超越了 GPT-5 等专有的前沿模型。相关代码与数据即将发布。
[LLM-in-Sandbox 激发通用智能体能力](https://arxiv.org/abs/2601.16206)
我们提出了 LLM-in-Sandbox 方法,使大语言模型能够在代码沙盒(即虚拟计算机)内进行探索,从而在非代码领域激发通用智能。我们首先证明,强大的大语言模型无需额外训练,即可展现出利用代码沙盒处理非代码任务的泛化能力。例如,大语言模型能够自主访问外部资源以获取新知识,利用文件系统处理长上下文,并执行脚本来满足特定格式要求。我们进一步表明,这些 AI 智能体能力可以通过 LLM-in-Sandbox 强化学习(LLM-in-Sandbox-RL)得到增强,该方法仅使用非智能体行为数据来训练模型进行沙盒探索。实验表明,LLM-in-Sandbox 在免训练和训练后两种设置下,均能实现稳健的泛化,其能力覆盖数学、物理、化学、生物医学、长上下文理解及指令遵循等多个领域。最后,我们从计算和系统两个角度分析了 LLM-in-Sandbox 的效率,并将其开源为一个 Python 软件包,以促进实际应用部署。
[BayesianVLA: 基于潜在动作查询的视觉-语言-动作模型贝叶斯分解](https://arxiv.org/abs/2601.15197)
视觉-语言-动作 (Vision-Language-Action, VLA) 模型在机器人操作任务中展现出潜力,但其泛化能力常受限于新指令或复杂的多任务场景。我们指出当前训练范式存在一个关键缺陷:目标驱动的数据收集导致了数据集偏差。在此类数据集中,仅凭视觉观察就足以高度预测出语言指令,致使指令与动作之间的条件互信息趋于零,我们将此现象称为信息坍缩 (Information Collapse)。其结果是,模型退化为仅依赖视觉的策略,忽略了语言约束,从而在分布外 (Out-of-Distribution, OOD) 场景中失效。为解决此问题,我们提出了 BayesianVLA,这是一个通过贝叶斯分解来确保模型遵循指令的新框架。通过引入可学习的潜在动作查询 (Latent Action Queries),我们构建了一个双分支架构,分别估计仅视觉先验 p(a \mid v) 和语言条件后验 π(a \mid v, \ell)。随后,我们优化策略以最大化动作与指令之间的条件点互信息 (Pointwise Mutual Information, PMI)。该目标有效地抑制了视觉捷径,并奖励那些能明确体现语言指令的动作。BayesianVLA 无需额外数据即可显著提升泛化性能。在 SimplerEnv 和 RoboCasa 上进行的大量实验证明了其显著的性能提升,其中在极具挑战性的 OOD SimplerEnv 基准测试上实现了 11.3% 的性能增益,验证了我们的方法能够稳健地将语言关联到动作。
[迈向高效智能体:记忆、工具学习与规划](https://arxiv.org/abs/2601.14192)
近年来,将大语言模型扩展为智能体 (AI Agent) 系统的研究兴趣日益浓厚。尽管智能体的有效性在持续提升,但对于实际部署至关重要的效率却常被忽视。因此,本文从智能体的三个核心组件——记忆、工具学习和规划——出发,研究其效率问题,并综合考虑延迟、Token 消耗、步骤数等成本。为了对智能体系统本身的效率进行全面研究,我们回顾了近期的一系列方法。这些方法在具体实现上各异,但在高级设计原则上往往趋同,包括但不限于:通过压缩和管理来限制上下文、设计强化学习奖励以最小化工具调用,以及采用受控搜索机制来提升效率。我们将对这些原则进行详细讨论。
相应地,我们从两个互补的维度来刻画效率:一是在固定成本预算下比较其有效性;二是在达到可比有效性水平时比较其成本消耗。这种权衡关系也可以从有效性与成本之间的帕累托前沿 (Pareto frontier) 来理解。基于此视角,我们还审视了面向效率的基准评测:通过总结针对上述组件的评估方案,并整合来自基准研究和方法论文献中常报告的各项效率指标。
此外,我们讨论了该领域面临的关键挑战与未来研究方向,旨在为相关研究提供有价值的见解。
[MMDeepResearch-Bench:多模态深度研究智能体基准](https://arxiv.org/abs/2601.12346)
深度研究智能体 (Deep Research Agents, DRAs) 通过多步骤搜索与信息合成来生成包含丰富引用的报告。然而,现有基准主要面向纯文本场景或短格式多模态问答,缺乏对端到端多模态证据使用的评估。为此,我们提出了 MMDeepResearch-Bench (MMDR-Bench),这是一个包含 21 个领域、共计 140 项由专家精心设计任务的基准。每项任务提供一个图文数据包 (image-text bundle),用于评估模型的多模态理解能力以及基于引用的报告生成能力。与以往的设置相比,MMDR-Bench 强调具备明确证据使用的报告式合成,要求模型必须将视觉内容与有来源支撑的论断相关联,并在叙述、引用和视觉参考之间保持一致性。我们进一步提出了一套统一且可解释的评估流程:用于评估报告质量的公式化-LLM自适应评估 (Formula-LLM Adaptive Evaluation, FLAE),用于评估引用与证据对齐的可信检索对齐引用评估 (Trustworthy Retrieval-Aligned Citation Evaluation, TRACE),以及用于检查文本-视觉一致性的多模态支持对齐完整性检查 (Multimodal Support-Aligned Integrity Check, MOSAIC)。每个评估环节都能产生细粒度的指标,支持进行超越单一总分的精细化错误诊断。我们在 25 个前沿模型上进行了实验,结果揭示了生成质量、引用规范性与多模态基础之间的系统性权衡。这些发现突出表明,仅能生成流畅的文本并不能保证对证据的忠实使用,并且多模态一致性仍然是深度研究智能体面临的一个关键瓶颈。
[毒苹果效应:通过 AI 智能体技术扩张对中介市场进行战略操纵](https://arxiv.org/abs/2601.11496)
AI 智能体 (AI Agents) 融入经济市场,从根本上改变了战略互动的格局。我们在三个经典的博弈论场景中,研究了扩展可用技术集合所带来的经济影响,这些场景包括:议价 (资源分配)、谈判 (非对称信息交易) 以及说服 (战略信息传递)。研究发现,仅仅增加可供选择的 AI 智能体,就能显著改变均衡收益和监管结果,这常常会激励监管机构主动开发和发布新技术。与之相对,我们识别出一种被称为“毒苹果”效应的战略现象:某个智能体可能会发布一项新技术,而这项技术最终既不会被其自身采用,也不会被其对手采用,其唯一目的在于操纵监管机构,使其选择有利于该智能体的市场设计方案。这种战略性发布行为,以牺牲对手利益和违背监管机构公平目标为代价,提升了发布者自身的福利。我们的研究结果表明,静态的监管框架易受技术扩张的操纵,因此需要能够适应 AI 能力动态发展的市场设计。