首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每周AI论文速递(260223-260227)

每周AI论文速递(260223-260227)

作者头像
叶子的技术碎碎念
发布2026-03-02 19:51:28
发布2026-03-02 19:51:28
70
举报

A Very Big Video Reasoning Suite

[超大视频推理套件](https://arxiv.org/abs/2602.20159)

视频模型的快速发展主要聚焦于提升视觉质量,其推理能力则尚未得到充分探索。视频推理将智能置于时空一致的视觉环境中,这种环境所包含的信息超越了文本的自然描述能力,从而支持对连续性、交互性和因果性等时空结构进行直观推理。然而,缺乏大规模训练数据阻碍了对视频推理及其规模化特性的系统性研究。为填补这一空白,我们推出了超大视频推理 (VBVR) 数据集。这是一个前所未有的、大规模的资源,它遵循一套原则性的分类法,涵盖了200个精心设计的推理任务和超过一百万个视频片段,其规模约为现有数据集的三个数量级。我们还进一步提出了VBVR-Bench,这是一个可验证的评估框架。它通过整合基于规则的、与人类评判标准对齐的评分器,超越了传统的基于模型的评判方式,从而能够对视频推理能力进行可复现且可解释的诊断。利用VBVR套件,我们开展了首批大规模的视频推理缩放研究之一,并观察到了模型对未见过的推理任务展现出早期涌现泛化能力的迹象。总之,VBVR为可泛化视频推理的下一阶段研究奠定了重要基础。相关数据、基准工具包和模型均已公开,可在 https://video-reason.com/ 获取。

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

[你的推理模型是否隐含地知道何时停止思考?](https://arxiv.org/abs/2602.08354)

通过长思维链 (CoTs),大型推理模型 (LRMs) 在复杂推理任务上的能力得到了极大提升。然而,这种方法常会产生大量冗余,不仅损害计算效率,还会在实时应用中造成显著延迟。近期研究表明,更长的推理链往往与答案正确性无关,甚至可能损害推理准确性。通过对这一现象的深入分析,我们惊奇地发现并通过实验验证:LRMs 实际上隐含地知道何时该停止思考,但这种能力被当前的采样范式所掩盖。基于此发现,我们提出了 SAGE (Self-Aware Guided Efficient Reasoning,自我感知引导高效推理),这是一种新颖的采样范式,旨在释放模型内在的高效推理潜力。进一步地,我们将 SAGE 作为混合采样方法整合到基于群体的强化学习中,形成了 SAGE-RL。这使得 SAGE-RL 能够将 SAGE 发现的高效推理模式有效融入标准的 pass@1 推理流程,从而在多个具有挑战性的数学基准测试上,显著提高了 LRMs 的推理准确性和效率。

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

[VESPO:用于稳定离策略大语言模型训练的变分序列级软策略优化](https://arxiv.org/abs/2602.10693)

训练稳定性一直是大语言模型 (LLMs) 强化学习 (RL) 领域的核心挑战。策略陈旧、异步训练以及训练与推理引擎之间的不匹配,都会导致行为策略偏离当前策略,从而可能引发训练崩溃。重要性采样为这种分布偏移提供了理论上的校正方法,但其存在高方差问题;现有的改进方案,如 Token 级裁剪和序列级归一化,又缺乏统一的理论基础。为此,我们提出了变分序列级软策略优化 (VESPO)。该方法将方差缩减技术融入关于提议分布的变分框架中,推导出一个闭式重塑核,该核可直接作用于序列级重要性权重,无需进行长度归一化。在数学推理基准测试上的实验表明,VESPO 能在高达 64 倍的陈旧比和完全异步执行的条件下保持训练稳定,并在密集模型与专家混合 (Mixture-of-Experts) 模型上均能带来一致的性能提升。代码已发布于 https://github.com/FloyedShen/VESPO。

The Trinity of Consistency as a Defining Principle for General World Models

[一致性三位一体:通用世界模型的定义性原则](https://arxiv.org/abs/2602.23152)

构建能够学习、模拟并推理客观物理规律的世界模型,是追求通用人工智能 (AGI) 的一项基础性挑战。近期,以 Sora 为代表的视频生成模型取得的进展,展现了数据驱动的规模定律在逼近物理动力学方面的潜力;而新兴的统一多模态模型 (UMM) 则为融合感知、语言与推理提供了一种颇具前景的架构范式。尽管已有这些进展,该领域仍缺乏一个能定义通用世界模型必备基本属性的原则化理论框架。本文提出,世界模型必须植根于一致性三位一体:即以模态一致性为语义接口,以空间一致性为几何基础,以时间一致性为因果引擎。基于此框架,我们系统回顾了多模态学习的发展历程,揭示出其演进轨迹正从松散耦合的专用模块,转向能够协同涌现内部世界模拟器的统一架构。为补充这一概念框架,我们引入了 CoW-Bench 基准,该基准侧重于多帧推理与生成场景。CoW-Bench 采用统一的评估协议,对视频生成模型和 UMM 进行评测。我们的工作为发展通用世界模型确立了一条原则化路径,同时阐明了当前系统的局限性与未来进展所需的架构要求。

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

[从盲点到性能提升:诊断驱动的大语言模型迭代训练](https://arxiv.org/abs/2602.22859)

随着大语言模型 (Large Multimodal Models, LMMs) 规模不断扩大以及强化学习 (Reinforcement Learning, RL) 方法日益成熟,LMMs 在复杂推理与决策任务上取得了显著进展。然而,当前的训练过程仍依赖于静态数据集和固定流程,难以有效诊断模型的能力盲点,也无法进行动态、有针对性的强化。受"通过测试暴露错误并基于反馈进行纠正,其效果优于简单重复练习"这一发现的启发,我们提出了诊断驱动的渐进式进化 (Diagnostic-driven Progressive Evolution, DPE) 方法。DPE 构成一个螺旋循环:诊断环节指导数据生成与模型强化,而每次迭代都会对更新后的模型重新进行诊断,从而驱动下一轮有针对性的改进。DPE 包含两个关键组成部分。首先,我们利用多个智能体对海量未标注多模态数据进行标注和质量控制,并借助网络搜索、图像编辑等工具,生成多样且逼真的训练样本。其次,DPE 能够将模型错误归因于特定的能力弱点,据此动态调整训练数据的混合比例,并引导智能体生成针对这些弱点的数据,以实现精准强化。在 Qwen3-VL-8B-Instruct 和 Qwen2.5-VL-7B-Instruct 模型上的实验表明,DPE 能在十一个基准测试上带来稳定且持续的性能提升,这证明 DPE 是一种适用于开放任务分布下持续训练大语言模型的可扩展范式。我们的代码、模型及数据已公开于 https://github.com/hongruijia/DPE。

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

[用于评估现实世界移动场景中路线规划智能体的基准:MobilityBench](https://arxiv.org/abs/2602.22638)

基于大语言模型 (LLMs) 的路线规划智能体,能够通过自然语言交互和工具调用进行决策,已成为支持日常出行需求的一个前景广阔的技术范式。然而,在真实移动场景中对这类智能体进行系统性评估面临诸多挑战,包括多样化的路线规划需求、地图服务结果的不确定性以及评估过程难以复现。为此,本研究提出了 MobilityBench,一个用于在真实世界移动场景中评估基于 LLM 的路线规划智能体的可扩展基准。该基准基于从 Amap 收集的大规模、匿名化真实用户查询构建,涵盖了全球多个城市中广泛的路线规划意图。为实现可复现的端到端评估,我们设计了一个确定性的 API 重放沙箱,以消除调用实时地图服务所带来的环境差异。我们进一步制定了一套多维评估方案,其核心是评估规划结果的有效性,并辅以对智能体的指令理解、规划能力、工具使用效率和整体执行效率的评估。利用 MobilityBench,我们对多种基于 LLM 的路线规划智能体在多样化的真实移动场景中进行了评估,并深入分析了它们的行为与性能。评估结果表明,现有模型在基础信息检索和常规路线规划任务上表现尚可,但在处理带有个性化偏好约束的路线规划任务时则困难显著,这凸显了其在个性化移动应用领域仍有巨大的提升空间。我们已在 https://github.com/AMAP-ML/MobilityBench 公开了基准数据集、评估工具包及相关文档。

On Data Engineering for Scaling LLM Terminal Capabilities

[论扩展大语言模型终端能力的数据工程](https://arxiv.org/abs/2602.21193)

尽管大语言模型 (LLM) 的终端能力近期进展迅速,但前沿终端智能体 (Terminal Agent) 背后的训练数据策略大多仍未公开。为填补这一空白,我们对终端智能体的数据工程实践进行了系统性研究,并贡献了两项关键成果:(1) Terminal-Task-Gen,一个支持基于种子 (seed-based) 和基于技能 (skill-based) 任务构建的轻量级合成任务生成流水线;(2) 对数据与训练策略的综合分析,涵盖数据过滤、课程学习、长上下文训练及规模扩展行为。通过该流水线,我们构建了 Terminal-Corpus,一个面向终端任务的大规模开源数据集。基于此数据集,我们训练了 Nemotron-Terminal 模型系列,该系列模型以 Qwen3(8B, 14B, 32B) 为起点进行初始化,并在 Terminal-Bench 2.0 基准上取得了显著提升:Nemotron-Terminal-8B 从 2.5% 提升至 13.0%,Nemotron-Terminal-14B 从 4.0% 提升至 20.2%,Nemotron-Terminal-32B 从 3.4% 提升至 27.4%,其性能已匹敌参数量显著更大的模型。为加速该领域研究,我们已在 https://huggingface.co/collections/nvidia/nemotron-terminal 开源模型检查点及大部分合成数据集。

SkillOrchestra: Learning to Route Agents via Skill Transfer

[SkillOrchestra:通过技能转移学习路由智能体](https://arxiv.org/abs/2602.19672)

复合 AI 系统具备超越单个模型的能力,但其成功关键在于有效的编排。现有的路由方法面临两个局限:(1) 输入级路由器做出粗粒度的查询级决策,忽略了动态演进的任务需求;(2) 基于强化学习训练的编排器调整成本高昂,且在多轮场景中常出现路由崩溃问题,即反复调用一个能力强但成本高的选项。我们提出了 SkillOrchestra,一个技能感知的编排框架。SkillOrchestra 并非端到端地直接学习路由策略,而是从执行经验中学习细粒度的技能,并基于这些技能对智能体的特定能力和成本进行建模。在部署时,编排器推断当前交互所需的技能,并在显式的性能-成本权衡下,选择最能满足这些技能需求的智能体。在十个基准测试上的广泛实验表明,SkillOrchestra 的性能优于基于强化学习的 SoTA 编排器,最高可提升 22.5%,同时其学习成本相较于 Router-R1 和 ToolOrchestra 分别降低了 700 倍和 300 倍。这些结果表明,显式的技能建模能够实现可扩展、可解释且样本效率高的编排,为数据密集型的基于强化学习的方法提供了一个更具原则性的替代方案。代码可在以下网址获取:https://github.com/jiayuww/SkillOrchestra。

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

[HyTRec: 一种用于长行为序列推荐的混合时序感知注意力架构](https://arxiv.org/abs/2602.18283)

对用户长行为序列进行建模已成为推荐系统领域的一个关键前沿。然而,现有方法面临一个两难困境:由于状态容量有限,线性注意力机制虽能保证效率,却牺牲了检索精度;而 softmax 注意力机制则存在难以承受的高计算开销。为应对这一挑战,我们提出了 HyTRec 模型,其采用一种混合注意力架构,能够显式地将用户的长期稳定偏好与短期意图突增分离开来。该模型将海量历史行为序列交由线性注意力分支处理,同时为近期交互保留一个专用的 softmax 注意力分支,从而在涉及上万次交互的工业级场景下,实现了精确的检索能力。此外,为缓解线性注意力层在捕捉快速兴趣漂移时存在的滞后问题,我们进一步设计了时序感知增量网络 (Temporal-Aware Delta Network, TADN) ,该网络能动态增强新鲜行为信号的权重,并有效抑制历史噪声。在工业规模数据集上的实验结果表明,我们的模型在保持线性推理速度的同时,性能优于诸多强基线模型。特别是对于拥有超长行为序列的用户,模型在保持高效率的前提下,命中率 (Hit Rate) 提升了超过 8%。

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

[MolHIT:利用分层离散扩散模型推进分子图生成](https://arxiv.org/abs/2602.17602)

基于扩散模型的分子生成已成为人工智能 (AI) 驱动药物发现和材料科学的一个前景广阔的方向。由于二维分子图固有的离散特性,图扩散模型已被广泛采用,但与一维建模方法相比,现有模型存在化学有效性低、难以满足所需属性的问题。本文中,我们提出了 MolHIT,这是一个强大的分子图生成框架,它克服了现有方法中长期存在的性能瓶颈。MolHIT 基于分层离散扩散模型 (Hierarchical Discrete Diffusion Model),该模型将离散扩散推广到用于编码化学先验的附加类别,并采用了根据原子化学角色拆分原子类型的解耦原子编码 (decoupled atom encoding)。总体而言,MolHIT 在 MOSES 数据集上首次在图扩散领域实现了近乎完美的化学有效性,取得了新的最先进 (state-of-the-art) 性能,并在多个指标上超越了强大的一维基线模型。我们进一步展现了其在下游任务中的强大性能,包括多属性引导生成和骨架扩展。

VLANeXt: Recipes for Building Strong VLA Models

[VLANeXt:构建强大 VLA 模型的配方](https://arxiv.org/abs/2602.18532)

继大型基础模型兴起之后,视觉-语言-动作模型 (Vision-Language-Action models, VLAs) 应运而生,它利用强大的视觉与语言理解能力,以实现通用策略学习。然而,当前的 VLA 领域仍处于碎片化且探索性的阶段。尽管许多团队已提出了各自的 VLA 模型,但训练方案和评估设置的不一致,使得难以确定哪些设计选择真正关键。为了理清这个不断发展的领域,我们在统一的框架和评估设置下,重新审视了 VLA 的设计空间。我们从一个类似于 RT-2 和 OpenVLA 的简单 VLA 基线出发,系统地剖析了三个维度的设计选择:基础组件、感知要素和动作建模视角。通过这项研究,我们提炼出 12 个关键发现,共同构成了构建强大 VLA 模型的实用配方。这项探索的成果是一个简单而有效的模型——VLANeXt。VLANeXt 在 LIBERO 和 LIBERO-plus 基准测试中超越了先前的最先进方法,并在真实世界实验中展现了强大的泛化能力。我们将发布一个统一且易于使用的代码库,作为社区的共同平台,以便复现我们的发现、探索设计空间,并在共享的基础上构建新的 VLA 变体。

Query-focused and Memory-aware Reranker for Long Context Processing

[面向查询与记忆感知的长上下文处理重排序器](https://arxiv.org/abs/2602.12192)

基于对大语言模型中检索注意力头的现有分析,我们提出了一种新的重排序框架。该框架训练模型利用选定注意力头的注意力分数来估计段落与查询之间的相关性。这种方法提供了一种列表式解决方案,能够在排序过程中利用整个候选列表的整体信息。同时,它能自然地生成连续的相关性分数,从而可以在任意检索数据集上进行训练,而无需依赖李克特量表标注的监督信号。我们的框架轻量且高效,仅需小规模模型(例如,40亿参数)即可实现强劲的性能。大量实验表明,我们的方法在包括维基百科和长篇叙事性文本在内的多个领域的数据集上,其性能均优于当前最先进的逐点法和列表法重排序器。此外,该方法在评估对话理解与记忆使用能力的LoCoMo基准测试上,创造了新的最优性能记录。我们还进一步证明了该框架支持灵活的扩展。例如,使用上下文信息对候选段落进行扩充可以进一步提升排序准确性;而基于中间层的注意力头进行训练,则能在不损失性能的前提下提高效率。

OmniGAIA: Towards Native Omni-Modal AI Agents

[OmniGAIA: 迈向原生全模态 AI 智能体](https://arxiv.org/abs/2602.22897)

人类智能天然地将全模态感知(涵盖视觉、听觉和语言)与复杂的推理及工具使用相结合,以此与世界交互。然而,当前的多模态大语言模型主要局限于双模态交互(例如,视觉与语言),缺乏通用人工智能助手所需的统一认知能力。为弥补这一不足,我们提出了 OmniGAIA,这是一个综合性基准,旨在评估全模态智能体在需要跨视频、音频和图像模态进行深度推理与多轮工具执行的任务上的性能。OmniGAIA 采用一种新颖的全模态事件图方法构建,能够基于真实世界数据合成复杂的多跳查询,这些查询要求进行跨模态推理并整合外部工具。此外,我们提出了 OmniAtlas,这是一个在工具集成推理范式下的原生全模态基础智能体,具备主动的全模态感知能力。OmniAtlas 的训练基于通过后见之明引导的树探索策略合成的轨迹,并辅以 OmniDPO 进行细粒度错误校正,从而有效提升了现有开源模型的工具使用能力。本工作标志着我们在面向真实世界场景的下一代原生全模态人工智能助手方向上迈出了重要一步。

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

[SkyReels-V4: 多模态视频-音频生成、修复与编辑模型](https://arxiv.org/abs/2602.21818)

SkyReels V4 是一个统一的、用于视频与音频联合生成、修复及编辑的多模态视频基础模型。该模型采用了双流多模态扩散 Transformer (MMDiT) 架构:一个分支负责合成视频,另一个分支则生成时序对齐的音频,两者共享一个基于多模态大语言模型 (MMLM) 的强大文本编码器。SkyReels V4 能够接受丰富的多模态指令,包括文本、图像、视频片段、掩码以及参考音频。通过将 MMLMs 的多模态指令跟随能力与视频分支 MMDiT 中的上下文学习相结合,该模型能够在复杂的条件设置下注入细粒度的视觉引导;同时,音频分支 MMDiT 利用参考音频来指导声音的生成。在视频处理方面,我们采用了一种通道拼接的表述方式,将图像到视频、视频扩展、视频编辑等多种修复类任务统一到单一接口下,并能通过多模态提示自然地扩展到基于视觉参考的修复与编辑。SkyReels V4 支持高达 1080p 分辨率、32 FPS 帧率及 15 秒时长,能够生成高保真、多镜头、影院级质量的视频并同步音频。为了使这种高分辨率、长序列的生成在计算上可行,我们引入了一种高效的策略:联合生成低分辨率的完整序列和高分辨率的关键帧,然后使用专用的超分辨率与帧插值模型进行处理。据我们所知,SkyReels V4 是首个同时支持多模态输入、音视频联合生成,并对生成、修复和编辑任务提供统一处理框架的视频基础模型,同时在影院级分辨率与时长下保持了卓越的效率与生成质量。

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

[DualPath:突破代理式大型语言模型推理中的存储带宽瓶颈](https://arxiv.org/abs/2602.21548)

多轮智能型大型语言模型推理的性能表现,正日益由键值缓存存储I/O而非计算能力主导。在主流的解耦架构中,从外部存储加载海量键值缓存会引发根本性失衡:预填充引擎的存储网卡带宽饱和,而解码引擎的存储网卡却处于闲置状态。这种不对称性严重制约了系统整体吞吐量。

我们提出DualPath推理系统,通过引入双路径KV缓存加载机制突破此瓶颈。除传统存储到预填充路径外,DualPath开创性地构建存储到解码路径:KV缓存先加载至解码引擎,再通过计算网络上的RDMA技术高效传输至预填充引擎。DualPath将优化数据路径(本质上可规避网络拥塞并避免干扰延迟敏感的模型执行通信)与全局调度器相结合,动态平衡预填充引擎与解码引擎的负载。

针对三个具备生产级智能体工作负载的模型评估表明:DualPath可在内部推理系统中将离线推理吞吐量提升高达1.87倍,同时在线服务吞吐量平均提升1.96倍且不违反SLO。

你好,我是叶子,9年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • A Very Big Video Reasoning Suite
    • Does Your Reasoning Model Implicitly Know When to Stop Thinking?
    • VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
    • The Trinity of Consistency as a Defining Principle for General World Models
    • From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
    • MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios
    • On Data Engineering for Scaling LLM Terminal Capabilities
    • SkillOrchestra: Learning to Route Agents via Skill Transfer
    • HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation
    • MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
    • VLANeXt: Recipes for Building Strong VLA Models
    • Query-focused and Memory-aware Reranker for Long Context Processing
    • OmniGAIA: Towards Native Omni-Modal AI Agents
    • SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
    • DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档