强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
自 John von Neumann 和 Alan Turing 以来,计算系统与大脑的关联一直激励着先驱理论家。诸如大脑这类均匀无标度生物网络具有强大特性,包...
阿拉伯文档OCR (Optical Character Recognition) 因该语言的连笔书写、字体多样、变音符号及从右至左的排版方向而始终面临挑战。尽管...
基于强化学习 (RL) 的语言模型 (LMs) 后训练可在无需监督微调的情况下增强复杂推理能力,DeepSeek-R1-Zero 已验证此特性。然而,有效运用 ...
大语言模型 (LLM) 在软件工程中的日益普及,亟需对其生成代码进行严格的安全性评估。然而现有基准存在明显局限:仅关注孤立代码片段、采用缺乏可复现性的不稳定评估...
我们推出 InternVL 3.5,这是一个全新的开源多模态模型家族,显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。其核心创新在于级...
决策模块是具身人工智能的核心,其安全性直接关系到系统的整体可靠性和用户安全。本文深入探讨了具身AI决策模块面临的安全威胁,特别是策略中毒、奖励操纵和探索攻击等关...
使用轨迹优化的并行强化学习。基于这一洞见,本文进一步引入了并行强化学习(ParaRL),这是一种新颖的训练范式,它直接利用了这种中间步骤的跨模态协同效应。Par...
论文链接:https://arxiv.org/pdf/2509.16117 Git链接:https://research.nvidia.com/labs/dir...
论文链接:https://arxiv.org/pdf/2509.12883 Git链接:https://github.com/xiaomi-research/l...
给定 3D 场景和高级指令,首先将任务形式化为动态有向图,然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正,并采用强化学习来增强图中每条边的生成器...
在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到...
要理解RLHF,首先需要了解强化学习(Reinforcement Learning, RL)的基本概念。强化学习是一种通过与环境互动来学习最优行为的机器学习范式...
LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再...
RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,...
AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelli...
2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象:
监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这...
安全强化学习(Safe RL)是强化学习(RL)的一个分支,它关注于在训练智能体时,确保其行为不违反预定的安全约束或规则。传统的强化学习方法侧重于最大化奖...
总体而言,我们的经验和理论结果支持这一主张:在深度强化学习中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,我们看到深度强化学习优化的简单改进能...
近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这...