首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

每周AI论文速递(250929-251003)

叶子的技术碎碎念

自 John von Neumann 和 Alan Turing 以来,计算系统与大脑的关联一直激励着先驱理论家。诸如大脑这类均匀无标度生物网络具有强大特性,包...

9710

每周AI论文速递(250922-250926)

叶子的技术碎碎念

阿拉伯文档OCR (Optical Character Recognition) 因该语言的连笔书写、字体多样、变音符号及从右至左的排版方向而始终面临挑战。尽管...

9210

每周AI论文速递(250908-250912)

叶子的技术碎碎念

基于强化学习 (RL) 的语言模型 (LMs) 后训练可在无需监督微调的情况下增强复杂推理能力,DeepSeek-R1-Zero 已验证此特性。然而,有效运用 ...

8310

每周AI论文速递(250901-250905)

叶子的技术碎碎念

大语言模型 (LLM) 在软件工程中的日益普及,亟需对其生成代码进行严格的安全性评估。然而现有基准存在明显局限:仅关注孤立代码片段、采用缺乏可复现性的不稳定评估...

7710

每周AI论文速递(250825-250829)

叶子的技术碎碎念

我们推出 InternVL 3.5,这是一个全新的开源多模态模型家族,显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。其核心创新在于级...

9810

006_决策模块的安全强化学习:防范策略中毒与保障自主安全

安全风信子

决策模块是具身人工智能的核心,其安全性直接关系到系统的整体可靠性和用户安全。本文深入探讨了具身AI决策模块面临的安全威胁,特别是策略中毒、奖励操纵和探索攻击等关...

8610

文生图也会“精神分裂”?北大、字节联手揭秘:越思考越画错!并行框架终结AI“左右互搏”

AI生成未来

使用轨迹优化的并行强化学习。基于这一洞见,本文进一步引入了并行强化学习(ParaRL),这是一种新颖的训练范式,它直接利用了这种中间步骤的跨模态协同效应。Par...

8310

效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统

AI生成未来

论文链接:https://arxiv.org/pdf/2509.16117 Git链接:https://research.nvidia.com/labs/dir...

9810

开放指令编辑效果爆表!小米开源Lego-Edit登顶SOTA:用强化学习教MLLM“举一反三”!

AI生成未来

论文链接:https://arxiv.org/pdf/2509.12883 Git链接:https://github.com/xiaomi-research/l...

8110

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI

AI生成未来

给定 3D 场景和高级指令,首先将任务形式化为动态有向图,然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正,并采用强化学习来增强图中每条边的生成器...

12110

107_DPO:直接偏好优化

安全风信子

在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到...

17410

100_RLHF(人类反馈强化学习)原理与实践

安全风信子

要理解RLHF,首先需要了解强化学习(Reinforcement Learning, RL)的基本概念。强化学习是一种通过与环境互动来学习最优行为的机器学习范式...

29610

大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解

deephub

LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再...

14310

REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍

deephub

RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,...

15610

打造自主学习的AI Agent:强化学习+LangGraph代码示例

deephub

AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelli...

13210

从DQN到Double DQN:分离动作选择与价值评估,解决强化学习中的Q值过估计问题

deephub

2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象:

6510

Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定

deephub

监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这...

11110

【强化学习】可证明安全强化学习(Provably Safe RL)算法详细介绍

不去幼儿园

安全强化学习(Safe RL)是强化学习(RL)的一个分支,它关注于在训练智能体时,确保其行为不违反预定的安全约束或规则。传统的强化学习方法侧重于最大化奖...

17710

强化学习中慢网络加速学习的技术突破

用户11764306

总体而言,我们的经验和理论结果支持这一主张:在深度强化学习中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,我们看到深度强化学习优化的简单改进能...

10310

当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?

CoovallyAIHub

近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这...

10410
领券