首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

结构化策略初始化加速大规模离散动作空间离线强化学习

CreateAMind

IMPROVING AND ACCELERATING OFFLINE RL INLARGE DISCRETE ACTION SPACES WITH STRUCT...

10010

用Agentic AI修复无法替换的遗留系统

用户11764306

某机构AGI实验室的研究人员主动寻找这种摩擦。为了安全且可重复地展现故障模式,该机构在强化学习环境中训练代理——这些合成环境旨在重现嵌入真实工作流中的怪癖、延迟...

9710

AI驱动的抗结核抑制剂发现:MenT3毒素抑制剂的计算筛选研究

DrugIntel

REINVENT4是一个基于Python3开发的开源生成式AI框架,核心采用循环神经网络(RNN) 结合**强化学习(RL)**驱动分子生成。其预训练模型在Ch...

18010

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugAI

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

12610

DeepSeek推理扩展技术SPCT详解

用户11764306

某机构助理教授在一次播客中将大语言模型与强化学习的关系比作“乘法关系”。虽然强化学习擅长决策,但它本身缺乏理解。理解的构建依赖于预训练模型,在此基础上强化学习可...

13710

FP8端到端精度强化学习训练技术

用户11764306

随着大语言模型从简单文本生成向复杂推理过渡,强化学习(RL)发挥着核心作用。像分组相对策略优化(GRPO)这样的算法推动了这一转变,使推理级模型能够通过迭代反馈...

10310

定制Nova模型提升药物发现分子特性预测

用户11764306

一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。

5000

从Claude Code开盒第一人聊聊交易的残酷

子晓聊技术

事情的起因颇具戏剧性。2026年3月31日,Anthropic公司引以为傲的核心产品Claude Code,其源码竟被一位华人安全研究员公之于众,足足51.2万...

7610

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugOne

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

11810

强化学习:训练一个AI“交易之神”

子晓聊技术

这一系列连贯的、动态的决策,才是交易的核心。今天,我将介绍一位能完成这一切的终极玩家——强化学习。

14310

强化学习与Q-Learning算法原理及Python迷宫导航实战:从MDP到Deep Q-Learning的完整指南 | 附代码与教程文档

拓端

在此对 YouMing Zhang 对本文所作的贡献表示诚挚感谢,他在 东北大学 完成了 信息与计算科学专业 的学业,专注 人工智能领域。擅长 Python、M...

31810

英伟达GR00T N1.6人形机器人模拟到现实训练技术

用户11764306

仿真中的全身强化学习训练提供了底层的运动智能,GR00T N1.6通过其更高层的VLA策略使用和协调这些智能。在Isaac Lab中使用强化学习训练出的全身控制...

18710

基于Sim-to-Real的通用人形机器人技术架构

用户11764306

仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳...

15710

Composer 2:基于强化学习的智能编程体训练

用户11764306

Composer 2 是一个前沿级别的模型,专门为智能软件工程而设计。它不仅仅是回答孤立的聊天查询,而是能够浏览整个代码仓库、运行 shell 命令、编辑文件,...

14910

蛋白语言模型能设计 AAV 吗?关键不在生成,而在如何兼顾可行性与新颖性

Tom2Code

今天来介绍一篇使用蛋白质语言模型设计AAV衣壳的文章:这篇论文开发了一种结合蛋白质语言模型和强化学习的生成式设计框架,旨在生成兼具高度序列新颖性与功能活性的新型...

12910

实验室十篇论文被ICLR 2026录用

Amusi

ICLR (International Conference on Learning Representations) 国际学习表征会议,是机器学习与深度学习领...

29110

面试官:SFT训练到什么程度,才值得做RL?

烟雨平生

这个问题挺有意思。因为这个问题看似简单,但要答好其实得把整个对齐流程的底层逻辑理清楚。

25210

Nat. Commun. | ClickGen:基于模块化反应与强化学习的可合成化学空间定向探索

DrugIntel

核心设计哲学:通过inpainting技术解决合成可行性与新颖性之间的固有矛盾——反应组合器保障合成可行,inpainting模型赋予骨架跳跃能力,强化学习引导...

10410
领券