首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

Nat. Commun. | ClickGen:基于模块化反应与强化学习的可合成化学空间定向探索

DrugIntel

过去五年,基于深度学习(Deep Learning, DL)的从头分子生成方法迎来爆发式增长,仅报道的新方法就接近200种。代表性工作包括:

200

BioReason-Pro:首个蛋白质功能推理大模型,注释质量超越 UniProt 人工审编

DrugOne

BioReason-Pro 整体架构与训练流程。模型整合 ESM3 蛋白质嵌入、GO 图编码器和生物学上下文信息,在 GPT-5 生成的合成推理轨迹上进行监督微...

9310

大模型是迷失方向?强化学习之父 Rich Sutton 提出最新 OaK 架构,通往超级智能的新宏图

不二小段

作为强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题——超级智能如何从经验中涌现?

6710

Kimi 深度研究一手实测,横评对决 ChatGPT、Gemini Deep Research

不二小段

拿到 Kimi Researcher 的内测资格一周多了,高强度测了很多 case。

28710

强化学习之父与 AlphaGo 之父联手研究:AI 正告别「人类数据时代」,奔向「经验时代」

不二小段

《欢迎来到经验时代》也许是今年 AI 领域最重要的关于训练数据的纲领性檄文。两位重量级作者,一位是图灵奖得主、现代强化学习的奠基人之一、被誉为「强化学习教父」的...

9210

解析最新开源的 AReaL-boba² 框架:异步强化学习在大型推理模型训练中的应用

不二小段

自 OpenAI 推出 o1 模型以来,推理已经逐渐成为了大语言模型的必备能力。在推理能力背后,强化学习(RL)扮演着越来越重要的角色,但也对训练系统提出了新的...

12910

InternVL3.5-开源多模态视觉大模型王者

OpenCV学堂

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...

14210

InternVL3.5 - 开源多模态视觉大模型王者

OpenCV学堂

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...

16710

通过强化学习赋能OpenClaw!OpenClaw-RL王炸登场:边聊天边把“全能Agent”给训练了

AI生成未来

当前所有部署的 AI 智能体都在不断产生交互数据(动作 后的下一状态 ),但现有的智能体强化学习系统却将这些数据白白丢弃,或仅用作下一轮预测的上下文。这导致了...

18210

RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略

deephub

它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、...

14510

没产品没收入,投资人又给了 10 亿美金

数据微光

π*0.6(2025.11):给 π0 加了强化学习。以前模型只会模仿人类示范,现在能自己练习、自己进步。核心成果:任务完成效率翻倍。

10600

具身智能的 OpenAI,可能已经出现了

数据微光

博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来...

15700

斯坦福引爆AI革命:Claude学会自己搞科研,写代码、跑实验、还能进化!

天意生信云

当AI不仅能提出想法,还能亲手把想法变成现实,并从失败中学习进化,科研的范式正在被悄然改写。

18810

强化学习算法解析:XGBoost(eXtreme Gradient Boosting) 算法原理、Kaggle 冠军首选、全手动计算全解释

jack.yang

关键词:机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...

59310

强化学习算法解析:Gradient Boosting Machine(梯度提升机, GBM)算法原理、手动计算与Python/Java双代码实战指南

jack.yang

关键词:机器学习、梯度提升机、GBM算法、GBDT、负梯度拟合、残差学习、Python GBM、Java Weka GradientBoosting、XGBoo...

18510

强化学习算法解析:AdaBoost(自适应提升)算法

jack.yang

关键词:机器学习、AdaBoost算法、自适应提升、弱分类器、指数损失、Boosting、Python AdaBoost、Java Weka AdaBoostM...

19210
领券