强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
过去五年,基于深度学习(Deep Learning, DL)的从头分子生成方法迎来爆发式增长,仅报道的新方法就接近200种。代表性工作包括:
BioReason-Pro 整体架构与训练流程。模型整合 ESM3 蛋白质嵌入、GO 图编码器和生物学上下文信息,在 GPT-5 生成的合成推理轨迹上进行监督微...
作为强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题——超级智能如何从经验中涌现?
拿到 Kimi Researcher 的内测资格一周多了,高强度测了很多 case。
《欢迎来到经验时代》也许是今年 AI 领域最重要的关于训练数据的纲领性檄文。两位重量级作者,一位是图灵奖得主、现代强化学习的奠基人之一、被誉为「强化学习教父」的...
自 OpenAI 推出 o1 模型以来,推理已经逐渐成为了大语言模型的必备能力。在推理能力背后,强化学习(RL)扮演着越来越重要的角色,但也对训练系统提出了新的...
它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...
当前所有部署的 AI 智能体都在不断产生交互数据(动作 后的下一状态 ),但现有的智能体强化学习系统却将这些数据白白丢弃,或仅用作下一轮预测的上下文。这导致了...
它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、...
π*0.6(2025.11):给 π0 加了强化学习。以前模型只会模仿人类示范,现在能自己练习、自己进步。核心成果:任务完成效率翻倍。
博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来...
当AI不仅能提出想法,还能亲手把想法变成现实,并从失败中学习进化,科研的范式正在被悄然改写。
关键词:机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...
关键词:机器学习、梯度提升机、GBM算法、GBDT、负梯度拟合、残差学习、Python GBM、Java Weka GradientBoosting、XGBoo...
关键词:机器学习、AdaBoost算法、自适应提升、弱分类器、指数损失、Boosting、Python AdaBoost、Java Weka AdaBoostM...