首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

RLHF基于人类反馈的强化学习概述

索旭东

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),它通过人类手把手教的方式,用强化学习来...

2510

医院机器人仿真与AI训练技术蓝图

用户11764306

作者:Mingxin Zheng, Nic Ma and Mostafa Toloui

2900

大模型推理强化学习算法解析:GRPO(Group Relative Policy Optimization)2026终极指南

jack.yang

当我们站在2026年5月的时间节点回望,人工智能领域在过去两年间经历了堪称地质运动般的剧变。如果说2024年是推理模型(Reasoning Model)的“寒武...

12820

强化学习的主流方法概述

索旭东

如果把深度学习看作是赋予机器“观察和理解”世界的能力,那么强化学习就是教会它如何在世界中“做出正确行动”。简单来说,强化学习是一种 通过与环境不断互动和试错,来...

9510

视觉生成中交织文本推理的新路径

梯度不陡

强化学习路径引入TWIG-GRPO策略,对推理全过程进行联合优化,并配合多奖励模型集成,在颜色准确性和空间布局等复杂任务上取得最大突破。实验证实全组件联合强化优...

11410

网络的动态处理 Dynamic Treatment on Networks

CreateAMind

在网络环境中,有效的动态干预分配不仅需决定对谁干预(whom),还需决定何时干预(when),以通过网络溢出效应放大政策影响。早期对高连接度节点的干预可能触发传...

10910

用合成数据与强化学习训练命令行AI代理

用户11764306

我们将结合合成数据生成(SDG)和基于可验证奖励的强化学习(RLVR),并通过群组相对策略优化(GRPO)进行优化,使训练既高效又安全。

11710

结构化策略初始化加速大规模离散动作空间离线强化学习

CreateAMind

IMPROVING AND ACCELERATING OFFLINE RL INLARGE DISCRETE ACTION SPACES WITH STRUCT...

12610

用Agentic AI修复无法替换的遗留系统

用户11764306

某机构AGI实验室的研究人员主动寻找这种摩擦。为了安全且可重复地展现故障模式,该机构在强化学习环境中训练代理——这些合成环境旨在重现嵌入真实工作流中的怪癖、延迟...

11610

AI驱动的抗结核抑制剂发现:MenT3毒素抑制剂的计算筛选研究

DrugIntel

REINVENT4是一个基于Python3开发的开源生成式AI框架,核心采用循环神经网络(RNN) 结合**强化学习(RL)**驱动分子生成。其预训练模型在Ch...

26110

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugAI

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

14810

DeepSeek推理扩展技术SPCT详解

用户11764306

某机构助理教授在一次播客中将大语言模型与强化学习的关系比作“乘法关系”。虽然强化学习擅长决策,但它本身缺乏理解。理解的构建依赖于预训练模型,在此基础上强化学习可...

15110

FP8端到端精度强化学习训练技术

用户11764306

随着大语言模型从简单文本生成向复杂推理过渡,强化学习(RL)发挥着核心作用。像分组相对策略优化(GRPO)这样的算法推动了这一转变,使推理级模型能够通过迭代反馈...

13310

定制Nova模型提升药物发现分子特性预测

用户11764306

一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。

6700

从Claude Code开盒第一人聊聊交易的残酷

子晓聊技术

事情的起因颇具戏剧性。2026年3月31日,Anthropic公司引以为傲的核心产品Claude Code,其源码竟被一位华人安全研究员公之于众,足足51.2万...

9910

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugOne

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

15710

强化学习:训练一个AI“交易之神”

子晓聊技术

这一系列连贯的、动态的决策,才是交易的核心。今天,我将介绍一位能完成这一切的终极玩家——强化学习。

18510
领券