深度强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签深度强化学习

#深度强化学习

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

咕泡科技 3天前2026-07-08 14:14:04

在强化学习的学习与实践过程中，很多开发者和研究者都会产生一个核心疑问：强化学习似乎分化成了两种截然不同的技术形态。一种是以围棋、象棋AI为代表的精准序列决策流派...

8000

Python深度强化学习RL用GAT、GraphSAGE、GCN图神经网络PPO环境建模|附数据代码

拓端 2026-05-262026-05-26 19:28:27

本文旨在系统梳理GNN融入深度强化学习的关键设计模式，并给出可运行的实现示例。希望能帮助更多研究者和从业者解锁图结构环境下的智能决策能力。

24010

RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

jack.yang 2026-05-032026-05-03 18:44:00

在人工智能的发展史上，2022年11月30日是一个分水岭。OpenAI发布的ChatGPT，凭借其惊人的语言理解和生成能力，瞬间引爆了全球对通用人工智能（AGI...

57120

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释

jack.yang 2026-03-302026-03-30 22:28:40

关键词：机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...

1.2K10

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

jack.yang 2026-03-302026-03-30 22:16:11

关键词：机器学习、梯度提升机、GBM算法、GBDT、负梯度拟合、残差学习、Python GBM、Java Weka GradientBoosting、XGBoo...

63610

强化学习算法解析：AdaBoost（自适应提升）算法

jack.yang 2026-03-302026-03-30 22:01:59

关键词：机器学习、AdaBoost算法、自适应提升、弱分类器、指数损失、Boosting、Python AdaBoost、Java Weka AdaBoostM...

31210

深度强化学习、蒙特卡洛模拟与时序预测：LSTM、GRU、Attention、DQN多策略智能体的股票交易决策体系构建—以Google股价为例 | 附代码数据

拓端 2026-03-092026-03-09 13:18:45

麦吉尔大学计算机科学与统计专业。熟练使用Python、R、SQL、C、stata、Wind数据分析软件，专注于金融、数理统计领域。

1.5K20

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

CoovallyAIHub 2026-02-102026-02-10 09:35:19

当AI画作已能以假乱真，人类如何守住现实边界？新一代检测框架通过建模“真实本身”实现超人级鉴别能力。

48910

AI上阵，短信防线升级：SKT用深度学习狙击韩国“全民诈骗潮”，中国运营商能否借镜？

芦笛

中国互联网络信息中心｜工程师 (已认证)

2026-01-212026-01-21 10:04:32

在首尔江南区的一间普通公寓里，72岁的金女士刚刚收到一条短信：“【国民银行】您的账户存在异常登录，请立即确认：bit.ly/3xK9mPq”。她点开链接，输入了...

71110

强化学习_从Q-Learning到深度强化学习

心疼你的一切 2026-01-212026-01-21 08:50:21

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，专注于智能体（Agent）如何通过与环境（Environment）的交...

57110

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

AI-Frontiers 2026-01-202026-01-20 09:10:08

原文: https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXw

2.7K10

AI成钓鱼“加速器”？从语法错误到深度伪造，网络诈骗正经历一场危险进化

芦笛

中国互联网络信息中心｜工程师 (已认证)

2026-01-142026-01-14 09:42:14

全球网络安全界正面临一个令人不安的现实：曾经靠拼写错误和蹩脚话术就能被一眼识破的钓鱼邮件，如今正变得越来越“专业”、越来越“真实”，甚至让人难以分辨真假。而这场...

66410

超越Sora的开源思路：如何用预训练组件高效训练你的视频扩散模型？（附训练代码）

CoovallyAIHub 2026-01-072026-01-07 16:53:49

当我们开始思考3D数据或视频时，一个很自然的想法就是把它们视为一系列2D帧，然后通过简单地把时间作为额外维度来应用同样的模型。

33010

无人机低空视觉数据集全景解读：从单机感知到具身智能的跨越

CoovallyAIHub 2025-12-222025-12-22 10:49:06

年来，随着无人机技术的快速发展和低空经济政策的推进，无人机在智慧城市、交通巡检、应急救援等领域的应用日益广泛。然而，无人机的智能化离不开高质量视觉数据的支持。那...

1.7K10

小白也能看懂的RLHF-PPO：原理篇

AI-Frontiers 2025-12-162025-12-16 17:25:15

原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w

95910

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

languageX 2025-11-232025-11-23 15:41:19

在之前的强化学习系列中我们介绍了强化学习的基础知识，也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。

5K50

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

芦笛

中国互联网络信息中心｜工程师 (已认证)

2025-11-212025-11-21 14:09:50

近年来，随着生成式人工智能技术的快速发展，深度伪造（Deepfake）技术被恶意行为者广泛用于网络钓鱼攻击。其中，针对企业高管的“深度伪装”钓鱼攻击尤为突出。攻...

47510

#深度强化学习

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Python深度强化学习RL用GAT、GraphSAGE、GCN图神经网络PPO环境建模|附数据代码

RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

强化学习算法解析：AdaBoost（自适应提升）算法

深度强化学习、蒙特卡洛模拟与时序预测：LSTM、GRU、Attention、DQN多策略智能体的股票交易决策体系构建—以Google股价为例 | 附代码数据

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

AI上阵，短信防线升级：SKT用深度学习狙击韩国“全民诈骗潮”，中国运营商能否借镜？

强化学习_从Q-Learning到深度强化学习

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

AI成钓鱼“加速器”？从语法错误到深度伪造，网络诈骗正经历一场危险进化

超越Sora的开源思路：如何用预训练组件高效训练你的视频扩散模型？（附训练代码）

无人机低空视觉数据集全景解读：从单机感知到具身智能的跨越

小白也能看懂的RLHF-PPO：原理篇

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

热门专栏

张善友的专栏

机器之心

拓端tecdat

算法之名

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#深度强化学习

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Python深度强化学习RL用GAT、GraphSAGE、GCN图神经网络PPO环境建模|附数据代码

RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

强化学习算法解析：XGBoost（eXtreme Gradient Boosting） 算法原理、Kaggle 冠军首选、全手动计算全解释

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

强化学习算法解析：AdaBoost（自适应提升）算法

深度强化学习、蒙特卡洛模拟与时序预测：LSTM、GRU、Attention、DQN多策略智能体的股票交易决策体系构建—以Google股价为例 | 附代码数据

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

AI上阵，短信防线升级：SKT用深度学习狙击韩国“全民诈骗潮”，中国运营商能否借镜？

强化学习_从Q-Learning到深度强化学习

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

AI成钓鱼“加速器”？从语法错误到深度伪造，网络诈骗正经历一场危险进化

超越Sora的开源思路：如何用预训练组件高效训练你的视频扩散模型？（附训练代码）

无人机低空视觉数据集全景解读：从单机感知到具身智能的跨越

小白也能看懂的RLHF-PPO：原理篇

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

张善友的专栏

机器之心

拓端tecdat

算法之名

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释