首页
学习
活动
专区
圈层
工具
发布
首页标签深度强化学习

#深度强化学习

AI上阵,短信防线升级:SKT用深度学习狙击韩国“全民诈骗潮”,中国运营商能否借镜?

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

在首尔江南区的一间普通公寓里,72岁的金女士刚刚收到一条短信:“【国民银行】您的账户存在异常登录,请立即确认:bit.ly/3xK9mPq”。她点开链接,输入了...

16710

强化学习_从Q-Learning到深度强化学习

心疼你的一切

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,专注于智能体(Agent)如何通过与环境(Environment)的交...

21110

收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定

AI-Frontiers

原文: https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXw

44110

AI成钓鱼“加速器”?从语法错误到深度伪造,网络诈骗正经历一场危险进化

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

全球网络安全界正面临一个令人不安的现实:曾经靠拼写错误和蹩脚话术就能被一眼识破的钓鱼邮件,如今正变得越来越“专业”、越来越“真实”,甚至让人难以分辨真假。而这场...

15010

超越Sora的开源思路:如何用预训练组件高效训练你的视频扩散模型?(附训练代码)

CoovallyAIHub

当我们开始思考3D数据或视频时,一个很自然的想法就是把它们视为一系列2D帧,然后通过简单地把时间作为额外维度来应用同样的模型。

9210

无人机低空视觉数据集全景解读:从单机感知到具身智能的跨越

CoovallyAIHub

年来,随着无人机技术的快速发展和低空经济政策的推进,无人机在智慧城市、交通巡检、应急救援等领域的应用日益广泛。然而,无人机的智能化离不开高质量视觉数据的支持。那...

46910

小白也能看懂的RLHF-PPO:原理篇

AI-Frontiers

原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w

28010

强化学习系列(十二)--GRPO,DAPO,DUPO,GSPO

languageX

在之前的强化学习系列中我们介绍了强化学习的基础知识,也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。

1.4K40

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

近年来,随着生成式人工智能技术的快速发展,深度伪造(Deepfake)技术被恶意行为者广泛用于网络钓鱼攻击。其中,针对企业高管的“深度伪装”钓鱼攻击尤为突出。攻...

25210

深度强化学习架构中的优先级经验回放技术:TD误差采样与偏差修正

用户6320865

在人工智能技术快速发展的2025年,深度强化学习(Deep Reinforcement Learning, DRL)已成为实现通用人工智能的重要技术路径之一。这...

42710

深度强化学习架构探秘:DQN过估计问题与解决方案详解

用户6320865

在人工智能领域,深度强化学习(Deep Reinforcement Learning, DRL)已成为最富前景的研究方向之一。这种将深度学习与强化学习相结合的方...

59510

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

机器之心

近些天,Sutton 再发新论文,在强化学习领域再次发力,将他在 2024 年的时序差分学习新算法 SwiftTD 拓展到控制领域,在与一些更强大的预处理算法结...

27010

C# 的深度强化学习框架RL_Matrix

张善友

RL_Matrix 是一个专为 .NET 开发者设计的强化学习框架,使用 TorchSharp(.NET 版的 PyTorch)作为后端,提供类型安全、高性能的...

27510

11款最佳习惯追踪养成式祝你实现目标

快乐打工人t

在追求自我提升和良好生活习惯养成的道路上,习惯养成软件成为了众多人的得力助手。如今,市场上的习惯养成软件琳琅满目,让人眼花缭乱。今天,老坛就为大家带来2025年...

90110

【AI前沿】深度学习基础:深度强化学习

屿小夏

深度强化学习(DRL)通过结合深度学习和强化学习的优势,在复杂环境中实现了自主学习和决策,取得了显著的成果。本文详细介绍了强化学习的基本概念、深度Q网络(DQN...

1.1K10

DeepSeek认知之旅

用户4034541

DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图...

12000

深度解析模型蒸馏中的 soft label 概念及其应用案例

编程小妖女

在当今人工智能与机器学习领域中,模型蒸馏( model distillation )作为一种高效的模型压缩方法受到广泛关注。借助这一方法,可以利用大型、复杂的教...

74310

大语言模型的模型蒸馏:概念、方法与应用

编程小妖女

在人工智能领域,大语言模型(LLM)的出现带来了革命性的变革,例如 GPT 系列、BERT、T5 等模型展示了卓越的自然语言处理(NLP)能力。然而,这些模型往...

3.6K40

大语言模型中的 RLHF:强化学习如何优化 AI 交互体验

编程小妖女

近年来,大语言模型(Large Language Model, LLM)取得了突破性的进展,GPT-3、GPT-4 以及其他基于 Transformer 架构的...

82900
领券