首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#算法

对称加密与非对称加密

ICT系统集成阿祥

首先,发送者 A 用自己的私钥 SKA 对报文 A 经过算法 D 后得出密文 D(SKA(X)),算法 D 不是解密运算,它只是一个能得到不可读的密文的算法。A...

900

你真的懂网络安全吗?

ICT系统集成阿祥

报文摘要算法其实就是一种散列函数,这种散列函数其实是 hash 算法的一种,但它不同于 hash 算法,报文摘要算法是密码编码的校验和,校验和我们知道,就是用来...

1600

【RL Application】语义分割中的强化学习方法

不去幼儿园

语义分割旨在对图像中的每个像素进行类别划分并对其分配标签。传统图像语义分割技术有基于阈值、基于边缘、基于区域和基于直方图等。尽管这些方法已在图像...

1100

【RL Base】强化学习:信赖域策略优化(TRPO)算法

不去幼儿园

在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust R...

2700

【RL Base】强化学习核心算法:深度Q网络(DQN)算法

不去幼儿园

深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with De...

2000

【Reinforcement Learning】强化学习下的多级反馈队列(MFQ)算法

不去幼儿园

在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue,...

1000

【RL Base】多级反馈队列(MFQ)算法

不去幼儿园

多级反馈队列(MFQ)是一种经典的调度算法,广泛用于操作系统任务调度,也可用于强化学习环境的任务调度中。它是一种灵活且高效的调度机制,通过动态调...

1400

【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参

不去幼儿园

MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专...

1200

【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM)

不去幼儿园

注意力机制是深度学习中的重要技术,尤其在序列到序列(sequence-to-sequence)任务中广泛应用,例如机器翻译、文本摘要和问答系统等...

1500

【SSL-RL】增强Curiosity-driven Exploration (CDE)算法的探索能力

不去幼儿园

为了进一步提升Curiosity-driven Exploration (CDE)算法在强化学习任务中的性能,可以考虑通过以下几个方面的改进来优...

2900

【SSL-RL】自监督强化学习: 好奇心驱动探索 (CDE)算法

不去幼儿园

好奇心驱动探索,Curiosity-driven Exploration (CDE)算法 是一种用于自监督强化学习的算法,旨在通过激发智能体的“...

400

【SSL-RL】自监督强化学习:自预测表征 (SPR)算法

不去幼儿园

自预测表征,Self-Predictive Representations (SPR)算法 是一种用于自监督强化学习的算法,旨在通过学习预测未来...

1700

【SSL-RL】自监督强化学习:随机潜在演员评论家 (SLAC)算法

不去幼儿园

随机潜在演员评论家,Stochastic Latent Actor-Critic (SLAC)算法 是一种用于连续控制任务的自监督强化学习算法,由Googl...

900

【SSL-RL】自监督强化学习:引导式潜在预测表征 (BLR)算法

不去幼儿园

引导式潜在预测表征,Bootstrap Latent-predictive Representations (BLR) 是一种创新的自监督学习方法...

1700

【SSL-RL】自监督强化学习:解耦表示学习 (DRL)算法

不去幼儿园

解耦表示学习,Decoupled Representation Learning (DRL) 是一种用于在自监督强化学习(Self-Superv...

1200

【SSL-RL】自监督强化学习:随机网络蒸馏(RND)方法

不去幼儿园

随机网络蒸馏(RND)是一种自监督学习方法,旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Dis...

800

【SSL-RL】自监督强化学习:Plan2Explore算法

不去幼儿园

自监督强化学习(Self-Supervised Reinforcement Learning, SSRL)是一种结合了自监督学习(Self-Su...

1900

【SSL-RL】自监督强化学习:对比预测编码(CPC)算法

不去幼儿园

Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法,它可以用于强化学习环境中来帮助智...

2500

【Hierarchical RL】不允许你不了解分层强化学习(总结篇)

不去幼儿园

这种分层结构使得复杂任务能够在不同时间尺度上进行优化,使得算法能够更高效地学习和适应变化的环境。

1500

【SSL-RL】基于好奇心驱动的自监督探索机制(ICM算法)

不去幼儿园

Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制,旨在解决传统强化学习中在稀疏奖励场景下,智能体难以学习...

1900
领券