actor - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签actor

#actor

26-RLHF吞吐瓶颈在哪里

anzhsoft 1天前2026-07-23 20:58:13

第 25 篇建立了一轮 RL step 的 profiling 账本：先看 perf/time_per_step、perf/throughput，再拆 timi...

5800

10-KL-clip-entropy给模型更新装限速器

anzhsoft 23天前2026-07-01 21:09:48

上一篇写 DAPO、Dr. GRPO 和长度偏置，说明 reward、advantage 和 loss 聚合会把 response 长度变成训练变量。这一篇继续...

17000

09-DAPO、Dr. GRPO 与长度偏置

anzhsoft 23天前2026-07-01 21:09:36

上一篇解释了 GRPO 为什么能省掉 critic：它用同一 prompt 的多条 response 做组内相对 baseline，而不是训练一个 value ...

16410

07-PPO 在 LLM 后训练里真正训练了什么

anzhsoft 23天前2026-07-01 21:09:13

上一组最后一篇按 fit()走完了一轮 PPO/GRPO step。进入第二组，我们换一个视角：同一轮 step 里有 actor、rollout、refere...

16510

Actor模型的实现机制在仓颉技术中的实现与实践

用户12298955 2026-05-062026-05-06 17:02:19

在现代分布式系统中，Actor模型作为一种高效的并发编程范式，通过消息传递和状态隔离解决了共享内存的复杂性。仓颉技术作为一款高性能的Actor框架，专为中文环境...

19710

深入探讨强化学习中的Actor-Critic框架：稳定性分析与策略优化

用户6320865 2025-08-272025-08-27 16:16:55

在人工智能领域，强化学习作为一种通过与环境交互来学习最优决策的方法，近年来取得了突破性进展。2025年的今天，强化学习已成功应用于机器人控制、游戏AI、金融交易...

2.7K10

源码分析Skynet的Actor对等调度：理解不一样的任务调度机制

Lion 莱恩呀 2025-07-092025-07-09 23:34:30

在 Skynet 中，Actor 是基本的并发单元，其调度由一个线程池负责。每个 Actor 都可以被视为一个独立的、拥有自身状态和消息队列的对象。Skynet...

50300

【强化学习】Soft Actor-Critic (SAC) 算法

不去幼儿园 2025-01-082025-01-08 08:48:53

Soft Actor-Critic（SAC）是一种最先进的强化学习算法，属于 Actor-Critic 方法的变体。它特别适合处理连续动作空...

6.6K10

【强化学习】异步优势Actor-Critic， A3C算法(对比AC、A2C)

不去幼儿园 2024-12-262024-12-26 09:26:43

Asynchronous Advantage Actor-Critic， A3C（异步优势Actor-Critic）算法可以用通俗的方式解释为一种...

1.8K10

【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

不去幼儿园 2024-12-262024-12-26 09:25:57

Actor-Critic算法是一种强化学习中的方法，结合了“演员”（Actor）和“评论家”（Critic）两个部分。下面用一个生活中的比喻来说...

4.5K10

【Hierarchical RL】分层演员-评论家（Hierarchical Actor-Critic ）算法

不去幼儿园 2024-12-032024-12-03 13:40:02

分层演员-评论家，Hierarchical Actor-Critic (HAC) 算法是一种用于分层强化学习（Hierarchical Rein...

91110

【RL Latest Tech】离线强化学习：行为规范Actor Critic (BRAC) 算法

不去幼儿园 2024-12-032024-12-03 13:26:31

离线强化学习（Offline Reinforcement Learning）旨在从静态数据集中学习策略，而无须与环境进行交互。传统的强化学习方法依赖大量环境交...

65410

比较.NET 平台下四种流行Actor框架

郑子铭 2024-06-072024-06-07 16:57:12

Orleans框架是虚拟actor模型的前身。它来自于2010年开始的一个微软研究项目。它为《光环4》等知名游戏的后台服务提供了支持。当它开始的时候，它的边缘有...

1.6K10

软件架构：深入理解 Actor 模型，并发编程的强大工具

运维开发王义杰 2024-05-102024-05-10 16:13:54

在当今快速发展的软件开发领域，应对高并发场景成为了一个常见且棘手的挑战。Actor 模型作为一种高效处理并发计算的模型，它的概念和实现方式对开发者来说非常重要。...

4.1K10

【大家的项目】仿照actix写了一个actor模型框架： Serviceless

MikeLoveRust 2024-04-262024-04-26 14:06:14

之前学习了一下actor模型的基本原理，做了一个类似功能的项目。非常轻量化，代码很短，项目只依赖了tokio。主要用了一些Rust类型转换的魔法。没有任何uns...

30910

SQL每日一题(20230524)

SQL数据库开发 2024-04-242024-04-24 19:27:34

写一条SQL查询语句获取合作过至少三次的演员和导演的 id 对 (actor_id, director_id)预计结果：

22010

使用可移动表空间执行InnoDB备份

MySQLSE 2024-04-022024-04-02 16:24:47

备份InnoDB的表时，可以使用可移动表空间执行部分备份，可以备份单独的表，也可以备份具有相同业务功能的多个表。

35810

UE5 射线检测排除隐藏的Actor

用户3158888 2024-02-122024-02-12 09:07:54

Unreal Engine 5（UE5）以其卓越的性能和直观的开发工具在游戏开发领域占据了重要地位。本系列将深入探讨UE5中射线检测的关键概念，着重介绍处理隐藏...

97010

终结python协程----从yield到actor模型的实现

Ryan_OVO 2023-10-192023-10-19 19:16:35

代码运行下，你就发现了，这就是我们对协程的定义了。接下来我们说下actor模型。actor模式是一种最古老的也是最简单的并行和分布式计算解决方案。下面我们通过y...

60610

【MySql】MySql视图

平凡的人1 2023-10-152023-10-15 12:34:26

针对actor表创建视图actor_name_view，只包含first_name以及last_name两列，并对这两列重新命名，first_name为firs...

4K20

#actor

26-RLHF吞吐瓶颈在哪里

10-KL-clip-entropy给模型更新装限速器

09-DAPO、Dr. GRPO 与长度偏置

07-PPO 在 LLM 后训练里真正训练了什么

Actor模型的实现机制在仓颉技术中的实现与实践

深入探讨强化学习中的Actor-Critic框架：稳定性分析与策略优化

源码分析Skynet的Actor对等调度：理解不一样的任务调度机制

【强化学习】Soft Actor-Critic (SAC) 算法

【强化学习】异步优势Actor-Critic， A3C算法(对比AC、A2C)

【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

【Hierarchical RL】分层演员-评论家（Hierarchical Actor-Critic ）算法

【RL Latest Tech】离线强化学习：行为规范Actor Critic (BRAC) 算法

比较.NET 平台下四种流行Actor框架

软件架构：深入理解 Actor 模型，并发编程的强大工具

【大家的项目】仿照actix写了一个actor模型框架： Serviceless

SQL每日一题(20230524)

使用可移动表空间执行InnoDB备份

UE5 射线检测排除隐藏的Actor

终结python协程----从yield到actor模型的实现

【MySql】MySql视图

热门专栏

饶文津的专栏

函数式编程语言及工具

维C果糖

程序员的SOD蜜

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#actor

26-RLHF吞吐瓶颈 在哪里

10-KL-clip-entropy给模型更新装限速器

09-DAPO、Dr. GRPO 与长度偏置

07-PPO 在 LLM 后训练里真正训练了什么

Actor模型的实现机制在仓颉技术中的实现与实践

深入探讨强化学习中的Actor-Critic框架：稳定性分析与策略优化

源码分析Skynet的Actor对等调度：理解不一样的任务调度机制

【强化学习】Soft Actor-Critic (SAC) 算法

【强化学习】异步优势Actor-Critic， A3C算法(对比AC、A2C)

【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

【Hierarchical RL】分层演员-评论家（Hierarchical Actor-Critic ）算法

【RL Latest Tech】离线强化学习：行为规范Actor Critic (BRAC) 算法

比较.NET 平台下 四种流行Actor框架

软件架构：深入理解 Actor 模型，并发编程的强大工具

【大家的项目】仿照actix写了一个actor模型框架： Serviceless

SQL每日一题(20230524)

使用可移动表空间执行InnoDB备份

UE5 射线检测排除隐藏的Actor

终结python协程----从yield到actor模型的实现

【MySql】MySql视图

饶文津的专栏

函数式编程语言及工具

维C果糖

程序员的SOD蜜

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

26-RLHF吞吐瓶颈在哪里

比较.NET 平台下四种流行Actor框架