罗西的思考

文章/答案/技术大牛

发布

LV1

发表了文章 2022-11-282022-11-28 20:33:45

[源码分析] Facebook如何训练超大模型--- (5)

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 ...

罗西的思考 2022-11-282022-11-28 20:33:45

pytorch

发表了文章 2022-11-282022-11-28 20:32:30

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

罗西的思考 2022-11-282022-11-28 20:32:30

批量计算、编程算法、数据结构、c++

发表了文章 2022-11-282022-11-28 20:30:51

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor...

罗西的思考 2022-11-282022-11-28 20:30:51

mapreduce、javascript

发表了文章 2022-11-282022-11-28 20:29:53

[源码分析] Facebook如何训练超大模型 --- (3)

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 ...

罗西的思考 2022-11-282022-11-28 20:29:53

编程算法、https、网络安全

发表了文章 2022-05-232022-05-23 10:04:32

[源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

罗西的思考 2022-05-232022-05-23 10:04:32

tensorflow、分布式、java

发表了文章 2022-05-152022-05-15 09:09:10

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2，我们将从几个方面来研究：如何与集群建立连接，如何生成变量，如何获取数据，如何运行。其中，变量和作用域...

罗西的思考 2022-05-152022-05-15 09:09:10

tensorflow、分布式、编程算法、api

发表了文章 2022-05-092022-05-09 17:12:35

[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量，本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是，Mir...

罗西的思考 2022-05-092022-05-09 17:12:35

分布式、编程算法、javascript、node.js、rpc

发表了文章 2022-05-092022-05-09 17:11:45

[源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总...

罗西的思考 2022-05-092022-05-09 17:11:45

mapreduce、分布式、tensorflow、编程算法

发表了文章 2022-05-092022-05-09 17:11:07

[源码解析] TensorFlow 之分布式变量

在 TensorFlow 之中，分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。...

罗西的思考 2022-05-092022-05-09 17:11:07

编程算法、分布式、tensorflow

发表了文章 2022-05-092022-05-09 17:09:45

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

前文之中我们已经介绍了 Strategy 这个基本概念，tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训...

罗西的思考 2022-05-092022-05-09 17:09:45

分布式、编程算法、tensorflow、java、api

发表了文章 2022-05-092022-05-09 17:08:43

[翻译] 使用 TensorFlow 进行分布式训练

https://tensorflow.google.cn/guide/distributed_training（此文的信息是2.3版本之前）。

罗西的思考 2022-05-092022-05-09 17:08:43

tensorflow、分布式、编程算法、api、keras

发表了文章 2022-05-092022-05-09 17:08:09

[源码解析] TensorFlow 分布式环境(8) --- 通信机制

当计算图在设备之间划分之后，跨设备的 PartitionGraph 之间可能存在着数据依赖关系，因此 TF 在它们之间插入 Send/Recv 节点，这样就完成...

罗西的思考 2022-05-092022-05-09 17:08:09

tensorflow、javascript、node.js、分布式、ajax

发表了文章 2022-05-092022-05-09 17:07:26

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中，Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令，即，GrpcRemoteWorker 类中的每一个函数都通过调用 Issu...

罗西的思考 2022-05-092022-05-09 17:07:25

数据结构、tensorflow、javascript、node.js、分布式

发表了文章 2022-05-092022-05-09 17:06:55

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最...

罗西的思考 2022-05-092022-05-09 17:06:54

tensorflow、数据结构、分布式、javascript、node.js

发表了文章 2022-05-092022-05-09 17:06:33

[源码解析] TensorFlow 分布式环境(5) --- Session

会话机制是TensorFlow 分布式运行时的核心，我们接下来按照从 Client 到 worker 的流程，把 Session 机制从前到后走一边。

罗西的思考 2022-05-092022-05-09 17:06:33

数据结构、tensorflow、分布式、c++、android

发表了文章 2022-05-092022-05-09 17:06:08

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

我们接下来介绍缓存机制。为什么要缓存？因为集群内部有众多 worker。在 Master 与 Worker 之间，Worker 和 Worker 之间都需要交互...

罗西的思考 2022-05-092022-05-09 17:06:08

tensorflow、缓存、分布式、rpc

发表了文章 2022-05-092022-05-09 17:05:37

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最...

罗西的思考 2022-05-092022-05-09 17:05:37

tensorflow、数据结构、分布式、javascript、node.js

发表了文章 2022-05-092022-05-09 17:04:44

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最...

罗西的思考 2022-05-092022-05-09 17:04:44

tensorflow、分布式、rpc

发表了文章 2022-05-092022-05-09 17:04:10

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最...

罗西的思考 2022-05-092022-05-09 17:04:10

tensorflow、分布式、rpc

发表了文章 2022-05-092022-05-09 17:03:10

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 Implementat...

罗西的思考 2022-05-092022-05-09 17:03:10

tensorflow、分布式、编程算法、面向对象编程

12 3 4 5 6 7 8...13 下一页

个人简介

暂未填写公司和职称
敬请关注wx：罗西的思考
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2020-09-04

个人成就

获得 529 次赞同
文章被阅读 427.2K 次

关注了：1关注者：81