在tf.keras中使用Horovod时，如何从检查点恢复？

在tf.keras中使用Horovod时，可以通过以下步骤从检查点恢复：

导入必要的库和模块：

import tensorflow as tf
import horovod.tensorflow.keras as hvd

初始化Horovod：

hvd.init()

配置TensorFlow会话：

config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())
tf.keras.backend.set_session(tf.Session(config=config))

定义模型：

model = tf.keras.models.Sequential()
# 添加模型层

编译模型：

optimizer = tf.keras.optimizers.Adam(0.001 * hvd.size())
optimizer = hvd.DistributedOptimizer(optimizer)
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])

定义检查点回调函数：

checkpoint_dir = './checkpoints'
if hvd.rank() == 0:
    os.makedirs(checkpoint_dir, exist_ok=True)
checkpoint_file = os.path.join(checkpoint_dir, 'checkpoint.h5')
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(checkpoint_file, save_weights_only=True)

加载检查点（如果存在）：

if os.path.exists(checkpoint_file):
    model.load_weights(checkpoint_file)

训练模型：

model.fit(x_train, y_train, callbacks=[checkpoint_callback], ...)

通过以上步骤，可以在使用Horovod进行分布式训练时，从检查点恢复模型。注意，每个训练节点都会保存自己的检查点，但只有rank为0的节点会加载检查点。这样可以确保在分布式训练中，只有一个节点负责保存和加载检查点。

推荐的腾讯云相关产品：腾讯云AI加速器、腾讯云弹性GPU、腾讯云容器服务等。你可以通过访问腾讯云官方网站获取更多关于这些产品的详细信息和介绍。

相关·内容

PyTorch 分布式之弹性训练(1) --- 总体思路

只要worker的数量维持在开始工作时指定的范围内，新worker就可以随时离开或加入到现有训练job的进程池。...PET循环是可重试的循环，其负责建立或重新建立过程组，以及将用户的训练恢复到良好状态。在新worker加入进程池时，用户需要指定状态是什么以及如何把状态施加到一个新worker之上。...3.2.2 新设计概述 PET v0.2 从 v0.1 之中获取了不少经验，下面讲讲 v0.2的设计理念。动态范围在 PET v.0.2 中，我们不再尝试恢复训练函数中的错误。...将来，TE 希望为检查点机制提供更多更方便的API，开发人员可以选择使用这些API来实现更高效的重启语义。...Horovod 提供了内置实现，在每次训练间隙，使用 state.commit() 完成checkpoint。 TE 需要用自己实现保存/加载 checkpoint。如何发现新节点？

1.6K2 0

分布式训练框架Horovod初步学习

如果您从PyPI：https://pypi.org/project/torch 安装了 PyTorch，请确保已安装了g++-4.9 如果已安装来自Conda 的任一包，请确保已安装 Conda 中的...gxx_linux-64包安装 pip horovod 在 CPU 上运行： $ pip install horovod 要使用 NCCL 在 GPU 上运行： $ HOROVOD_GPU_OPERATIONS...分布式优化器将梯度计算委托给原始优化器，使用allduce或allgather来平均梯度，然后应用这些平均梯度。将初始变量的状态从rank 0广播至其他进程。需要保证初始化的一致性。...(optimizer, root_rank=0) 在使用随机权重开始训练或从检查点恢复训练时，这对于确保所有工作人员的一致初始化是必要的。...修改代码以仅保存工作线程 0 上的检查点，以防止其他工作人员损坏它们。通过使用保护模型检查点代码，实现此目的。hvd.rank() !

3.2K5 0

深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构

弹性训练使得Horovod具备运行时worker数量动态伸缩，而不需要重启或者只是从存储中的checkpoint恢复训练。...如何从 checkpoint恢复？ checkpoint需要存储哪些东西，即，对于horovod来说，哪些状态是必须的？如何监听 worker 的工作情况？怎么判断机器出了问题？...因此，当此状态发生时，会抛出一个 HorovodInternalError 异常，当 hvd.elastic.run 捕获到这个异常后，会利用最新一次commit中恢复所有状态。...此异常的处理方式与“HorovodInternalError”类似，只是参数状态不会还原到上次commit，而是从当前实时参数中恢复。...Horovod 会执行如下流程: 在 hvd.elastic.run 装饰器中捕获上述两个错误；如果抛出的是 HorvodInternalError 错误，则会从最后的一次 commit 状态中恢复；

9832 0

TensorFlow 2.0 的新增功能：第一、二部分

在本节中，我们将介绍参差不齐的张量以及如何使用它们，并且还将介绍 TF 2.0 中引入的新模块。参差不齐的张量当训练和服务于机器学习模型时，可变大小的数据很常见。...估计器提供了一个安全分布的训练循环，该循环控制如何以及何时执行以下操作：建立图初始化变量加载数据处理异常创建检查点文件并从故障中恢复为 TensorBoard 保存摘要使用 Estimators...API 从任何检查点加载权重并将其用于评估： model.load_weights(checkpoint_path) ... 手动保存和恢复权重模型权重也可以保存在检查点文件中。...，该部分说明了如何使用此功能训练模型。在本节中，我们将展示如何使用分布策略跨多个 GPU 和 TPU 训练基于tf.keras的模型。...它还详细介绍了如何在训练时保存，恢复模型以进行将来的训练以及进行推断。

3.7K1 0

深度学习分布式训练框架 horovod (21) --- 之如何恢复训练

[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练目录 [源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 0x00 摘要 0x01...PyTorch 原生DistributedSampler 的区别，Horovod 弹性训练如何恢复等。...使用PyTorch做切入的另外一个原因是：在恢复训练这个流程上，PyTorch相关部分确实相对清晰明确。...此时不是关键异常，因此可以继续训练本epoch，只是从后续训练数据中，移除本epoch已经处理的数据。因此可以做到参数状态不会还原到上次commit，而是从当前实时参数中恢复。...所以重新训练时候，本epoch之内，不会用已经训练的数据再次重复训练，而是从当前实时参数中恢复。

9252 0

深度学习分布式训练框架 horovod (14) --- 弹性训练发现节点 & State

本系列其他文章链接如下： [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 [源码解析...发现节点机制的几个关键设计点如下：有节点变化时候，如何即时发现？Horovod是通过定期调用完成。发现节点变化时候，如何通知各个worker? Horovod通过构建了一个通知机制完成。...State 对象的作用是定期存储训练状态，在需要时候从 State 对象中恢复机器学习的状态。这样在某些worker发生意外错误时，可以避免因为状态被损坏而无法恢复现场。...这个异常类似于 HorovodInternalError 异常，但是参数状态等不会从最近一次commit中恢复，而是从当前实时的参数中恢复。..._saved_optimizer_state) 4.4 Restore 我们看到了，restore 会从内存中恢复模型。 def restore(self): self.

4762 0

为什么要使用Keras？

在如今无数深度学习框架中，为什么要使用 Keras 而非其他？以下是 Keras 与现有替代品的一些比较。 Keras 优先考虑开发人员的经验 Keras 是为人类而非机器设计的 API。...与其他任何深度学习框架相比，Keras 在行业和研究领域的应用率更高（除 TensorFlow 之外，且 Keras API 是 TensorFlow 的官方前端，通过 tf.keras 模块使用）。...在浏览器中，通过 GPU 加速的 JavaScript 运行时，例如：Keras.js 和 WebDNN。在 Google Cloud 上，通过 TensorFlow-Serving。...在 Python webapp 后端（比如 Flask app）中。在 JVM 上，通过 SkyMind 提供的 DL4J 模型导入。在 Raspberry Pi 树莓派上。...Keras 的发展得到深度学习生态系统中的关键公司的支持 Keras 的开发主要由谷歌支持，Keras API 以 tf.keras 的形式包装在 TensorFlow 中。

1.6K2 0

深度学习框架Keras简介

能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。如果你在以下情况下需要深度学习库，请使用 Keras：允许简单而快速的原型设计（由于用户友好，高度模块化，可扩展性）。...在如今无数深度学习框架中，为什么要使用 Keras 而非其他？以下是 Keras 与现有替代品的一些比较。 ---- Keras 优先考虑开发人员的经验 Keras 是为人类而非机器设计的 API。...与其他任何深度学习框架相比，Keras 在行业和研究领域的应用率更高（除 TensorFlow 之外，且 Keras API 是 TensorFlow 的官方前端，通过 tf.keras 模块使用）。...在 Python webapp 后端（比如 Flask app）中。在 JVM 上，通过 SkyMind 提供的 DL4J 模型导入。在 Raspberry Pi 树莓派上。...Keras 的发展得到深度学习生态系统中的关键公司的支持 Keras 的开发主要由谷歌支持，Keras API 以 tf.keras 的形式包装在 TensorFlow 中。

1.2K6 0

深度学习分布式训练框架 horovod (17) --- 弹性训练之容错

[源码解析] 深度学习分布式训练框架 horovod (17) --- 弹性训练之容错 0x00 摘要 Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架，在业界得到了广泛应用...：在 hvd.elastic.run 装饰器捕获异常；如果是 HorovodInternalError，就恢复到最近一次提交（commit）的状态；重新初始化 Horovod context，然后...，rank=0 的 worker 会将自身的模型（状态）广播给其他 worker；接着上次停止的迭代步数开始训练，继续跑下训练函数(train)中的代码；我们具体来看看如何处理。...回忆一下 run_fn 是从哪里来调用的。原来是在 run 之中，就是运行 wrapper。而 wrapper 本身是对用户训练函数的包装。...0xFF 参考 ElasticDL调用 Horovod 在Kubernetes上实现弹性 AllReduce（一） kubernetes 培训_在Kubernetes上使用horovod进行分布式深度学习培训

1.2K3 0

深度学习分布式训练框架 horovod (7) --- DistributedOptimizer

前面几篇链接如下： [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 [源码解析]...，因此问题点会和其他文章有部分重复：第一个技术难点是：Horovod 如何从 TF 的执行流程中获取到梯度（gradients）进行处理？...前向传播输出的预测值会同真实值 label 进行对比之后，使用损失函数计算出此次迭代的损失；把这个损失进行反向传播，送入神经网络模型中之前的每一层进行反向梯度计算，更新每一层的权值矩阵和bias；深度学习框架帮助我们解决的核心问题之一就是反向传播时的梯度计算和更新...，从而可以在优化模型阶段得到梯度，所以我们从_DistributedOptimizer进行分析。...具体可以回忆用户如何使用： # TF官方Optimizer opt = tf.optimizers.Adam(scaled_lr) # 把常规TensorFlow Optimizer通过Horovod

1.5K1 0

深度学习分布式训练框架 horovod (15) --- 广播 & 通知

本系列将通过源码分析来带领大家了解 Horovod。本文是系列第十五篇，看看horovod 弹性训练如何广播和发送通知。...本系列其他文章链接如下： [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 [源码解析...这个异常类似于 HorovodInternalError 异常，但是参数状态等不会从最近一次commit中恢复，而是从当前实时的参数中恢复。...具体如何使用？在 WorkerNotificationService . _handle 方法之中，调用了 self....从系统变量中得到 rendezvous 的各种信息，比如地址，端口，key 等等；生成 WorkerNotificationService，赋值给 _service；使用 put_data_into_kvstore

1.1K2 0

【经验分享】如何使用keras进行多主机分布式训练

在多工作器（worker）培训中，除了常规的“工作器”之外，通常还有一个“工人”承担更多责任，比如保存检查点和为 TensorBoard 编写摘要文件。...我们通过在您选择的分布式文件系统中保留训练状态来做到这一点，以便在重新启动先前失败或被抢占的实例后，将恢复训练状态。...ModelCheckpoint 回调要在多工作器训练中利用容错功能，请在调用 tf.keras.Model.fit() 时提供一个 tf.keras.callbacks.ModelCheckpoint...回调会将检查点和训练状态存储在与 ModelCheckpoint 的 filepath 参数相对应的目录中。...现在，每个工作器都将读取先前保存的检查点文件，并获取其以前的状态，从而使群集能够恢复同步，然后继续训练。

1.7K2 0

Flink1.4 外部检查点

概述检查点通过恢复状态和对应流位置来实现 Flink 状态容错，从而为应用程序提供与无故障执行相同的语义。请参阅检查点以了解如何为你的应用程序启用和配置检查点。 2....外部检查点 Externalized Checkpoints 默认情况下检查点不会持久化存储在外部系统中，只是用来从故障中恢复作业。当一个程序被取消时它们会被删除。...但是，你可以配置检查点定期持久化存储在外部系统中，类似于保存点(savepoints)。这些外部持久化的检查点将其元数据写入持久性存储中，即使在作业失败时也不会自动清除。...检查点状态只有在作业失败时才可用。 2.1 目录结构与保存点类似，外部检查点由元数据文件组成，一些其他数据文件（取决于状态后端）。...2.3 从外部检查点恢复作业可以通过使用检查点的元数据文件从外部检查点中恢复，就像从保存点恢复一样（请参阅保存点恢复）。

1.5K2 0

Flink大状态与Checkpint调优

Checkpointing调优应用程序可以配置定期触发检查点。当检查点的完成时间超过检查点间隔时，在进行中的检查点完成之前不会触发下一个检查点。...默认情况下，一旦正在进行的检查点完成，将立即触发下一个检查点。应用程序可以配置定期触发检查点。当检查点的完成时间超过检查点间隔时，在进行中的检查点完成之前不会触发下一个检查点。...Jobmanager反过来收集所有任务的句柄并将它们捆绑到一个检查点对象中。在恢复的情况下，Jobmanager打开最新的检查点对象并将句柄发送回相应的任务，然后可以从分布式存储中恢复它们的状态。...任务本地副本可能仅包含完整任务状态的一部分（例如，写入一个本地文件时出现异常）。在这种情况下，Flink 会首先尝试在本地恢复本地部分，非本地状态从主副本恢复。...使用我们的调度策略，我们让最大数量的任务有机会从它们的本地状态中恢复，并避免任务从彼此之间窃取之前的插槽的级联效应。

1.3K3 2

使用RaySGD更快，更便宜的PyTorch

从根本上讲，在训练深度学习模型时，有两种选择：选项1：容许20小时的训练时间，或专注于足够小的模型以在单个节点（或单个GPU）上训练的模型，以使事情简单并能够使用Jupyter Notebook之类的标准工具...可以使用集成工具之一来进行分布式训练，例如Torch Distributed Data Parallel或tf.Distributed。尽管这些是“集成的”，但它们肯定不是在公园中散步时使用的。...也许可能会看到类似Horovod的东西，但是Horovod将要求与过时的框架（如MPI）作斗争，并在启动时等待很长时间进行编译。...在p3dn.24xlarge实例上比较Horovod vs Ray（在后台使用Pytorch分布式DataParallel）。Horovod和Ray在不同规模上的表现相似。...这个简单的脚本将下载CIFAR10并使用ResNet18模型进行图像分类。只需更改一个参数（num_workers=N）就可以在多个GPU上运行。如何在整个集群中扩展PyTorch训练？

3.7K2 0

如何用Amazon SageMaker 做分布式 TensorFlow 训练？（千元亚马逊羊毛可薅）

TensorFlow 分发策略还利用了 NCCL，并提供了使用 Horovod 进行分布式 TensorFlow 训练的替代方法。本文使用的是 Horovod。...如果分布式训练使用 MPI，您需要一个在主节点（主机）上运行，而且控制着分布于多个节点（从 algo-1 到 algo-n，其中 n 为在您的 Amazon SageMaker 训练作业中请求的训练实例的数量...在附加于您的私有 VPC 的由 Amazon SageMaker 托管的 Amazon VPC 网络中，从 Amazon SageMaker 笔记本实例启动分布式训练作业。...以下是它们在设置训练数据管道的时间方面的差异：对于 S3 数据源，在每次启动训练作业时，它将使用大约 20 分钟时间从您的 S3 存储桶复制 COCO 2017 数据集到附加于每个训练实例的存储卷。...在所有三种情形中，训练期间的日志和模型检查点输出会被写入到附加于每个训练实例的存储卷，然后在训练完成时上传到您的 S3 存储桶。

3.3K3 0

深度学习分布式训练框架 horovod (8) --- on spark

本系列其他文章如下： [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 [源码解析]...如何在 Spark Executor 之上启动用户代码？ MPI 在这个机制中起到什么作用？我们在随后一一分析。 1.2 Spark 简单架构简要来说，Spark分成几个角色： Driver。...从 Horovod来说，Horovod DriverService 就是 driver node，Horovod TaskService就是 data node：数据分布在 n 个 data node...在 Horovod 的主进程中运行一个 SparkDriverService（对应 spark driver），或者说就是 Spark driver。...tensorflow 的进程调动起来，这样在进行tensorflow训练时就不需要手动地去组建网络。

2.1K3 0

文末福利｜一文上手TensorFlow2.0（一）

在TensorFlow1.x版本中，当我们使用TensorFlow低级API进行编程时，我们首先需要定义好计算图，然后创建TensorFlow会话（session）来执行计算图。...tf.placeholder（占位符，在执行“session.run()”方法时传入具体的值，TensorFlow2.0中不再使用，但依然可以在“tensorflow.compat.v1”模块中找到。）...当我们想恢复这些变量时，我们必须知道该变量的名称，如果我们没法控制这些变量的创建，也就无法做到这点。...使用tf.keras或PremadeEstimators构建、训练和验证模型 tf.keras作为TensorFlow的核心高级API，其已经和TensorFlow的其余部分紧密集成，使用tf.keras...使用SavedModel存储模型在TensorFlow中有两种模型存储的格式，一个是检查点（checkpoints），另一个是SavedModel，前者依赖于创建模型的源代码，而后者则与创建模型的源代码无关

1.3K3 1

防止在训练模型时信息丢失用于TensorFlow、Keras和PyTorch的检查点教程

如果你在工作结束时不检查你的训练模式，你将会失去所有的结果！简单来说，如果你想使用你训练的模型，你就需要一些检查点。 FloydHub是一个极其易用的深度学习云计算平台。...短期训练制度(几分钟到几小时) 正常的训练制度(数小时到一整天) 长期训练制度(数天至数周) 短期训练制度典型的做法是在训练结束时，或者在每个epoch结束时，保存一个检查点。...让我们来看看当我们对这两个参数进行操作时发生了什么： ? 在FloydHub中保存和恢复现在，让我们研究FloydHub上的一些代码。...我将向你展示如何在TensorFlow、Keras和PyTorch这三个流行的深度学习框架中保存检查点: 在开始之前，使用floyd login命令登录到FloydHub命令行工具，然后复刻（fork）...(通常是一个循环的次数)，我们定义了检查点的频率(在我们的例子中，指的是在每个epoch结束时)和我们想要存储的信息(epoch，模型的权重，以及达到的最佳精确度):

3.2K5 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云