首页
学习
活动
专区
圈层
工具
发布

一次近乎完美的PostgreSQL版本大升级实践

为此,我们需要制定一个回滚计划,以保证 12 节点集群的 6 TB 数据一致的同时,优化恢复目标时间(RTO)后的容量,为 600 万用户提供每秒 300000 次的聚合交易服务。...使用在维护期间和升级前的磁盘快照恢复其他节点 升级中的所有步骤都在用于运行项目的模板中有详细说明 pg_upgrade 运行原理 pg_upgrade 让我们可以在不用 dump/reload 策略...我们保存了 9.6 版本的副本和 GCP 快照作为后备计划的回滚路径。因为从头开始重建副本是不可能,所以我们选择使用 rsync 增量功能来进行升级。...在主节点和次级节点上执行升级 收集升级后的统计数据 使用 Chef 同步更改,以保持配置管理的完整性 验证集群的完整性和状态 执行 GCP 快照 (可能的)回滚过程 playbook 以交互方式逐个运行所有任务...在正式开始更新前,必须要告知 Patroni,避免任何虚假 leader 选举,通过 GCP 快照(通过对应 低级备份 API 获得)进行一致的备份,并通过运行 Chef 应用新的设置。

2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【云存储前沿技术报告】-25.5

    背景与重要性: 将S3从单纯的数据存储转变为分析管道中的活跃组件,减少了针对某些类型查询将数据迁移到专用数据仓库的需求。...EBS 基于时间的快照 7: 允许用户在快照开始前指定完成快照的期望时长。 背景与重要性: 为备份操作提供了可预测性,这对于满足恢复点目标(RPO)和管理备份窗口至关重要。 3....Dave's ponit GCP的数据管理能力从功能性上来看,距离前两个CSP仍有显著的差距,这并不是GCP的软件工程能力弱,而是长期以来GCP的基础设施似乎绝大部分都在为自身业务服务,不具备很强的对外服务能力...这意味着存储解决方案需要在此类分布式环境中具有可访问性和高性能,或者传输/缓存机制(如18中提到的Storage Transfer Service)变得更加关键。...这些示例表明GCP通过确保存储在性能控制、可靠性(快照)和对特定业务关键型应用程序的支持方面满足企业需求,从而吸引和留住大型企业客户。 D.

    39110

    GCP 上的人工智能实用指南:第三、四部分

    从可用选项中选择用于创建实例,或单击“自定义实例”以对新实例的各种参数和容量进行精细控制。 选择具有或不具有 GPU 的实例。 如果实例是使用 GPU 创建的,请选择选项以自动安装 GPU 驱动。...)] 图 9.4:创建新模型 如您所见,模型创建用户界面与用户熟悉的 GCP 上的其他服务一致。...在下一部分中,概述了 GCP 上可用于构建端到端 AI 应用的各种组件,下面让我们看一下如何在 GCP 上构建自动发票处理应用。...创建一个 Cloud SQL 实例 首先,让我们通过执行以下步骤来创建 Cloud SQL 实例: 从左侧面板中,从“存储”部分中选择SQL: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传...从以下屏幕快照中显示的选项中,将消息推送到主题中: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eb8ClKTe-1681704646261)(https://gitcode.net

    8.7K10

    使用RaySGD更快,更便宜的PyTorch

    作者 | Richard Liaw 来源 | Medium 编辑 | 代码医生团队 分发深度学习模型训练已经成为何时进行训练的问题,而不是如果这样做。...最重要的是,将不得不使用昂贵的按需实例,因为这些框架都不是容错的。 在自己的工作中,将这些问题确定为简化分布式深度学习训练的障碍。着手创建自己的解决方案来解决这些关键问题。...容错:支持抢占云上的计算机时自动恢复。现在可以使用竞价型实例将成本降低多达90%。 无缝的超参数调整:RaySGD与RayTune集成,后者是一种尖端的分布式超参数调整框架。...如何在整个集群中扩展PyTorch训练? 别担心,这只是4个额外的步骤。将演示如何在AWS 上运行RaySGD,但是在SLURM,Azure,GCP或本地群集上运行同样容易。...要在GCP或Azure上运行,只需在上述YAML中更改几行- 此处提供了更多说明。

    4.9K20

    云端迁移 - Evernote 基于Google 云平台的架构设计和技术转型(上)

    关于未来的考虑围绕着如何重新构建应用程序以更有弹性,以及如何能够同时服务多个区域的流量,以进一步减少从灾难场景中恢复所需的时间。...同时我们需要制定一个方案,在对正常的操作不产生影响的情况下,将数据从多个服务器迁移到与GCP的专用网络通道上。...用户附件存储 (从多个 WebDavs 到 Google 云存储) 我们有120亿个用户附件和元数据文件,可以从原始的WebDavs复制到Google云端存储中的新家。...使用shell脚本,我们能够与我们现有的库存和车队管理工具集成,以跟踪,启动,停止和恢复整个WebDavs中的资源迁移器实例。...另外考虑到每个WebDav不超过两个实例,每个物理服务器机柜不超过20个实例(由于网络限制)的约束,迁移协调器必须是数据中心感知的,并且能够智能地启动/停止/恢复n个实例 的资源迁移者,基于能处理的最小单元

    2.9K110

    18-Kubernetes进阶之应用与持久化数据卷备份迁移实践

    常常采用手动进行容灾备份, 如备份资源清单、或者helm模板,但是针对Kubernetes 资源和持久卷(PV/PVC)中得数据无法进行备份迁移,所以在这样得场景下我们就需要 Velero 是一个开源工具...1.按需备份: 将复制的 Kubernetes 对象的 tarball 上传到云对象存储中,调用云提供商 API 以制作持久卷的磁盘快照(如果指定)。...如果存储桶中有格式正确的备份文件,但 Kubernetes API 中没有相应的备份资源,Velero 会将信息从对象存储同步到 Kubernetes。...恢复资源时,目标集群中必须存在相同的 API 组/版本才能成功恢复。 3.Provider 插件供应商 描述: Velero 有一个插件系统支持各种存储提供程序,用于不同的备份和快照操作。...AWS 插件设置 (以及s3兼容的存储比如minio) 谷歌云平台 (GCP) 谷歌云存储 谷歌计算引擎磁盘 GCP 的 Velero 插件 GCP 插件设置 微软 Azure Azure Blob

    2.2K11

    云服务器配置买错了怎么办?升级 降配处理方法详解

    我用过一个方法是先将应用和数据做快照或镜像(AMI、快照或镜像模板),然后停止实例,创建一个更低规格的实例(比如从 8 核降到 4 核,或者内存从 16GB 改为 8GB)。...我曾把一个 CPU 占用率持续低的实例从 n1-standard-8 类型降到了 n1-standard-4,账单立刻减少 40% 左右。而我那个流量压缩工具挂在上面依然跑得很快,并没有影响生产环境。...再者,降配后流量可能变化,如 I/O 降速可能影响响应。要留意应用性能变化,若业务量增多需要随时升级。...我的很多测试环境都是通过 NiceCloud 渠道拿到原生态 AWS/GCP 账号,它让我能快速开通实例,没有国际卡、没有繁琐审核。...总结:配置买错不用慌,升级或降配都可控买错配置不是世界末日,关键是你的数据备份、性能监控、实例迁移流程要清晰。先跑测试、抓数据、搞推荐,再判断升或降,再做镜像快照迁移实例。

    26210

    零停机迁移 Postgres的正确方式

    作者 | RIGAS PAPATHANASOPOULOS 译者 | 王强 策划 | 万佳 在这篇博文中,我们会介绍如何在零停机时间的前提下,使用 Bucardo 将 Postgres 数据库迁移到一个新实例上...分 析 在本文中,我们将讨论将多个 Web 应用程序(如微服务)从一个数据库迁移到另一个的过程。现代软件架构由多个应用程序(或微服务)组成,而每个应用程序都有多个运行实例以增强扩展性。...一个简单的解决方案是停止旧数据库的写入操作,获取快照,将其恢复到新的数据库,然后在新数据库中恢复操作。这种方案需要的停机时间太久,不适合生产环境。...你可以从第一个数据库中获取全包快照并将其恢复到新实例,或者你可以从一个新的空数据库开始,然后分别传输用户、模式和数据(按这个顺序)。我们推荐后一种方法。...2020 年 1 月,我们不得不关闭旧实例并使用新实例,因为亚马逊即将迁移到新的 SSL/TLS 证书。这次迁移中,我们丢失了不少数据,花费了几天的时间来恢复它们。

    1.9K20

    如何在 Google Cloud 上部署 EMQX 企业版

    本文将指导您如何在 GCP 上部署 EMQX 企业版,并完成物联网消息发布订阅测试。...在 GCP 上创建并启动虚拟机实例 在部署 EMQX 企业版之前,我们先在 GCP 上创建一个 Virtual Machine。...在这个例子中,我们需要在 Ubuntu 20.04 上部署 EMQX 4.4.16,你可以从 EMQX Enterprise 页面获取所需信息。...在 GCP 上打开防火墙端口 在 GCP 上安装服务或应用程序后,您需要手动开放所需的端口才能够从外部访问它,请按照以下步骤在 GCP 上打开所需端口。...在本系列的后续博客中,我们将继续向您介绍如何将设备从 GCP IoT Core 迁移到 EMQX 企业版,以及如何通过 EMQX 企业版的 GCP Pub/Sub 集成无缝迁移 IoT Core 服务。

    3.6K10

    Evernote云端迁移 – 基于Google 云平台用户数据保护

    编辑手记:安全永远是第一重要的问题,无论是在本地还是在云端。 我们的安全团队的宗旨在于保护用户的数据。...同时我们构建了一个矩阵,来回答关于如何将数据从数据中心迁移到云基础平台的问题。...而一些控件,如IP白名单,不得不调整原来的安全架构,不能依赖于传统的网络控制。 我们通过使用Google托管密钥的GCP服务帐户来完成此操作。...我们通过使用GCP服务帐户解决了这个问题。 每个GCE项目都会获得默认服务帐户,用户在GCE中启动的任何实例都可以模拟该服务帐户以访问其他服务。...现在,使用GCP软件开发工具包(SDK)在该虚拟实例上运行的任何应用程序都可以使用内置的Google自管理的轮换密钥。 但我们的操作工程师没有必要访问这些密钥对。

    2.8K101

    高效掌握YashanDB事务一致性保障技术

    在现代数据库系统中,事务一致性是保障数据正确性和系统稳定性的核心问题。如何在高并发、多实例、多节点环境下有效实现事务的ACID特性,尤其是隔离性和持久性,成为数据库设计与优化的重要课题。...具体而言,系统通过如undo段等内部机制保存数据的历史快照,事务查询时依据系统变更号(SCN)来决定可见版本,确保每个查询得到一个一致的快照,从而实现语句级和事务级的一致性读。...主备同步及共享集群中的一致性保障YashanDB支持多种部署形态,包括单机主备、分布式集群主备和共享集群多实例多活。...检查点机制则负责将内存中的脏数据页按序写回磁盘,将数据库的数据状态推进到一致状态,减少实例恢复时间。...结论本文围绕YashanDB数据库的事务一致性保障技术,从多版本并发控制、事务隔离级别、锁机制、主备复制及共享集群架构,到redo日志及检查点机制、事务管理与恢复机制,进行了系统的技术解读。

    21510

    Redis基础教程(十七):Redis数据备份与恢复

    本文将详细介绍 Redis 的数据备份与恢复机制,包括 RDB 快照、AOF 日志、以及混合使用策略,并通过具体案例展示如何在实际环境中实施有效的数据保护措施。...CONFIG SET save : 配置 RDB 自动快照策略,如 CONFIG SET save "900 1 300 10 60 10000" 表示在900秒内如果有1个key变化,...案例:灾难恢复演练 假设我们的主 Redis 实例发生硬件故障,需要从备份中恢复数据。...我们有以下几种选择: 从 RDB 文件恢复:找到最近的 RDB 快照文件,使用该文件启动一个新的 Redis 实例。这种方法快速,但可能会丢失最后一次 RDB 备份后的数据更改。...从 AOF 文件恢复:如果 AOF 功能已启用,可以从最新的 AOF 文件恢复数据,这将提供更接近故障前的数据状态。但是,如果 AOF 文件很大,恢复过程可能比较耗时。

    1.9K11

    如何在K8S上备份和恢复MySQL

    如何在K8S上备份和恢复MySQL 越来越多的生产系统和关键应用运行在K8S上。在生产系统运行有状态应用,并不是一件容易的事情,它需要我们仔细的计划并部署。...我们之前有一篇文章专门介绍如何在K8S上运行高可用的MySQL。这次我们来介绍下如何备份和恢复MySQL。...下面的介绍会逐一回答上面的问题,以及介绍如何在K8S生产环境备份和恢复MySQL。...在K8S上备份MySQL的必要步骤 在我们制定备份和恢复计划的时候,很重要的一点是不是所有的数据都需要同等级别的保护。在生产环境中,我们需要满足我们的商业需求和客户需要的最合适的保护级别。...从备份中恢复MySQL 开始恢复,选择菜单栏里的Backups, 找到你需要恢复的备份,选择菜单栏里的Restore。

    3.1K11

    应用上云2小时烧掉近50万,创始人:差点破产,简直噩梦

    我创建了一个新的GCP项目ANC-AI Dev,设置了7美元的Cloud Billing预算,并将Firebase Project保留在Free(Spark)计划中。...由于我们在所有GCP项目中都使用了相同的公司卡,因此我们所有的帐户和项目都已被Google暂停。 2 噩梦仍在继续 这发生在3月27日星期五晚上,即我们计划发布Announce V1的三天前。...我们的GCP项目已连接结算以执行Cloud Run,但Firebase处于免费计划(Spark)下。GCP刚出了头就对其进行了升级,并向我们收取了所需的费用。...Google小组将在2天后恢复工作。 编辑:一些读者建议我在Google使用我的内部联系人。事实是,我没有与任何人保持联系,并且我使用了任何普通开发人员/公司都会采用的方法。...无服务器解决方案(如Cloud Functions和Cloud Run)的问题是超时。 在任何时候,一个实例将连续地在网页中抓取这些URL。但是9分钟后不久,它就会超时。

    46.2K10

    【转】分布式数据流的轻量级异步快照

    另一方面,有状态的数据流系统,如Naiad、SDGs、Piccolo和SEEP[3、5、11、12][3、5、11、12](它们也是我们在这项工作中的主要关注点),使用checkpoint检查点获取故障恢复的全局执行的一致快照...下面代码示例1展示了如何在Apache Flink实现一个增量的WordCount。在这个程序里,单词从文本读入,每个单词的count打印到标准输出。...一个提供弹性的方式是周期性地抓取执行图的快照,这样就可以用来稍后从故障中恢复。一个快照是一个执行图的全局状态,抓取所有必须的信息来从特定的执行状态重启计算。...在最简单的形式中,整个执行图可以从上一个全局快照重新启动,如下所示:每个任务t(1)从持久化存储中检索其快照stst的关联状态并将其设置为其初始状态,(2)恢复其备份日志并处理所有其中包含的records...图7:与基线的3秒快照间隔进行比较(没有容错) 8. 未来的工作和结论 在未来的工作中,我们计划通过解耦快照状态和运行状态来探索进一步降低ABS影响的可能性。

    1.1K21

    从零到一构建AI项目实战教程第二篇:环境搭建与基础工具安装

    可以从Python官网下载安装包进行安装,或使用包管理工具如apt(在Ubuntu上)或brew(在macOS上)进行安装。...IDE选择:集成开发环境(IDE)如PyCharm、VSCode、Jupyter Notebook等提供了代码编辑、调试、版本控制等功能,大大提高了开发效率。根据个人喜好和项目需求选择合适的IDE。...对于文本数据,可以使用文本编辑器或专门的文本处理工具进行预处理和标注。...云服务和资源:根据项目需求,可以考虑使用云服务提供商如AWS、GCP、Azure等提供的计算资源、存储服务和机器学习服务。这些服务通常提供预配置的深度学习环境,可以快速启动和扩展。...备份与恢复:定期备份工作环境和代码库,以防数据丢失或损坏。可以使用Git进行代码的版本控制,并使用Docker镜像或虚拟环境快照来备份开发环境。

    49110

    YashanDB数据库的快照与恢复功能详解

    在现代数据库管理中,如何实现数据的一致性保护和高效恢复,是保障业务连续性和数据安全的核心问题。传统数据备份方式存在恢复间隔长、数据易丢失等不足,因而采用快照与恢复技术成为关键解决方案。...本文将基于YashanDB技术体系,深入剖析其快照与恢复功能的原理、实现机制及优势。快照技术原理及实现方式快照技术在YashanDB中主要体现在对数据状态的时间点捕捉。...实例恢复机制基于检查点(Checkpoint)与redo日志。数据库启动时,SMON后台线程自动触发实例恢复,从最新检查点位置回放redo日志,将数据文件更新到一致状态。...YashanDB支持主备切换中的快速恢复,计划内切换(Switchover)前保证redo日志完全同步,切换后备库立即可提供业务,故障切换(Failover)结合日志回退机制修正日志分歧,降低数据丢失风险...多部署形态支持:从单机到共享集群的多样部署支持快照视图的一致性访问和稳定恢复,满足不同业务弹性和可用性需求。

    22210
    领券