运维千成条,稳定第一条,操作不规范,后台两行泪
###极简步骤
假设有zkid 【 1 , 2 ,3 】 的三台机器,现在因各种原因需要裁撤和下线 【1,2 】 的机器。
关于ZK的在线迁移实验和完整和详细步骤, 可见此文的操作
https://cloud.tencent.com/developer/article/1406912
缩容的详细步骤是
以上步骤必须严格按此步骤执行, 操作不规范会进入一个非常痛苦的场景
那结果就是大坑!!!
这时候 zk3-5仍然认为 【1,2,3,4,5】是一个集群
停止1,2服务是没有影响的,集群running .但是
已然处于一个非常危险的境地, 【1,2,3,4,5】
再任意宕机一台,集群都会停止服务 !!!
如果1,2的机器还在,或者说能够以原来的IP启动服务, 那此事比较容易
如果1,2的机器已然不在,而且你无法找到同样IP的机器,用于恢复服务,那此时只能以有损的方式,恢复到高可用状态
刚刚异常的场景是 【1,2,3,4,5】,按扩容步骤, 应该是增加 6, 7
但是:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。