文章/答案/技术大牛

发布

Kubernetes的抗脆弱性

文章来源：企鹅号 - 高效开发运维

作者｜Bartek Antoniak

译者｜张婵

许多工程师都有很乐观的想法：让服务完美进行。他们在一开始就考虑好最终情况，不去想一些可能引起灾难的变化或不可预测的事件，也就无法从这些变化和不可预测性中获利，使服务变得更好。

如何才能利用好不稳定性，随机性和无序性？

有很多抗脆弱性相关的博客，但其中少有涉及现有技术的。这里我们把所有东西打包一下。

抗脆弱性

抗脆弱性这个词最先由 Nassim Nicholas Taleb 在他的书《Antifragile: Things That Gain from Disorder》中首次引入。

有些事物从冲击中受益，当面对不稳定性、随机性、无序性和压力源的时候，它们能生长繁荣；它们热爱冒险、风险和不确定性。然而，尽管这种现象很普遍，却没有一个说法能准确描述脆弱的反面。我们就管它叫抗脆弱性吧。抗脆弱性不仅仅是指弹性和稳健性，有弹性的事物能抵抗冲击保持原样，而抗脆弱的事物却能利用冲击变得更好。

Kubernetes的抗脆弱性

如何量化服务的脆弱性？服务失败了会发生什么？Kubernetes 能起到什么作用？

这些问题都关系到抗脆弱性的几个关键概念。

简易性

复杂的系统难以监测和维护。系统越大，变更起来就越难，任何突发事件都可能引起难以追踪和调试的不良后果甚至连锁故障。

Kubernetes 提供名为Pod的部署单元。Pod是运行在同一节点上有相同生命周期的容器集合。我们可以假设一个容器负责一个特定事件。

显然，还有其他种类的Kubernetes资源，比如：部署，DaemonSet，StatefulSet等。

可观察性

监测和日志记录是理解服务运行和表现的关键机制，尤其是在类似Kubernetes这样的动态分布式环境中。

Kubernetes上运行的所有容器都应当在stdout或stderr上记录应用程序输出日志。这能帮助形成独立的存储，并在容器崩溃时能让你及时了解情况。

Prometheus是SoundCloud研发的开源监控报警系统。它能和Grafana一起让你完全了解Kubernetes集群的健康状况。

容忍性和错误

想想自然母亲也没有那么“安全”，她可以肆意摧毁，替换，选择和重组。考虑到完全的稳健性几乎不可能达到，我们需要这样一种机制：它可以从随机事件、不可预测的冲击、压力源以及不稳定性中不断自我更新，而非从中受损。

同样的原则也适用于Kubernetes的环境。当由于某些原因节点死亡，所有的容器都将通过平衡资源利用重新分配到其他健康节点上。

关于容器还有liveness和readiness探针。Liveliness在应用程序进程无法继续时启动重启，Readiness则用来判断一个容器何时可以开始接受流量。

另外一个重要技巧是故障注入，有时也是混沌工程学方法的一部分，能让系统不断演进，避免混沌状态。

混沌工程学这门学科在分布式系统上进行实验，以提升系统容量，在生产中应对混乱状态。出自《PRINCIPLES OF CHAOS ENGINEERING》

kube-monkey是Netflix Chaos Monkey在Kubernetes集群中的一个实现。它在鼓励和验证故障恢复服务开发的集群中随机删除Kubernetes的Pod。

去中心化和隔离

分布式系统和生物体很像。心理学上有一种过度补偿机制，指个体不仅要弥补某一方面的不足，实现正常的补偿，还要努力使自己补偿的结果超越普通人，形成一种优势。如果分布式系统也存在过度补偿机制，显然能对突发事件作出更好的响应，再结合适当的隔离，就能限制爆炸半径。

Kubernetes提供命名空间的概念。可以认为它们是有访问控制策略（基于属性的访问控制（ABAC）或更颗粒化的基于角色的访问控制 (RBAC)）的区域虚拟集群。

具体命名空间也可以通过网络策略（说明哪些Pod集合可以相互交流以及和其他网络端点交流）限制在网络层。

非预期

有时在不确定的情况下很难做决定，比如，为了应对出乎意料的高流量，我们应该分配多少资源？我们需要多少在云中运行的实例？但很遗憾我们无法预测稀少事件的发生。

Kubernetes的一个优点是根据特定情况实现按比例缩放，比如在资源利用中，通过cluster-autoscaler调整节点数量，包括删除没有被充分利用的节点。

关于应用层的比例缩放，可以使用Horizontal Pod Autoscaler，它能够根据资源利用或自定义指标自动调整Pod的个数。

总结

最后我们还是诚实一点：完全不脆弱是不可能实现的，但是频繁快速的出现故障能使系统对错误有更强的抵抗力。

为了降低脆弱性，应该不断给部署过程以及在Kubernetes上运行的服务施以压力。

参考资料：

https://github.com/kubernetes/autoscaler/tree/master/cluster-autoscaler

https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/

活动推荐

随着 AI、Big Data、Cloud 的逐渐成熟，FAAS、CAAS 等技术的兴起，以及被运维业务的多样化和复杂化，很多传统的运维技术和解决方案已经不能满足当前运维所需，AIOps 智能运维、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等新技术和方向应运而生，它们一方面把最前沿的技术结合到运维中来，一方面在人员角色、领域范围、文化等方面又有了很多扩展，让传统运维有了翻天覆地的变化。

发表于: 2018-03-192018-03-19 18:55:17
原文链接：http://kuaibao.qq.com/s/20180319B1DM7A00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Kubernetes的抗脆弱性

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐