上一个是 高性能,这一篇就分析高可用。
Nginx和服务治理框架均支持一个节点失败后访问另一个节点。
通过心跳检测并实施主备切换(比如redis的哨兵模式或者集群模式、MySQL的主从切换等)。
保证核心服务,牺牲非核心服务,必要时进行熔断;或者核心链路出问题时,有备选链路。
对超过系统处理能力的请求直接拒绝或者返回错误码。
包括producer端的重试机制、broker侧的持久化、consumer端的ack机制等。
能支持按机器维度进行小流量部署,观察系统日志和业务指标,等运行平稳后再推全量。
全方位的监控体系,包括最基础的CPU、内存、磁盘、网络的监控,以及Web服务器、JVM、数据库、各类中间件的监控和业务指标的监控。
类似当前的“混沌工程”,对系统进行一些破坏性手段,观察局部故障是否会引起可用性问题。
高可用的方案主要从冗余、取舍、系统运维3个方向考虑,同时需要有配套的值班机制和故障处理流程,当出现线上问题时,可及时跟进处理。
分层+拆分
比如上面谈到的互联网最常见的分层架构,另外还能进一步按照数据访问层、业务逻辑层对微服务做更细粒度的分层(但是需要评估性能,会存在网络多一跳的情况)。
按照业务维度做垂直拆分、按照数据特征维度进一步做水平拆分(分库分表)。
最常见的是按照业务维度拆(比如电商场景的商品服务、订单服务等),也可以按照核心接口和非核心接口拆,还可以按照请求源拆(比如To C和To B,APP和H5)。