开始怀疑是网络问题,但没有证据.随后网关的一台机器突然宕机,这个现象引起了我们注意.在上次迭代中,我们服务有一次重大升级,所有请求均会经过网关服务转发,以实现Server/DB单元化绑定,问题可能出在转发环节....为了验证猜想,我们重启了网关,随后业务侧积压现象迅速消失,排查范围锁定网关服务....第一个合理怀疑的方向是CPU,虽然CPU利用率40%不能算很高, 但网关和业务机器比达到了1:2,对于仅转发请求的网关来说仍然是不正常的高了....具体各自的拷贝原理不再深入分析,大家可以搜资料查看
热点问题解决了
给一下优化前后的CPU对比,以下优化结果是在请求量翻倍同时pod数减半的CPU表现:
优化前:
优化后:
2.3 最终定位
随着一步步的分析...看一下我们的使用方法,为了做到动态路由效果,我们使用了一个全局的filter拦截请求,然后根据算法确定需要转发的目标IP,每次请求都会生成一个新的Route对象
3.2 水落石出
坏就坏在这个newRoute