亲爱的同学们:
大家好。
有些同学可能已经注意到了,今天的《美团点评智能支付核心交易系统的可用性实践》一文,其实是2月28日《战狼项目:美团点评金融核心交易系统可用性7个9是这样炼成的》(下称:《战狼》)的修订重发。
《战狼》一文出现了“可用性7个9”(对应年故障时间只有3.15秒)这样很不严谨的说法,而且作为标题要素,具有很大误导性,造成很不好的影响。
文章发出后,很快就有同学在评论中指出这个问题。但由于文章总体内容还是颇具价值,获得了很好的阅读数,我们运营团队从自身KPI考虑,没有及时删稿,使问题文章继续存在了一周时间。
在这里,我们郑重向业界同仁道歉。
跟大家解释一下为什么会出现文章中的问题。
业界通常使用的可用性计算公式是:
%availability=(Total Elapsed Time-Sum of Inoperative Times)/ Total Elapsed Time
计算机系统的可用性用平均无故障时间(MTTF)来度量,即计算机系统平均能够正常运行多长时间,才发生一次故障。系统的可用性越高,平均无故障时间越长。可维护性用平均维修时间(MTTR)来度量,即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好,平均维修时间越短。计算机系统的可用性定义为:MTTF/(MTTF+MTTR) * 100%。由此可见,计算机系统的可用性定义为系统保持正常运行时间的百分比。
而在美团点评技术团队内部,我们平常更多关注服务的“接口成功率”,其定义为:
接口成功率=接口成功调用次数 / 接口总调用次数
平时我们内部技术同学习惯说的“可用性”,其实是指这个“接口成功率”。
我们做技术博客和美团点评技术团队公众号,是希望将美团点评的技术成果、经验、思考总结出来,回馈社区,与外部同学切磋交流,共同提高。同时也反映我们团队的低调务实、实事求是的文化,体现我们的技术水平,建立我们的技术品牌和行业口碑。
出现这种错误是不可接受的,直接违反了美团点评“以客户为中心”、“追求卓越”等多条价值观。
我们已经在内部进行了自我检讨和复盘。同时,我们也已经重新设计了公众号/技术博客内容的审核和发布流程,避免再次出现类似错误。
2014年9月,“美团点评技术团队”公众号开始运营,目前已经有超过10万业界同行关注。
感谢大家一直以来的陪伴和支持。
未来也希望大家继续帮助我们,实事求是地提出更多批评和建设性意见。