序言
做为一个运维,总是看各种运维黑科技,今天看到了一种黑科技,简直是震撼人心,相当专业,分享一下。
是谁给你的勇气?梁静茹嘛。
风言风语
曾经看到的一个运维黑科技是,我要去吃饭,你故障了关我啥事,还特意强调几遍,我要去吃饭了,不要打扰我。
简直就是一脸懵,想想也是,不吃饭哪有力气处理故障呢,是吧,人之常情。工作也是为了生活,生活都不好,还有心情处理故障,棒棒的。
又现黑科技,不同的场景,相同的科技手法。
告警短信频发,上来就把告警关闭,然后再处理。不清楚告警影响范围,没有通知相关的人员进行排查,上来就关闭告警,这是什么操作。
就像有个人突然摔倒了,在那大喊,我腿疼,我腿疼,然后来了一个穿白大褂的医生,上来就说,用胶带把嘴封起来,不准叫,让我来查查哪里疼。然后一不小心,这孩子的爸爸听到了孩子的叫声,跑过来问,我儿咋了,刚刚听见喊救命了。
太多的借口,太多的理由,无非是为了怕出事,掩盖故障是一项黑科技,突然看到这种操作,简直是一脸懵,心脏都开始跳动了,太牛逼的操作了。
断桥残雪花最美。
运维黑科技,专业运维的核心竞争力,这波操作太让人留恋。
成长是一种游戏,勇敢的人先开始,干了这杯烈酒,出了故障一起背。无论你扛得住与否,不能回头。
如果是你?你会怎么处理?
一般的做法是看见告警,确定影响范围,汇报,对于重大故障,汇报并召集人手,开始应急处理;相对好的做法就是,点一个按钮,发送告警已收到,正在处理中,恢复完成之后,点一个按钮,发送系统已恢复,原因是啥啥啥;更好的做法是,系统检测到问题发生,自动去处理,检测到某关键服务有问题,发送告警短信,某某机房整体宕机,需要立即将流量进行切换到灾备机房,请登陆某某系统进行切换,故障倒计时20分钟(ups一般能撑30分钟),切换完成后,发送恢复信息,某机房掉电,已经手动进行切换流量,暂无故障发生;当是一个一般的服务的时候,会记录一条告警信息,保存相关的日志,记录某某系统因为内存泄漏已自动重启,业务失败请求404个。
当你压力大的时候你会想起谁?想我没用,想想自己的团队,哈哈哈
运维,解决问题的能力是核心竞争力,随着东西越来越多,你会发现除了你是运维,其他你啥都不知道,不会,不懂,脑子一片空白,脑子呢,你快回来,哈哈哈
所以呢,单纯的运维一般面临的场景就是,不要你的时候屁用没有,要你的时候,哎哟,真的没屁用,好尴尬。
所以呢,还是多看看自动化运维吧,毕竟系统比人可靠,系统的不会误操作,系统不会说谎,系统会扛住很多风险,系统会帮你做很多很多事儿。