导语 :2018年下半年,腾讯某数据中心进行了年度35kv高压电气试验(简称电试)工作,尽管准备足够充分,在电试变更过程中还是出现了出人意料的紧急情况……那么,我们是如何将形势转危为安的呢?
背景
①变更
基础设施变更为“在互联网数据中心(IDC)范围内,对为IT系统提供正常运行环境的基础设施进行的可能造成数据中心可靠性影响或潜在影响的操作”。简单来说,变更是突破系统稳定状态的操作过程,或多或少会降低系统冗余度并有潜在风险。变更的主要风险管理目标有两点:
1、在业务最低感知的情形下(无感知或轻感知),以受控的方式完成基础设施变更的内容;
2、应对变更过程中可能出现的异常情况,杜绝由于变更引发次生风险。
②高压电试
高压电试是对“高压电气设备运行状态、电气性能”的测试与检查工作,通过分析消除潜伏的性能缺陷,提前处理设备老化等问题,保障IDC的稳定运行,简单来说,电试是一次线路停电的检测。
电试作为一次重大变更,为了保证变更中数据中心的安全,数据中心经理作为一线直接管理者,需要主动承担风险管理的责任,本文从腾讯数据中心电试变更实例出发,介绍过程中遇到的情况,分享数据中心管理者如何实现变更风险控制目标。
1、风险判断
变更开始之前,需要从技术与管理角度分析所有可能的风险。该数据中心为交流直供加高压直流(AC+HVDC)的双路供电架构,以其为例对电试过程进行拆分如下图,A路为AC直供侧:
可见,电试变更对IDC的直接影响在于,A/B路市电进线将分别中断4到8小时,中断过程中机房由单路市电提供电力,供电冗余度降低一半;同时,在市电中断与恢复的瞬间,设备单侧供电会有电力波动。针对影响,可以提前进行应急准备,包括设备可用性验证,如柴油发电机、高压直流系统等的性能验证,末端设备的电源冗余能力排查等。
2、现场调度
变更尤其是重大变更中,数据中心经理需要坐镇现场,做好现场调度安排,同时接收并处理第一手信息。在本次电试时现场做了如下工作:
召开变更工前会。参与各方碰头明确职责,明确时间节点、变更目标、异常回退处置等;需要保证所有相关人均知晓“今天要做什么”,以及“自己要做什么”;
然后,做好应知应会,保证所有干系人能够有效配合与协作。如建立变更沟通群,并在群内实时通告情况,同时提醒远程同事做好应对准备;
此外,确保现场团队各司其职有效运转。根据团队责任划分开展工作,如厂家、高低压团队、暖通团队、IT驻场团队、安保团队等,各自准备工具、检查设备运行状态与模式、按人分配巡检处置区域等;需数经确认整体的准备就绪后,方可正式开始电试工作;
最后,保证各系统在每一步操作后按预定计划动作。若有异常或故障,及时进行人工干预或回退。如断电后,首先确认高压母联是否正常动作,机房低压侧恢复双路供电;同时动力团队确认HVDC、ATS、冷机、空调等设备运行正常,并在变更过程中定时巡检变压器;驻场巡检并恢复故障设备。因为电试前做了充分排障,整个过程未导致任何业务设备异常。
3、变更故障
变更过程中会出现很多不可预知的情况,有些问题会随着事态变化升级为故障。在电试中,尽管考虑了诸多可能性,但是在过程中仍碰到了出人意料的情况。
首先,摇出A路市电的35kv进线小车时,发现部分动触头端子出现较为严重的锈蚀。对于高压设备,锈蚀会导致接触不良并增大接触电阻,造成端子发热,如果腐蚀扩散,会影响整个铜柱的导电性能。经观察判断,触头端子锈蚀已较为严重,决定于现场进行临时的除锈处理,保证可用性的,并继续电试的内容,后续再视情况替换。
然后,因为锈蚀与冷凝水的双重问题,一度出现了无法回退的情况。电试当天现场环境温度22度、相对湿度76%,小车摇出后降温,迅速被水汽包围,设备周围出现细密的冷凝水。在这个工况下,第一次进行耐压测试时,锈蚀严重的A/B相端头对地耐受电压仅20kv,无法满足35kv市电的使用电压,更是完全无法满足72kv的电试耐压标准值,这意味着在该工况下已是无法回退。
根据现场情况,初步判断当小车在柜内正常运行时,因柜内有辅助电加热除湿设备,同时铜柱有稳定电流通过,可以满足正常使用,但是小车摇出降温后,因腐蚀、冷凝水以及高空气湿度等作用,导致设备耐压不达标。
经过紧急商讨,一致认为A路市电的电试已无法继执行,需要回退。通过抹布、吹风机等物理手段对设备上附着的冷凝水进行清除,待设备完全干燥后,进行了第二次耐压测试,电压能达到40kv,确认各系统满足后进行了回退操作。
4、现场处置
基础设施变更的过程中,随着情况的升级,需要数经审时度势,做出最正确的处置。在此次电试的过程,第一时间做了如下决断:
及时回退保障业务。
发现端头锈蚀时,判断可以继续电试进程,因为锈蚀还暂不影响使用;但是当出现耐压不满足要求时,已经升级为事实故障:电试无法达标并且该路供电无法恢复,意味着机房电力冗余能力降低一半,并随时触发系统性风险。基于此判断,数经当机立断叫停了A路市电的电试工作,进行回退处理。
关于A路回退后,B路市电是否需要进行电试,现场也进行了讨论。
有人认为B路还可继续进行,一方面变更窗口剩余时间充足,另一方面电试供应商希望一次尽量多完成测试内容。但是数经判断,继续B路市电电试已不适合。首先,A路市电虽然恢复了供电,但是耐压测试证明,设备已是带病上岗。中断B路市电时无法保证A路可以顺利承载整个机房的负荷,若A路满载运行出现任何故障,将直接导致双路市电中断;同时,A/B路高压柜设备处在基本相同环境中,B路结果已可预见与A路相当,在当时的情况下,大概率是无意义操作。
因此,数经直接叫停了当天的全部电试工作,以变更失败进行了内部通告,待条件允许后重新启动。
5、问题管理与解决
变更虽然回退了,但是数经的工作没有结束,遇到的问题还没解决,电试也需要重新启动。因此数经需要做好问题管理,分析变更中发现的问题,并推动解决。电试中发现的锈蚀与耐压问题,其原因其实是空气湿度过高。
原因分析
35kv站地处一楼靠近外墙,厂房地基防水层经过年腐蚀已不能满足要求。同时有通风口、门缝隙等与外界空气导通,而站内没有配置合适的湿度控制装置,导致站内湿度受室外湿度影响较大。电试工作在9月初开展,当天站内空气湿度为76%,遇黄梅天将会更加严重。
对于锈蚀,开关柜内湿度过高导致动触头生锈,虽有一个电加热除湿装置,但是除湿能力有限,靠近电加热设备的C相端头锈蚀相对最轻,远离的A/B锈蚀严重。对于耐压能力,一方面设备锈蚀后电气特性发生变化,铜绿的耐受能力比纯铜柱差,这是内因;另一方面,现场环境湿度本就较高,尤其是有冷凝水附着在设备上后,空气的单位阻抗降低,从而降低了空气的击穿电压,这是外因;内外两个因素共同作用下,结果可想而知。
吉德林法则说,把难题清清楚楚地写出来,便已经解决了一半。
解决手段
现在,我们来彻底解决这个问题。首先,将站内与外界连接的部分(如门下部缝隙),尽量采用沙袋等物理手段进行隔离,根源上减弱水汽入侵;同时调拨临时除湿机,进行主动空间湿度控制,加装除湿机后,现场湿度由76%降低到62%左右;同步,为35kv站采购专配的除湿机,解决长期除湿问题,目标湿度控制到50%,目前现场湿度已保持基本正常。对于锈蚀的触头,首先考虑进行除锈处理,充分除锈后进行测试,如果仍然无法满足要求,则需要进行备件的更换。
总结
基础设施变更最大的风险在于:无法预知会出现的所有情况。无论事前如何准备,复杂的现场情况也可能会导致突发情况,此时风险的控制至关重要。复盘该数据中心电试电试过程,也有如下体会:
①充分准备
基础设施变更之前,需要进行充分的风险判断与准备。对于显见的风险,需要进行针对性的准备。
②把控大局
数据中心经理作为变更的第一负责人,需要参与一线并主导变更。主动承担变更责任,并且调度各方面同事的力量,通力合作。
③业务导向
多系统交融的系统下,变更随时会出现特殊情况,无论何时,都应该记住以保障业务安全为第一目标。
④随机应变
变更的目的是消除隐患保障安全。若变更可能带来更大次生风险时,必须以业务安全为依归,根据事态发展审时度势判断。面对压力,不能因为要完成变更而冒着风险执行,这属于本末倒置的行为。
⑤主人翁意识
问题发现在故障发生之前都有挽回的余地,变更中出现问题并不可怕,怕的是人为的忽视、遗漏问题,作为大管家,数经要对问题保持不依不饶的较真精神,直到问题闭环。
互联网早就如水电一般融入到每个人的生活,互联网数据中心作为大本营与一切的基础,其安全可靠的意义,也已超越了一个业务、一款产品或者一家公司本身。
而数经作为IDC的大管家,更要坚守自己的使命,在漫长运营生命周期的起承转合中,当好业务安全的守门员与开拓者,这不仅仅是工作本身,也是在无声的守护每一个平凡人的美好生活。