为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:
1.明确应急预案的触发机制。
2.完善应急处理流程,使得流程具有可执行性和高效性。
3.将流程中定义的岗位明确到人,未来人员发生变化时,同步更新本预案。
4.定义各种预案发生时的处理措施;
本应急流程适用于电子政务云平台环境的安全设备、网络设备、存储设备、主机设备、机房设施、电力供应等。
出现应急事件原则上都应采取上报-处理-反馈方式。
出现以下情况则触发应急预案:
注:当运维团队经过判断,满足以上情况时,即启动应急预案。其中一级、二级、三级故障的最终定级将由信息化服务中心决定。
应急组织架构包括应急领导小组和应急工程师。
应急领导小组包括电信应急领导小组和信息化服务中心应急领导小组。电信应急领导小组由项目总监领导,由IDC运维总监、云平台运维总监、技术总监、业务总监共同承担。
应急工程师包括IDC工程师、存储/备份/系统工程师、网络/安全工程师、硬件工程师、云平台工程师、客服工程师。
电子政务云平台一旦出现上述故障情况则触发应急预案,应急预案按照以下流程进行处理
流程 | 流程说明 |
---|---|
1. 委办局用户拨打7*24小时报障电话进行报障: 2. 客服工程师接收报障,做故障记录和分析(工作时间5分钟内响应,非工作时间0.5小时内响应) 3. 属于一级、二级、三级事故,需立即上报运维主管。运维主管上报运维总监/项目总监,启动应急流程。 4. 故障处理要求n 一级事故1小时解决n 二级事故2小时解决n 其他事故和用户协商解决 5. 客服工程师向用户反馈处理结果n 一级事故每15分钟反馈1次n 二级事故每30分钟反馈1次n 其他事故每天至少反馈2次 6. 属于一级、二级、三级事故,运维总监需立即上报市信息化服务中心接口人。并进行故障逐级升级通报。 7. 运维总监向市信息化服务中心接口人反馈处理结果n 一级事故每15分钟反馈1次n 二级事故每30分钟反馈1次n 三级事故每天至少反馈2次 8. 一级、二级、三级事故需提交故障处理报告。 |
当云平台巡检发现资源使用满足上述异常时则触发应急预案,应急预案按照以下流程进行处理
流程 | 流程说明 |
---|---|
1. 运维工程师巡检或日常维护发现资源使用异常,上报运维总监 2. 运维总监判断异常是否满足应急预案触发条件 3. 运维总监上报项目总监,提交采购需求 4. 项目总监核实采购信息,发起采购 5. 运维总监向中心申请资源扩容 6. 中心同意后进行资源扩容。 |
安全事件还需同时通告市信安办总值班
根据以上的故障分级以及故障影响范围,云平台运维团队将根据下表进行通知
平台级 | 部分客户级 | 单客户级 | |
---|---|---|---|
一级故障 | 电信高层领导市信息化服务中心受影响的客户 | 电信高层领导市信息化服务中心受影响的客户 | - |
二级故障 | 市信息化服务中心受影响的客户 | 市信息化服务中心受影响的客户 | - |
三级故障 | 市信息化服务中心受影响的客户 | 市信息化服务中心受影响的客户 | - |
安全事件 | 市信息化服务中心受影响的客户市信安办总值班 | 市信息化服务中心受影响的客户市信安办总值班 | 市信息化服务中心受影响的客户市信安办总值班 |
通告人员清单:
安全事件还需同时通告市信安办总值班。
通告方式:短信、微信通告
通告人:运维总监
通告时间:故障发生并判定影响范围后立即执行。
当发生应急事件时,将采取如下的故障通报升级矩阵:
注:下列升级通报方式均为电话通报。左边xxxx的人员的每一级人员对应右边信息化服务中心的人员做直接电话通报。其中第一级两边各有A/B角色人员,当A角不能汇报时由B角进行汇报。
安全事件还需同时通告市信安办总值班。
当出现资源使用异常触发应急处理时,应采用如下通报机制:
通告人员清单:
通告方式:运营周报(邮件)、扩容申请(邮件)、设备硬件更换(邮件)
通告人: 运维总监
通告时间:
以下清单为电信应急小组成员清单:
当前两台防火墙部署,锐捷防火墙RG-WALL-A上连政务外网和政务内网的主用链路,锐捷防火墙RG-WALL-B上连政务外网和政务内网的备份链路。
正常情况的业务流量:
1) 防火墙
云平台和电子政务外网之间主干链路上部署了两台锐捷的防火墙,用于保护云平台的网络安全。
2) 入侵防御系统
电子政务云平台有2台锐捷的入侵防护设备部署在网络边界,作为防火墙后第二道关卡,部署防火墙后面。可对经由电子政务中心的交互流量进行流量清洗,清除流量中涵盖的具有攻击行为的流量。
3) 入侵检测系统
电子政务云平台核心交换机旁挂锐捷的入侵检测系统,对数据中心各服务区之间和各用户访问数据中心的流量进行对应的安全防护。
4) 流量监控
流量控制设备在汇聚层交换机和防火墙之间,对电子政务云平台内外部的交互流量进行控制。
5) 漏洞扫描系统
在电子政务云平台内部的汇聚层交换机上旁挂启明星辰天镜脆弱性扫描与管理系统对整个云平台内部的服务器进行漏洞扫描。
6) 防病毒网关
电子政务云平台核心交换机旁挂趋势网络病毒墙-3600i设备,对所有经由政务网外围和云平台之间的通讯进行病毒防护。
7) 网络审计
电子政务云平台核心交换机旁挂锐捷的网络安全审计设备,对网络中的事件以及设备信息进行详细的审计。审计颗粒度为用户级别。对全员的上网行为进行相应的审计。
当客户报障发现用户资源资源无法访问,按照以下步骤进行排查。
上述故障判断中,满足1.1.1.2和1.1.2时则判断是平台网络故障,需要启用应急预案。其他为单用户故障,则作为日常故障处理。
当巡检发现到中心的网络无法访问,按照以下步骤进行排查。
上述故障判断中,满足1.1.1.2和1.1.2时则判断是平台网络故障,需要启用应急预案。
1.登记客户报障主机IP(如:10.126.192.254)
2.通过运维工作机去ping该主机是否能够通信/telnet端口是否可达。
则首先检查云平台的安全组规则是否开放了用户的端口。
如果云平台的安全组已经开通,则判断是用户把业务关了或者主机里起了防火墙,联系用户进行处理。
登陆BCC平台筛选实例,然后点击远程连接登陆进去实例看能否操作
通过运维工作机/运维监控机去ping/tracert查看到防火墙端口是否正常访问。
正常路径:
如下图所示正确访问路径如下:
如果出现到防火墙的路由正常,则执行4.1.4步骤
如果出现到防火墙的路由不正常,则执行4.1.7步骤
通过运维监控机去ping/tracert查看到信息化服务中心的地址是否正常访问。
如果访问10.192.2.253(互联网接入网)访问正常,则说明互联网接入网网络没有问题,通知用户检查到信息化服务器中心的网络;如果出现访问异常,则说明防火墙到中心的互联网接入网链路中断,则执行4.1.5.
如果访问10.64.2.253(业务专网)访问正常,则说明业务专网没有问题,通知用户检查到信息化服务器中心的网络,如果出现访问异常,则说明防火墙到中心的业务专网链路中断,则执行4.1.6
正常情况,如果和信息化服务中心的互联网接入网出现链路/端口故障,是会做自动切换,如果没有,则需要进行手工切换:
注意:操作前必须确认是网络全部中断,所有用户都不能访问互联网接入网的设备。如果有用户表示可以继续访问,那么需要进一步排查,不能采取以下步骤。
操作方法:
从运维监控机tracert路由,是否经过了备防火墙
检查具体故障是由于光纤链路、防火墙端口、板卡、设备等问题引起。
当信息化服务中心的业务互联网接入网出现链路/端口故障,是不会做自动切换,如果手工切换切换:
注意:操作前必须确认是网络全部中断,所有用户都不能访问业务专网的设备。如果有用户表示可以继续访问,那么需要进一步排查,不能采取以下步骤。
操作方法:
从运维监控机tracert路由,是否经过了备防火墙
检查具体故障是由于光纤链路、防火墙端口、板卡、设备等问题引起。
当监控机不能ping通防火墙地址,说明汇聚交换机到防火墙之间链路不通,由于目前备用防火墙不会主动接管,因此需要手工进行切换。切换有两种方式:
删除B防火墙上所有下一跳为10.192.2.9并且距离为1的路由条目,并关闭交换机到主防火墙的端口:
配置脚本如下:
注:该方式需要用于主防火墙的对内接口、汇聚交换机上联端口无故障的情况
检查具体故障是由于光纤链路、防火墙或者交换机端口、板卡、设备等问题引起。
在出现重大网络故障时,理想情况是先定位再解决故障。但有时故障定位需要较长时间时,往往要先解决再进行定位。
网络故障的定位主要有:设备整机、设备插槽/板卡、设备模块、光纤线路
网络故障定位和更换需要由网络工程师、厂家工程师共同完成。
目前两台防火墙并未作HA,如果主防火墙故障,则需要手工切换到备用防火墙。
每个防火墙共有4块板卡。可用槽位如下,非绿色的为空闲插槽,其中xge为万兆插槽,ge为千兆插槽
如果是第一块板卡故障,则没有备件,只能启用备用防火墙。
如果是第二块板卡故障,则没有备件,只能启用备用防火墙。
第三块板卡和第四块板卡类型一样。可以互为备件。
更换完插槽后,将故障接口的配置信息克隆到新插槽的接口上;
目前两台ID并未作HA,如果主IDP故障,则需要手工切换到备用链路。或者将防火墙与IDP进行相连的链路改为防火墙与ACE直接相连;
由于现阶段没有备用的板卡、插槽,所以不能进行更换插槽来进行故障定位。故通过把防火墙与IDP相连改为防火墙直接与ACE相连;查看通信是否恢复;
设备名称 | 模块类型 | 已用模块数量 | 未用/备件模块数量 |
---|---|---|---|
IDP A | 万兆多模模块 | 2 | 0 |
IDP B | 万兆多模模块 | 2 | 0 |
设备名称 | 光纤类型 | 已连接光纤数量 | 未用/备用光纤数量 |
---|---|---|---|
IDP A | 连接防火墙A | 1 | 0 |
连接ACE | 1 | 0 | |
IDP B | 连接防火墙A | 1 | 0 |
连接ACE | 1 | 0 |
设备支持bypass,设备宕机不影响业务流;
ACE没有备用插槽、板卡。故不能通过更换备件来进行故障定位;
设备名称 | 模块类型 | 已用模块数量 | 未用/备件模块数量 |
---|---|---|---|
ACE | 万兆多模模块 | 4 | 0 |
ACE没有备用模块。故不能通过更换备件来进行故障定位
设备名称 | 光纤类型 | 已连接光纤数量 | 未用/备用光纤数量 |
---|---|---|---|
ACE | 连接IDP A | 1 | 0 |
连接IDP B | 1 | 0 | |
连接汇聚交换机 A | 1 | ||
连接汇聚交换机 B | 1 |
设置支持冗余,一台宕机会自动切换到另一台。
每台汇聚交换机有5块板卡。
由于没有备用板卡,故不能通过更换备用板卡进行恢复,但由于双链路上下连,所以业务还是可以正常运行;
设备名称 | 光纤类型 | 已连接光纤数量 | 未用/备用光纤数量 |
---|---|---|---|
汇聚交换机A | 连接ACE | 1 | 0 |
连接接入交换机 | 1 | 0 | |
连接汇聚交换机2 | 2 | 0 | |
汇聚交换机B | 连接ACE | 1 | 0 |
连接接入交换机 | 1 | 0 | |
连接汇聚交换机2 | 2 | 0 |
设置支持冗余,一台宕机会自动切换到另一台。
每台接入交换机有7块板卡。
由于没有备用板卡,故不能通过更换备用板卡进行恢复,但由于双链路上下连,所以业务还是可以正常运行;
当客户报障发现无法访问存储资源时,按照以下步骤进行排查。
当巡检发现存储出现异常时,按照以下步骤进行排查。
登录存储管理界面,查看存储的设备健康状态,是正常、一般告警、严重告警。
一般告警主要是非存储问题引起的告警,如客户端未建立连接等引起的告警,出现此类告警可检查服务器是否开机、光纤交换机是否工作正常等来排查问题,这类告警不会影响全网业务,无需启用应急预案。
如果出现严重告警,主要是存储问题引起的告警,如单路电源故障、硬盘故障等,出现此类告警需尽快根据告警信息确认故障原因,未能准确定位原因的需尽快联系售后人员进行问题处理。
出现严重报警需启动应急预案。
当发现存储出现异常,需要联系厂家进行处理时,需要提供存储的日志信息给厂家。请按照如下方式导出存储日志:
1. 登陆存储控制器后,选中控制器名称单击“维护中心”,选择“导出日志和诊断信息”,点击“导出诊断信息”。
2. 勾选上“设备诊断信息”和“GUI控制台日志”,选择路径后“确定”,等待大约1分钟即可导出。
SP的物理端口显示连接错误
可能导致用户无法读写存储或者读写性能下降
可能存在光纤质量不佳,需要更换光纤。
1、如果仅是告警,业务没有受影响,则先不做任何操作,收集日志信息进行故障定位后再决定具体操作;
2、如果现场情况紧急,请将显示故障的FC光纤线缆拔出,请勿在插入回去,并继续进行观察。
SP的告警指示灯按照固定1Hz频率闪烁或者SP的告警指示灯常亮。
如果SP只是告警但还能正常工作,则不会对业务造成影响可以安排计划进行处理。
如果整个SP出现故障,由于两个SP具有冗余,可以自动切换。如果客户端配置好了多路径,切换过程是不会影响业务运行。
SP出现一般告警,如温度过高、电压过高等。严重告警可能存在硬件问题。
1、登录GUI界面,查看系统监控信息,进一步详细定位告警来源,并尝试解决故障:
2、如果SP工作温度过高或者过低,请检查机房环境温度是否在设备工作环境温度范围内,如果否,需要改善机房环境;
3、如果SP工作温度过高,检查风扇模块工作是否异常(判断方法请参考风扇故障处理),从而导致系统无法正常散热出现SP告警,如果是,解决风扇故障;
4、如果SP电压过高或者过低,请尝试关闭SP,并拔走电源线,等待2分钟,重新开机,然后登录GUI界面,查看系统监控信息,检查设备是否恢复正常;
5、如果上述方法均不能解决故障,请联系MacroSAN技术支持人员。
EP的告警指示灯按照固定1Hz频率闪烁或者SP的告警指示灯常亮。
如果EP只是告警但还能正常工作,则不会对业务造成影响可以安排计划进行处理。
如果整个EP出现故障,由于两个EP具有冗余,可以自动切换。如果客户端配置好了多路径,切换过程是不会影响业务运行。
EP出现一般告警,如温度过高、电压过高等。严重告警可能存在硬件问题。
!注意
更换电池模块时,务必保证设备供电正常,否则更换过程中设备异常掉电可能导致数据丢失。
更换电池模块后,电池模块将自动充电。
步骤1:拆除SPU面板,拔出待更换的电池模块。
步骤2:安装新的电池模块,并检查安装是否牢固,禁止虚插。安装SPU面板。
步骤3:登录设备GUI界面,检查电池模块信息是否准确,包括第一次上电时间、超期时间等,如果电池模块软件版本不匹配,请按附录升级电池驱动软件版本。
步骤4:请在更换新电池模块24小时后,查看电池模块状态是否正常,如果否,请联系售后接口人处理。
电源模块运行时,电源模块的告警指示灯按照固定1Hz频率闪烁或者电源模块运行时,电源模块的告警指示灯常亮
电源具有冗余,单个电源故障不影响业务。
电源故障。
!注意
如果SPU或DSU中安装了2个或以上电源模块,支持带业务更换电源模块。
步骤1:拔出待更换电源模块上AC电源线,拔出待更换的电源模块。
步骤2:安装新的电源模块,并检查安装是否牢固,禁止虚插。
!重要注意事项
请确认电源模块安装方向,禁止反插。
步骤3:安装AC电源线。
步骤4:登录设备GUI界面,检查电源模块信息是否准确。如果否,请联系售后接口人处理。
风扇模块告警指示灯常亮
风扇具有冗余,单个风扇故障不影响业务。
风扇故障。
步骤1:拔出待更换的风扇模块。
步骤2:等待30秒后,安装新的风扇模块,并检查安装是否牢固,禁止虚插。
步骤3:登录设备GUI界面,检查风扇模块信息是否准确。如果否,请联系售后接口人处理。
磁盘模块告警指示灯常亮
硬盘做了RAID+热备,单个硬盘故障不影响业务。会由热备盘顶上自动同步。但考虑到同步过程中再坏一块硬盘就会有问题,需要尽快更换故障硬盘。
1、磁盘驱动器与转接板接触不良
2、磁盘驱动器故障
!注意
● 安装磁盘时,请缓慢插入磁盘,切勿强行插入。如果需要在已经上电的设备中安装多个磁盘,各个磁盘插入插槽的时间间隔必须大于6秒。
● 拆除磁盘时,松开扳手锁扣并转动扳手,使磁盘和背板脱离接触,然后等待10秒以上,确保磁盘停转后才能将磁盘拔出。拔出的过程中请用一只手拉磁盘模块的拉手,另一只手托住磁盘模块的底部,平稳拔出磁盘。
步骤1:登录设备GUI界面,对需要更换的磁盘执行安全拔盘操作。
步骤2:等待30秒后,该磁盘的绿灯和黄灯将按照2Hz频率闪烁,此时可拔出磁盘。
步骤3:安装新的磁盘,并检查安装是否牢固,禁止虚插。
步骤4:登录设备GUI界面,检查磁盘状态是否正常。如果否,请联系售后接口人处理。
光纤交换机可以检查相关指示灯状态判断是否有异常。
平台的光纤交换机是2台一组做冗余,如果单台故障或者单条链路故障,而主机的多路径配置没有问题,则是不影响业务的。这时可以将故障光纤交换机下线并解决。
通过存储和光纤交换机的日志分析如果发现光纤线质量问题,则需要更换光纤线。
发生事件,首先要分析是否是安全事件还是其他的故障。一般来说,以下几类可以划分为安全事件:
1、向信息化服务中心和市信安办总值班报告协助检查
2、保留故障时刻安全设备以及用户机器的相关日志;
安全工程师应在故障时刻立即做日志保留,需要保留日志的设备包括:防火墙、交换机、入侵检测设备、受影响的服务器。具体操作参考4.4.6章节。
3、避免产生病毒的扩散,对相关设备做网络隔离处理
网络工程师应迅速将受到病毒感染的系统和网络中的其他系统隔离开,如果怀疑是蠕虫事件,则应该断开网络与外网的连接;
l 如果受到攻击的是一台虚拟机,则可以将该虚拟机关机或者断开网卡连接。
l 如果是一台物理机,可直接断开网线连接;
l 如果攻击已经蔓延到了物理节点,则需要将该物理节点从网络中断开;
具体操作参考4.4.7章节。
4、清除病毒和攻击
清除病毒和攻击,如果可以确定攻击和病毒的来源,则断开该来源和网络的连接。对已经遭受病毒感染和攻击的设备进行扫描和清理。
由于云平台的虚拟机系统由客户自行维护,在断开机器的网络连接用户无法远程查杀病毒时,可由云平台安全管理员与客户联系,确实机器是否有安装防病毒软件,可由客户、市信安办、厂商协助提供相关病毒查杀软件进行查杀。
5、恢复受攻击的系统
如果受攻击的系统已经无法根除病毒/隐患,则需要进行恢复,恢复的方式可以包括快照恢复虚拟机、从模板重新生成虚拟机并重新部署业务、从备份恢复数据。
如果受攻击的是物理节点服务器,则必要情况下要采取重装系统来恢复。
6、加固系统
通过漏洞扫描检测系统是否存在漏洞导致遭受攻击,并对相应系统进行安全加固。
云平台有漏洞扫描系统,可对用户的虚拟机、物理机进行漏洞扫描并提供扫描报告,检测是否具有安全漏洞。
用户可针对漏洞进行修复,对系统进行加固。
1、向信息化服务中心和市信安办总值班报告协助检查;
2、保留安全设备、服务器的相关日志;
3、检查入侵检查设备,根据用户要求必要时封锁某些来源的IP
1、向信息化服务中心和市信安办总值班报告;
2、保留安全设备、服务器的相关日志、操作记录;
3、虚拟机出现损坏,可后台先对虚拟机做完全拷贝,保存现场,并对拷贝的虚拟机尝试进行恢复
4、尽可能恢复系统和数据,如果不可恢复,则和用户协商,使用虚拟机快照、备份数据进行恢复;
一旦机房发生火灾,应遵循下列原则:
1、向信息化服务中心和市信安办总值班报告;
2、通知用户需要业务中断;
3、首先保证人员安全;
4、其次保证关键设备、数据安全;
5、三是保证一般设备安全。
6、人员灭火和疏散的程序是:值班人员应首先切断所有电源,同时通过119电话报警。值班人员戴好防毒面具,从最近的位置取出灭火器进行灭火,其他人员按照预先确定的路线,迅速从机房中有序撤出。
一般需要保存的有事件日志和安全日志。
一般需要保存的是攻击的日志。
Windows服务器:
一般需要导出的有windows日志中的应用程序和系统日志
Linux服务器:
/var/log/messages /var/log/secure
虚拟机需要进入系统中,将网卡禁用:
Windows系统:
Linux系统:
ifconfig eth0down.
物理服务器可以直接将网线拔出即可断开网络连接。