首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >电子政务云应急预案

电子政务云应急预案

作者头像
ICT售前新说
发布2021-03-11 14:13:24
发布2021-03-11 14:13:24
6.3K0
举报
文章被收录于专栏:ICT售前新说ICT售前新说

第1章 总则

1.1 编写目的

为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:

1.明确应急预案的触发机制。

2.完善应急处理流程,使得流程具有可执行性和高效性。

3.将流程中定义的岗位明确到人,未来人员发生变化时,同步更新本预案。

4.定义各种预案发生时的处理措施;

1.2 适用范围

本应急流程适用于电子政务云平台环境的安全设备、网络设备、存储设备、主机设备、机房设施、电力供应等。

第2章 应急处理流程

2.1 原则

出现应急事件原则上都应采取上报-处理-反馈方式。

2.2 触发条件

出现以下情况则触发应急预案:

  • 一级故障:云平台发生故障导致业务系统业务中断、数据丢失。一级故障包括以下内容:
  • 云平台发生故障导致业务系统业务中断、数据丢失。
  • 云平台与电子政务网之间的网络出现中断。
  • 某个面向公众服务的业务系统出现业务中断或数据丢失。
  • 二级故障:云平台故障发生,但未影响到业务运作;或者导致数据丢失,但是可以恢复、不会影响到业务运作的故障,并明确了完成时间的事件或故障。二级故障包括以下内容:
  • 云平台出现故障,但不影响业务系统运行,不影响业务系统数据。
  • 某个面向部分用户的业务系统在业务高峰期出现业务中断。
  • 某个面向单位内部的系统出现业务中断。
  • 三级故障: 对业务运行影响微弱,或者不存在影响,同时遵循一般流程可处理的事故。三级故障包括以下内容:
  • 某个面向部分用户的业务系统在非业务高峰期出现业务中断。
  • 某个系统出现部分用户无法访问的情况。
  • 4) 系统和网络资源使用异常
  • 云平台主机系统资源使用情况异常:云平台主机CPU超过70%,并且无法通过调配降低资源使用率或者单台物理服务器所承载的虚拟服务器个数超出承载虚拟机的最大个数(小型40/标准30/大型20)后并且无法通过调配降低资源使用率;
  • 云存储资源使用情况异常:当存储的剩余存储容量低于10%或者当单台存储设备在24小时内(以每日8时起计)累计30分钟的存储实际负载IOPS和存储最大负载IOPS的比例超出存储最大利用率75%时
  • 网络资源(链路带宽)使用情况异常:云平台到信息化服务器中心之间的带宽使用率超过端口速率的70%时。
  • 发生安全事件
  • 因计算机病毒感染、非法入侵等导致业务中断、系统宕机、网络瘫痪等情况。
  • 因爆炸、火灾、雷击、地震、台风等外力因素导致网络系统损毁,造成业务中断、系统宕机、网络瘫痪等情况。

注:当运维团队经过判断,满足以上情况时,即启动应急预案。其中一级、二级、三级故障的最终定级将由信息化服务中心决定。

2.3 应急组织架构

应急组织架构包括应急领导小组和应急工程师。

应急领导小组包括电信应急领导小组和信息化服务中心应急领导小组。电信应急领导小组由项目总监领导,由IDC运维总监、云平台运维总监、技术总监、业务总监共同承担。

应急工程师包括IDC工程师、存储/备份/系统工程师、网络/安全工程师、硬件工程师、云平台工程师、客服工程师。

2.4 应急处理流程

2.4.1 故障处理流程

电子政务云平台一旦出现上述故障情况则触发应急预案,应急预案按照以下流程进行处理

流程

流程说明

1. 委办局用户拨打7*24小时报障电话进行报障: 2. 客服工程师接收报障,做故障记录和分析(工作时间5分钟内响应,非工作时间0.5小时内响应) 3. 属于一级、二级、三级事故,需立即上报运维主管。运维主管上报运维总监/项目总监,启动应急流程。 4. 故障处理要求n 一级事故1小时解决n 二级事故2小时解决n 其他事故和用户协商解决 5. 客服工程师向用户反馈处理结果n 一级事故每15分钟反馈1次n 二级事故每30分钟反馈1次n 其他事故每天至少反馈2次 6. 属于一级、二级、三级事故,运维总监需立即上报市信息化服务中心接口人。并进行故障逐级升级通报。 7. 运维总监向市信息化服务中心接口人反馈处理结果n 一级事故每15分钟反馈1次n 二级事故每30分钟反馈1次n 三级事故每天至少反馈2次 8. 一级、二级、三级事故需提交故障处理报告。

2.4.2 资源使用异常处理流程

当云平台巡检发现资源使用满足上述异常时则触发应急预案,应急预案按照以下流程进行处理

流程

流程说明

1. 运维工程师巡检或日常维护发现资源使用异常,上报运维总监 2. 运维总监判断异常是否满足应急预案触发条件 3. 运维总监上报项目总监,提交采购需求 4. 项目总监核实采购信息,发起采购 5. 运维总监向中心申请资源扩容 6. 中心同意后进行资源扩容。

2.4.3 安全事件处理流程

安全事件还需同时通告市信安办总值班

2.5 应急通报机制

2.5.1 故障分级通知机制

根据以上的故障分级以及故障影响范围,云平台运维团队将根据下表进行通知

平台级

部分客户级

单客户级

一级故障

电信高层领导市信息化服务中心受影响的客户

电信高层领导市信息化服务中心受影响的客户

-

二级故障

市信息化服务中心受影响的客户

市信息化服务中心受影响的客户

-

三级故障

市信息化服务中心受影响的客户

市信息化服务中心受影响的客户

-

安全事件

市信息化服务中心受影响的客户市信安办总值班

市信息化服务中心受影响的客户市信安办总值班

市信息化服务中心受影响的客户市信安办总值班

通告人员清单:

安全事件还需同时通告市信安办总值班。

通告方式:短信、微信通告

通告人:运维总监

通告时间:故障发生并判定影响范围后立即执行。

2.5.2 故障升级通报流程

当发生应急事件时,将采取如下的故障通报升级矩阵:

注:下列升级通报方式均为电话通报。左边xxxx的人员的每一级人员对应右边信息化服务中心的人员做直接电话通报。其中第一级两边各有A/B角色人员,当A角不能汇报时由B角进行汇报。

安全事件还需同时通告市信安办总值班。

2.5.3 资源使用异常通报机制

当出现资源使用异常触发应急处理时,应采用如下通报机制:

通告人员清单:

通告方式:运营周报(邮件)、扩容申请(邮件)、设备硬件更换(邮件)

通告人: 运维总监

通告时间:

  • 如果资源异常情况可能会影响现有系统,则立即汇报。
  • 如果资源异常只是影响后续用户的业务需求,则在运营周报(每周一次)体现资源使用量和扩容计划,扩容申请体现具体扩容的时间。

以下清单为电信应急小组成员清单:

第3章 重要环境介绍

3.1 网络环境

3.1.1 骨干拓扑图

当前两台防火墙部署,锐捷防火墙RG-WALL-A上连政务外网和政务内网的主用链路,锐捷防火墙RG-WALL-B上连政务外网和政务内网的备份链路。

正常情况的业务流量:

3.1.2 维保设备列表

3.2 存储环境

3.2.1 FC-SAN

3.2.2 IP-SAN

3.2.3 光纤交换机

3.2.4 维保设备列表

3.3 安全设备

1) 防火墙

云平台和电子政务外网之间主干链路上部署了两台锐捷的防火墙,用于保护云平台的网络安全。

2) 入侵防御系统

电子政务云平台有2台锐捷的入侵防护设备部署在网络边界,作为防火墙后第二道关卡,部署防火墙后面。可对经由电子政务中心的交互流量进行流量清洗,清除流量中涵盖的具有攻击行为的流量。

3) 入侵检测系统

电子政务云平台核心交换机旁挂锐捷的入侵检测系统,对数据中心各服务区之间和各用户访问数据中心的流量进行对应的安全防护。

4) 流量监控

流量控制设备在汇聚层交换机和防火墙之间,对电子政务云平台内外部的交互流量进行控制。

5) 漏洞扫描系统

在电子政务云平台内部的汇聚层交换机上旁挂启明星辰天镜脆弱性扫描与管理系统对整个云平台内部的服务器进行漏洞扫描。

6) 防病毒网关

电子政务云平台核心交换机旁挂趋势网络病毒墙-3600i设备,对所有经由政务网外围和云平台之间的通讯进行病毒防护。

7) 网络审计

电子政务云平台核心交换机旁挂锐捷的网络安全审计设备,对网络中的事件以及设备信息进行详细的审计。审计颗粒度为用户级别。对全员的上网行为进行相应的审计。

第4章 应急预案具体实施方案

4.1 网络故障应急处理实施

当客户报障发现用户资源资源无法访问,按照以下步骤进行排查。

上述故障判断中,满足1.1.1.2和1.1.2时则判断是平台网络故障,需要启用应急预案。其他为单用户故障,则作为日常故障处理。

当巡检发现到中心的网络无法访问,按照以下步骤进行排查。

上述故障判断中,满足1.1.1.2和1.1.2时则判断是平台网络故障,需要启用应急预案。

4.1.1 通过ping/telnet业务端口测试(运维人员)

1.登记客户报障主机IP(如:10.126.192.254)

2.通过运维工作机去ping该主机是否能够通信/telnet端口是否可达。

  • 如果出现可以ping通但业务不通,如下图所示:

则首先检查云平台的安全组规则是否开放了用户的端口。

如果云平台的安全组已经开通,则判断是用户把业务关了或者主机里起了防火墙,联系用户进行处理。

  • 如果出现不能ping通主机,则执行4.1.2步骤
  • 如果可以ping通,业务端口也正常,则执行4.1.3步骤

4.1.2 登陆BCC查看实例是否正常(运维人员)

登陆BCC平台筛选实例,然后点击远程连接登陆进去实例看能否操作

  1. 如果不可以操作,则说明实例死机,需要联系客户并重启实例
  2. 如果可以操作,实例网卡配置可能被修改/网卡被禁用/获取不了网络地址
  3. 1) 需要联系客户,登录实例检查,重新获取IP
  4. 2) 登陆实例 vim /etc/sysconfig/network-scricp/ifcfg-eth0修改配置文件并重启network服务
  5. 4.1.3 通过ping/telnet防火墙端口测试(运维人员)

通过运维工作机/运维监控机去ping/tracert查看到防火墙端口是否正常访问。

正常路径:

  1. 第一跳为网关地址;
  2. 第二跳为防火墙地址;

如下图所示正确访问路径如下:

如果出现到防火墙的路由正常,则执行4.1.4步骤

如果出现到防火墙的路由不正常,则执行4.1.7步骤

4.1.4 通过ping/telnet信息化服务中心地址测试(运维人员)

通过运维监控机去ping/tracert查看到信息化服务中心的地址是否正常访问。

如果访问10.192.2.253(互联网接入网)访问正常,则说明互联网接入网网络没有问题,通知用户检查到信息化服务器中心的网络;如果出现访问异常,则说明防火墙到中心的互联网接入网链路中断,则执行4.1.5.

如果访问10.64.2.253(业务专网)访问正常,则说明业务专网没有问题,通知用户检查到信息化服务器中心的网络,如果出现访问异常,则说明防火墙到中心的业务专网链路中断,则执行4.1.6

4.1.5 处理互联网接入网中断(网络工程师)

正常情况,如果和信息化服务中心的互联网接入网出现链路/端口故障,是会做自动切换,如果没有,则需要进行手工切换:

注意:操作前必须确认是网络全部中断,所有用户都不能访问互联网接入网的设备。如果有用户表示可以继续访问,那么需要进一步排查,不能采取以下步骤。

  1. 临时shutdown与电子政务中心互联网接入网端口,路由会自动切换过去备份防火墙

操作方法:

  • 登录主防火墙web界面
  • 找到接口xg1-1(对应IP为10.192.2.254)
  • 将该接口禁用
  1. 检查路由是否做了切换

从运维监控机tracert路由,是否经过了备防火墙

  1. 检查具体故障设备

检查具体故障是由于光纤链路、防火墙端口、板卡、设备等问题引起。

4.1.6 处理业务专网中断(网络工程师)

当信息化服务中心的业务互联网接入网出现链路/端口故障,是不会做自动切换,如果手工切换切换:

注意:操作前必须确认是网络全部中断,所有用户都不能访问业务专网的设备。如果有用户表示可以继续访问,那么需要进一步排查,不能采取以下步骤。

  1. 临时shutdown与电子政务中心业务专网端口,路由会自动切换过去备份防火墙

操作方法:

  • 登录主防火墙web界面
  • 找到接口ge4-0(对应IP为10.64.2.254)
  • 将该接口禁用
  1. 检查路由是否做了切换

从运维监控机tracert路由,是否经过了备防火墙

  1. 检查具体故障设备

检查具体故障是由于光纤链路、防火墙端口、板卡、设备等问题引起。

4.1.7 处理内网链路中断(网络工程师)

当监控机不能ping通防火墙地址,说明汇聚交换机到防火墙之间链路不通,由于目前备用防火墙不会主动接管,因此需要手工进行切换。切换有两种方式:

  1. 方式一:临时将路由切换到B防火墙

删除B防火墙上所有下一跳为10.192.2.9并且距离为1的路由条目,并关闭交换机到主防火墙的端口:

配置脚本如下:

  1. 方式二:将主防火墙直接跳过中间设备(IDP、ACE)连接汇聚交换机

注:该方式需要用于主防火墙的对内接口、汇聚交换机上联端口无故障的情况

  1. 检查具体故障设备

检查具体故障是由于光纤链路、防火墙或者交换机端口、板卡、设备等问题引起。

4.2 网络故障定位和更换

在出现重大网络故障时,理想情况是先定位再解决故障。但有时故障定位需要较长时间时,往往要先解决再进行定位。

网络故障的定位主要有:设备整机、设备插槽/板卡、设备模块、光纤线路

网络故障定位和更换需要由网络工程师、厂家工程师共同完成。

4.2.1 防火墙设备故障定位和更换

  1. 设备整机故障:根据设备指示灯以及设备监控界面排查

目前两台防火墙并未作HA,如果主防火墙故障,则需要手工切换到备用防火墙。

  1. 设备插槽/板卡

每个防火墙共有4块板卡。可用槽位如下,非绿色的为空闲插槽,其中xge为万兆插槽,ge为千兆插槽

如果是第一块板卡故障,则没有备件,只能启用备用防火墙。

如果是第二块板卡故障,则没有备件,只能启用备用防火墙。

第三块板卡和第四块板卡类型一样。可以互为备件。

更换完插槽后,将故障接口的配置信息克隆到新插槽的接口上;

  1. 设备模块:更换模块进行排查

  1. 光纤链路:更换光纤线

4.2.2 IPS设备故障定位和更换

  1. 设备整机故障:根据设备指示灯以及设备监控界面排查

目前两台ID并未作HA,如果主IDP故障,则需要手工切换到备用链路。或者将防火墙与IDP进行相连的链路改为防火墙与ACE直接相连;

  1. 设备插槽/板卡

由于现阶段没有备用的板卡、插槽,所以不能进行更换插槽来进行故障定位。故通过把防火墙与IDP相连改为防火墙直接与ACE相连;查看通信是否恢复;

  1. 设备模块:更换模块进行排查

设备名称

模块类型

已用模块数量

未用/备件模块数量

IDP A

万兆多模模块

2

0

IDP B

万兆多模模块

2

0

  1. 光纤链路:更换光纤线

设备名称

光纤类型

已连接光纤数量

未用/备用光纤数量

IDP A

连接防火墙A

1

0

连接ACE

1

0

IDP B

连接防火墙A

1

0

连接ACE

1

0

4.2.3 ACE设备故障定位和更换

  1. 设备整机故障:根据设备指示灯以及设备监控界面排查

设备支持bypass,设备宕机不影响业务流;

  1. 设备插槽/板卡

ACE没有备用插槽、板卡。故不能通过更换备件来进行故障定位;

  1. 设备模块:更换模块进行排查

设备名称

模块类型

已用模块数量

未用/备件模块数量

ACE

万兆多模模块

4

0

ACE没有备用模块。故不能通过更换备件来进行故障定位

  1. 光纤链路:更换光纤线

设备名称

光纤类型

已连接光纤数量

未用/备用光纤数量

ACE

连接IDP A

1

0

连接IDP B

1

0

连接汇聚交换机 A

1

连接汇聚交换机 B

1

4.2.4 汇聚层交换机故障定位和更换

  1. 设备整机故障:根据设备指示灯以及设备监控界面排查

设置支持冗余,一台宕机会自动切换到另一台。

  1. 设备插槽/板卡

每台汇聚交换机有5块板卡。

  1. 设备模块:更换模块进行排查

由于没有备用板卡,故不能通过更换备用板卡进行恢复,但由于双链路上下连,所以业务还是可以正常运行;

  1. 光纤链路:更换光纤线

设备名称

光纤类型

已连接光纤数量

未用/备用光纤数量

汇聚交换机A

连接ACE

1

0

连接接入交换机

1

0

连接汇聚交换机2

2

0

汇聚交换机B

连接ACE

1

0

连接接入交换机

1

0

连接汇聚交换机2

2

0

4.2.5 接入层交换机故障定位和更换

  1. 设备整机故障:根据设备指示灯以及设备监控界面排查

设置支持冗余,一台宕机会自动切换到另一台。

  1. 设备插槽/板卡

每台接入交换机有7块板卡。

  1. 设备模块:更换模块进行排查

由于没有备用板卡,故不能通过更换备用板卡进行恢复,但由于双链路上下连,所以业务还是可以正常运行;

  1. 光纤链路:更换光纤线

4.3 存储故障应急处理实施

当客户报障发现无法访问存储资源时,按照以下步骤进行排查。

当巡检发现存储出现异常时,按照以下步骤进行排查。

4.3.1 检查存储是否异常

登录存储管理界面,查看存储的设备健康状态,是正常、一般告警、严重告警。

一般告警主要是非存储问题引起的告警,如客户端未建立连接等引起的告警,出现此类告警可检查服务器是否开机、光纤交换机是否工作正常等来排查问题,这类告警不会影响全网业务,无需启用应急预案。

如果出现严重告警,主要是存储问题引起的告警,如单路电源故障、硬盘故障等,出现此类告警需尽快根据告警信息确认故障原因,未能准确定位原因的需尽快联系售后人员进行问题处理。

出现严重报警需启动应急预案。

4.3.2 导出存储日志

当发现存储出现异常,需要联系厂家进行处理时,需要提供存储的日志信息给厂家。请按照如下方式导出存储日志:

1. 登陆存储控制器后,选中控制器名称单击“维护中心”,选择“导出日志和诊断信息”,点击“导出诊断信息”。

2. 勾选上“设备诊断信息”和“GUI控制台日志”,选择路径后“确定”,等待大约1分钟即可导出。

4.3.3 光纤端口异常故障定位和更换

  • 现象描述:

SP的物理端口显示连接错误

  • 影响

可能导致用户无法读写存储或者读写性能下降

  • 原因

可能存在光纤质量不佳,需要更换光纤。

  • 处理方法

1、如果仅是告警,业务没有受影响,则先不做任何操作,收集日志信息进行故障定位后再决定具体操作;

2、如果现场情况紧急,请将显示故障的FC光纤线缆拔出,请勿在插入回去,并继续进行观察。

4.3.4 控制器SP故障定位和更换

  • 现象描述:

SP的告警指示灯按照固定1Hz频率闪烁或者SP的告警指示灯常亮。

  • 影响

如果SP只是告警但还能正常工作,则不会对业务造成影响可以安排计划进行处理。

如果整个SP出现故障,由于两个SP具有冗余,可以自动切换。如果客户端配置好了多路径,切换过程是不会影响业务运行。

  • 可能原因

SP出现一般告警,如温度过高、电压过高等。严重告警可能存在硬件问题。

  • 处理方法

1、登录GUI界面,查看系统监控信息,进一步详细定位告警来源,并尝试解决故障:

2、如果SP工作温度过高或者过低,请检查机房环境温度是否在设备工作环境温度范围内,如果否,需要改善机房环境;

3、如果SP工作温度过高,检查风扇模块工作是否异常(判断方法请参考风扇故障处理),从而导致系统无法正常散热出现SP告警,如果是,解决风扇故障;

4、如果SP电压过高或者过低,请尝试关闭SP,并拔走电源线,等待2分钟,重新开机,然后登录GUI界面,查看系统监控信息,检查设备是否恢复正常;

5、如果上述方法均不能解决故障,请联系MacroSAN技术支持人员。

4.3.5 扩展柜EP故障定位和更换

  • 现象描述:

EP的告警指示灯按照固定1Hz频率闪烁或者SP的告警指示灯常亮。

  • 影响

如果EP只是告警但还能正常工作,则不会对业务造成影响可以安排计划进行处理。

如果整个EP出现故障,由于两个EP具有冗余,可以自动切换。如果客户端配置好了多路径,切换过程是不会影响业务运行。

  • 可能原因

EP出现一般告警,如温度过高、电压过高等。严重告警可能存在硬件问题。

4.3.6 电池模块故障定位和更换

!注意

Ÿ 更换电池模块时,务必保证设备供电正常,否则更换过程中设备异常掉电可能导致数据丢失。

Ÿ 更换电池模块后,电池模块将自动充电。

步骤1:拆除SPU面板,拔出待更换的电池模块。

步骤2:安装新的电池模块,并检查安装是否牢固,禁止虚插。安装SPU面板。

步骤3:登录设备GUI界面,检查电池模块信息是否准确,包括第一次上电时间、超期时间等,如果电池模块软件版本不匹配,请按附录升级电池驱动软件版本。

步骤4:请在更换新电池模块24小时后,查看电池模块状态是否正常,如果否,请联系售后接口人处理。

4.3.7 电源模块故障定位和更换

  • 现象描述:

电源模块运行时,电源模块的告警指示灯按照固定1Hz频率闪烁或者电源模块运行时,电源模块的告警指示灯常亮

  • 影响

电源具有冗余,单个电源故障不影响业务。

  • 可能原因

电源故障。

  • 更换电源模块:

!注意

如果SPU或DSU中安装了2个或以上电源模块,支持带业务更换电源模块。

步骤1:拔出待更换电源模块上AC电源线,拔出待更换的电源模块。

步骤2:安装新的电源模块,并检查安装是否牢固,禁止虚插。

!重要注意事项

请确认电源模块安装方向,禁止反插。

步骤3:安装AC电源线。

步骤4:登录设备GUI界面,检查电源模块信息是否准确。如果否,请联系售后接口人处理。

4.3.8 风扇模块故障定位和更换

  • 现象描述:

风扇模块告警指示灯常亮

  • 影响

风扇具有冗余,单个风扇故障不影响业务。

  • 可能原因

风扇故障。

  • 更换风扇模块:

步骤1:拔出待更换的风扇模块。

步骤2:等待30秒后,安装新的风扇模块,并检查安装是否牢固,禁止虚插。

步骤3:登录设备GUI界面,检查风扇模块信息是否准确。如果否,请联系售后接口人处理。

4.3.9 磁盘故障定位和更换

  • 现象描述:

磁盘模块告警指示灯常亮

  • 影响

硬盘做了RAID+热备,单个硬盘故障不影响业务。会由热备盘顶上自动同步。但考虑到同步过程中再坏一块硬盘就会有问题,需要尽快更换故障硬盘。

  • 可能原因

1、磁盘驱动器与转接板接触不良

2、磁盘驱动器故障

  • 更换硬盘:

!注意

● 安装磁盘时,请缓慢插入磁盘,切勿强行插入。如果需要在已经上电的设备中安装多个磁盘,各个磁盘插入插槽的时间间隔必须大于6秒。

● 拆除磁盘时,松开扳手锁扣并转动扳手,使磁盘和背板脱离接触,然后等待10秒以上,确保磁盘停转后才能将磁盘拔出。拔出的过程中请用一只手拉磁盘模块的拉手,另一只手托住磁盘模块的底部,平稳拔出磁盘。

步骤1:登录设备GUI界面,对需要更换的磁盘执行安全拔盘操作。

步骤2:等待30秒后,该磁盘的绿灯和黄灯将按照2Hz频率闪烁,此时可拔出磁盘。

步骤3:安装新的磁盘,并检查安装是否牢固,禁止虚插。

步骤4:登录设备GUI界面,检查磁盘状态是否正常。如果否,请联系售后接口人处理。

4.3.10 光纤交换机故障定位和更换

光纤交换机可以检查相关指示灯状态判断是否有异常。

平台的光纤交换机是2台一组做冗余,如果单台故障或者单条链路故障,而主机的多路径配置没有问题,则是不影响业务的。这时可以将故障光纤交换机下线并解决。

通过存储和光纤交换机的日志分析如果发现光纤线质量问题,则需要更换光纤线。

4.4 安全事件应急处理实施

4.4.1 分析安全事件

发生事件,首先要分析是否是安全事件还是其他的故障。一般来说,以下几类可以划分为安全事件:

  • 病毒/攻击事件
  • 网站、网页出现非法言论
  • 人为导致的系统损毁/数据丢失
  • 火灾等自然灾害

1、向信息化服务中心和市信安办总值班报告协助检查

2、保留故障时刻安全设备以及用户机器的相关日志;

安全工程师应在故障时刻立即做日志保留,需要保留日志的设备包括:防火墙、交换机、入侵检测设备、受影响的服务器。具体操作参考4.4.6章节。

3、避免产生病毒的扩散,对相关设备做网络隔离处理

网络工程师应迅速将受到病毒感染的系统和网络中的其他系统隔离开,如果怀疑是蠕虫事件,则应该断开网络与外网的连接;

l 如果受到攻击的是一台虚拟机,则可以将该虚拟机关机或者断开网卡连接。

l 如果是一台物理机,可直接断开网线连接;

l 如果攻击已经蔓延到了物理节点,则需要将该物理节点从网络中断开;

具体操作参考4.4.7章节。

4、清除病毒和攻击

清除病毒和攻击,如果可以确定攻击和病毒的来源,则断开该来源和网络的连接。对已经遭受病毒感染和攻击的设备进行扫描和清理。

由于云平台的虚拟机系统由客户自行维护,在断开机器的网络连接用户无法远程查杀病毒时,可由云平台安全管理员与客户联系,确实机器是否有安装防病毒软件,可由客户、市信安办、厂商协助提供相关病毒查杀软件进行查杀。

5、恢复受攻击的系统

如果受攻击的系统已经无法根除病毒/隐患,则需要进行恢复,恢复的方式可以包括快照恢复虚拟机、从模板重新生成虚拟机并重新部署业务、从备份恢复数据。

如果受攻击的是物理节点服务器,则必要情况下要采取重装系统来恢复。

6、加固系统

通过漏洞扫描检测系统是否存在漏洞导致遭受攻击,并对相应系统进行安全加固。

云平台有漏洞扫描系统,可对用户的虚拟机、物理机进行漏洞扫描并提供扫描报告,检测是否具有安全漏洞。

用户可针对漏洞进行修复,对系统进行加固。

4.4.3 网站、网页出现非法言论处理预案

1、向信息化服务中心和市信安办总值班报告协助检查;

2、保留安全设备、服务器的相关日志;

3、检查入侵检查设备,根据用户要求必要时封锁某些来源的IP

4.4.4 人为导致的系统损毁和数据丢失处理预案

1、向信息化服务中心和市信安办总值班报告;

2、保留安全设备、服务器的相关日志、操作记录;

3、虚拟机出现损坏,可后台先对虚拟机做完全拷贝,保存现场,并对拷贝的虚拟机尝试进行恢复

4、尽可能恢复系统和数据,如果不可恢复,则和用户协商,使用虚拟机快照、备份数据进行恢复;

4.4.5 火灾等自然灾害事件处理预案

一旦机房发生火灾,应遵循下列原则:

1、向信息化服务中心和市信安办总值班报告;

2、通知用户需要业务中断;

3、首先保证人员安全;

4、其次保证关键设备、数据安全;

5、三是保证一般设备安全。

6、人员灭火和疏散的程序是:值班人员应首先切断所有电源,同时通过119电话报警。值班人员戴好防毒面具,从最近的位置取出灭火器进行灭火,其他人员按照预先确定的路线,迅速从机房中有序撤出。

4.4.6 导出设备日志

4.4.6.1 防火墙日志

一般需要保存的有事件日志和安全日志。

4.4.6.2 IPS设备日志

一般需要保存的是攻击的日志。

4.4.6.3 服务器日志

Windows服务器:

一般需要导出的有windows日志中的应用程序和系统日志

Linux服务器:

/var/log/messages /var/log/secure

4.4.7 断开网络连接

4.4.7.1 虚拟机断开网络连接

虚拟机需要进入系统中,将网卡禁用:

Windows系统:

Linux系统:

ifconfig eth0down.

4.4.7.2 物理机断开网络连接

物理服务器可以直接将网线拔出即可断开网络连接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ICT售前新说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第1章 总则
    • 1.1 编写目的
    • 1.2 适用范围
  • 第2章 应急处理流程
    • 2.1 原则
    • 2.2 触发条件
    • 2.3 应急组织架构
    • 2.4 应急处理流程
      • 2.4.1 故障处理流程
      • 2.4.2 资源使用异常处理流程
      • 2.4.3 安全事件处理流程
    • 2.5 应急通报机制
      • 2.5.1 故障分级通知机制
      • 2.5.2 故障升级通报流程
      • 2.5.3 资源使用异常通报机制
  • 第3章 重要环境介绍
    • 3.1 网络环境
      • 3.1.1 骨干拓扑图
      • 3.1.2 维保设备列表
    • 3.2 存储环境
      • 3.2.1 FC-SAN
      • 3.2.2 IP-SAN
      • 3.2.3 光纤交换机
      • 3.2.4 维保设备列表
    • 3.3 安全设备
  • 第4章 应急预案具体实施方案
    • 4.1 网络故障应急处理实施
      • 4.1.1 通过ping/telnet业务端口测试(运维人员)
      • 4.1.2 登陆BCC查看实例是否正常(运维人员)
      • 4.1.4 通过ping/telnet信息化服务中心地址测试(运维人员)
      • 4.1.5 处理互联网接入网中断(网络工程师)
      • 4.1.6 处理业务专网中断(网络工程师)
      • 4.1.7 处理内网链路中断(网络工程师)
    • 4.2 网络故障定位和更换
      • 4.2.1 防火墙设备故障定位和更换
      • 4.2.2 IPS设备故障定位和更换
      • 4.2.3 ACE设备故障定位和更换
      • 4.2.4 汇聚层交换机故障定位和更换
      • 4.2.5 接入层交换机故障定位和更换
    • 4.3 存储故障应急处理实施
      • 4.3.1 检查存储是否异常
      • 4.3.2 导出存储日志
      • 4.3.3 光纤端口异常故障定位和更换
      • 4.3.4 控制器SP故障定位和更换
      • 4.3.5 扩展柜EP故障定位和更换
      • 4.3.6 电池模块故障定位和更换
      • 4.3.7 电源模块故障定位和更换
      • 4.3.8 风扇模块故障定位和更换
      • 4.3.9 磁盘故障定位和更换
      • 4.3.10 光纤交换机故障定位和更换
    • 4.4 安全事件应急处理实施
      • 4.4.1 分析安全事件
      • 4.4.3 网站、网页出现非法言论处理预案
      • 4.4.4 人为导致的系统损毁和数据丢失处理预案
      • 4.4.5 火灾等自然灾害事件处理预案
      • 4.4.6 导出设备日志
      • 4.4.7 断开网络连接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档