前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记

保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记

原创
作者头像
嘉为蓝鲸
发布2022-12-01 11:25:40
1.2K0
发布2022-12-01 11:25:40
举报
文章被收录于专栏:嘉为蓝鲸的专栏

01. AD是什么?

AD是指微软Active Directory活动目录系统,作为目前市面上主流的活动目录产品,AD在许多企业内部承担着基础架构核心系统的角色,维护这套系统的正常运行是企业内部基础运维的重要课题,需要IT人员拥有齐备的技术文档、丰富的社区案例知识以及企业长年的运维服务实践经验。

嘉为长期深耕于AD领域,对AD的规划、建设、升级、运维管理、灾难恢复、故障处理等均有实践经验,建立起了理念、技术、方案和人才的丰富储备,能够实现AD在企业内部的从无到有,从有到优。

然而并非所有企业都能成功建立起了合适的AD运维模式,其运维人员也不得不面对一个个“伤筋动骨”的AD故障。

本文将通过讲述某科技公司,以非良性AD运维模式为诱因,AD域内所有域控均发生故障,必须进行林恢复的真实案例,与大家共同分享嘉为在AD领域的实践经验。

02. 案例背景

1)故事的起点——常规恢复手段失效

2022年6月13日,该企业IT管理员突然发现,在企业内部的无线网络无法正常认证连接,部分服务器的DNS无法解析域名。

在经过简单排查后发现,出现异常的客户端,其DNS服务器均指向主域控(指PDC角色所有者,这台主域控同时也是提供内部证书服务的CA服务器),随后IT管理员临时将DNS服务、应用LDAP连接从主域控迁移到同站点同机房的另一台域控制器上,同时临时取消了无线网络的认证规则。

暂时恢复业务后,IT管理员按照日常方式,重新搭建了域控制器,以此来替代旧服务器,但将新服务器升级为域控时却出现了新的报错,报错中提到新服务器无法加入域,同时DNS注册异常。

在将常规手段全部尝试了一遍无果后,管理员开始寻求外部协助。

03. 雷厉风行,嘉为迅速介入

1)故障初步排查——提供常见恢复方案

2022年6月15日晚,该企业管理员通过集团总部联系到嘉为服务团队,嘉为立即提供了远程支持,通过远程连接到AD域环境后,发现以下问题:

  • 主域控认证功能正常,但DNS服务异常,LDAP无法连接,可以通过AD远程管理工具访问目录数据。其他域控DNS服务正常,认证功能异常,LDAP可以连接,但无法通过AD远程管理工具访问目录数据,同时域控间已无法正常复制。
  • 主域控的DNS日志有4000、4007事件,此时DNS管理器无法加载DNS区域,提示“拒绝访问”:
  • 登录其他域控制器,发现SVSVOL共享丢失,使用以下命令确认DFS复制状态,提示出错(代号5):

经过上述检查后,嘉为技术人员以业务恢复为第一原则,做出以下判断:

  • 主域控DNS异常的原因是PDC丢失安全通道,需要重置主域控的计算机密码,在重置完成后DNS区域应能正常加载。
  • 修复主域控的安全通道后,需要对主域控执行DFSR复制的SYSVOL权威还原,对其他域控执行非权威还原,执行完成后其他域控的SYSVOL共享应恢复正常并发布为正常提供服务的域控制器。

在拥有良好的AD运维管理环境以及将可用AD备份的情况下,以上方案有利于故障的快速恢复,但随着嘉为团队对企业实际环境深入了解后,发现问题远比想象中的复杂。

2)尴尬而危险的平衡——更高的恢复要求

2022年6月16日凌晨,在提交初步解决方案后,嘉为技术团队与开始域IT管理员沟通实施细节,却发现远程实施该方案存在着以下不可预估的风险:

  • 没有健康AD的可用备份。
  • 无法对主域控制器执行重启操作,仅有主域控制器能提供认证服务,停机影响过大。

由于当前主要业务功能未受到很大影响,于是约定当日下午到企业现场进行故障处理。经过现场沟通,我们对其AD域故障事件的复杂性有了全面的认知:

① 恢复方案不能中断业务:主域控无法停机,任何涉及重启的修复操作不在考虑范围之内。

② 恢复方案受复杂环境影响大:AD域环境混乱,恢复方案需要排除的影响点过多,其中包括:

  1. 环境中域控制器版本横跨Windows Server 2008 R2到Windows Server 2019,且服务器没有定期进行补丁更新,DFS组件可能存在漏洞;
  2. 网络环境复杂,横跨多个机房,域控间应开启的网络策略并未全部放通,且域控制器皆为物理服务器,人员响应有时空上的困难;
  3. 各地域控制器由不同管理员管理,其上安装了各类服务,存在个别自行下线,元数据残留的域控制器。

③ 恢复方案的时间压力大:618期间,业务流量大,连续性要求高,当前仅一台域控制器提供认证,随时可能发生业务中断,必须尽快恢复。

既不能停机,又没有AD健康备份的保障,再加上参差不齐的服务器配置、复杂难捋的网络环境以及业务高峰的现实压力,此时这套AD系统,正处在一个尴尬而危险的平衡点,随时有可能绷断。

在对故障信息有了以上清晰的认知后,嘉为团队提出了一个新的解决方案,用过隔离辅助域控,进行林恢复。

3)新方案的制定——保障业务连续稳健恢复

2022年6月17日上午,嘉为团队再一次对企业AD域环境进行了深度调研,获取各个域控的基本信息、应用角色以及受损情况。

针对域控上的服务角色,如DHCP、DPS、CA等,分别制定了迁移方案,以此形成了服务器信息调研表、拓扑图,故障恢复流程、checklist、恢复备案等合一的AD环境故障恢复方案。

同时与企业AD管理员、网络管理员、应用管理员等几乎所有相关的IT管理员沟通,并组织了多次的方案讨论,最终确定了恢复方案。

服务器信息调研表

拓扑图

在最终确定的恢复方案中,高版本的辅助域控将作为恢复基点,在隔离环境中执行以下操作:

  • 夺取操作主机角色
  • 清理其他域控的元数据
  • 执行SVSVOL权威还原

确保林恢复完成后,再进行一系列的域控搭建、服务角色迁移、脱域计算机处理等操作:

4)新方案的执行——些许波折,成功执行

2022年6月18日晚。所有人到岗待命,开始执行恢复方案。

然而在准备隔离环境域控制器第一步时,就发生了令气压骤增的情况,原定计划需要使用生产环境的辅助域控进行裸机备份,再将裸机备份还原到隔离环境中,进行修复。

然而,企业整体环境中的虚拟化平台资源极少,大部分服务器均为物理机,在进行裸机备份还原的过程中,客户提供的虚拟机始终无法成功还原备份。

在经过2小时的尝试后,嘉为团队决定采用备份还原验证域生产服务器恢复并行的策略,即将备份提供给嘉为,让其使用其他可用环境还原验证,同时将一台生产环境的辅助域控制器进行隔离,进行恢复操作。

这样的决定,虽然稍微提高了对生产环境服务器的风险,但范围可以接受(限定在1台辅助域控制器)。终于在次日凌晨3点,成功在隔离环境中执行了林恢复,应用接入认证正常,常规域服务功能验证正常。

凌晨6点时,其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业AD域的基本业务均已恢复,AD域的可用性得到保障,所有人都松了一口气。

04. 案例示警

针对上述AD域故障恢复案例,我们可以提供一些具体的建议或建设范畴:

  • 提高认知:AD是基础架构核心系统,明晰AD运维在企业内部的定位。
  • AD设计规范:使用什么版本的系统、开通哪些网络端口、何时增加域控、何时增加站点、对接入应用有什么要求等范畴,建议制定相关的规范,以确保AD域环境的规范。
  • 灾难恢复演练:做好AD备份,定期进行灾难恢复演练,更新灾难恢复文档,制定灾难恢复响应流程。
  • 建设AD域服务监控。

正如开头所说,AD是一套在许多企业内部落地的的基础架构系统,许多事件的参考信息可以很便捷地在网络上查阅,有关特定事件的处理、特定的功能实现也有齐备的文档参考,但这仅仅只能提高运维人员处理特定问题的能力,却无法在AD运维的整体逻辑上提供保障。

实际上,我们仍然会一遍又一遍的建议和帮助客户建立起适用于企业的AD运维管理规范,它们是围绕AD的操作文档、规章制度、流程管理、运维工具和一系列运维实践,是这些要素共同服务于企业IT管理理念的产物。对于AD而言,健壮的“体魄”,而非“药石”,能更好地避免“伤筋动骨”。

05. 嘉为AD运维服务

针对企业AD运维,嘉为团队提供全面一站式的技术服务,包括:AD及基础架构实施、AD域升级与架构优化、AD安全加固、AD HW服务等,助企业打造坚如磐石的IT系统,为企业信息系统保驾护航。

除此之外,嘉为还提供规划咨询服务、系统建设服务、二线专家服务、系统优化服务、IT运维整体外包服务、人员派驻等服务,企业可以根据需求自由组合选择使用的服务内容和范围。

06. 智能转型——WeOps一体化运维平台

针对该科技公司AD域故障事件,嘉为团队后续推荐了WeOps一体化运维平台,持续赋能,帮助企业运维逐步迈向智能化。

嘉为蓝鲸WeOps,是一款专注于保障企业业务连续性、支持国产化的一站式运维平台,以故障定位和全生命周期管理为核心,融合联动资源中心、健康扫描、监控告警、知识库、数字大屏及自动化运维工具等多项功能。

有关企业AD运维,WeOps平台可从预防和监控故障处理两方面保驾护航:

1)预防

WeOps平台可针对日常排查时发现的一系列隐患做到及时预防。案例中由于企业AD不规范导致系统存在没有备份、没有补丁安装、网络环境负载等隐患,而WeOPs平台可通过作业平台定时自动备份、通过补丁安装进行定期安装、通过平台进行网络设备的自动发现,生成拓扑完美解决上述问题。

2)监控故障处理

WeOps平台中的监控告警系统,可做到持续监控,智能告警,提前发现问题,降低业务影响,一旦发生故障,可通过拓扑图分析关联影响,同时结合资产管理分析资产影响情况,最后采用自动化工具快速解决故障,持续保障企业业务连续性。

嘉为蓝鲸WeOps平台满足国产化兼容,支持在国产环境下的一站式运维,自主可控,帮助用户解决工具功能单一、众多IT运维对象管理难、自动化程度低、信创生态产品兼容等问题,助力客户安全落地一站式运维场景。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01. AD是什么?
  • 02. 案例背景
    • 1)故事的起点——常规恢复手段失效
    • 03. 雷厉风行,嘉为迅速介入
      • 1)故障初步排查——提供常见恢复方案
        • 2)尴尬而危险的平衡——更高的恢复要求
          • 3)新方案的制定——保障业务连续稳健恢复
            • 4)新方案的执行——些许波折,成功执行
            • 04. 案例示警
            • 05. 嘉为AD运维服务
            • 06. 智能转型——WeOps一体化运维平台
              • 1)预防
                • 2)监控故障处理
                相关产品与服务
                安全专家服务
                安全专家服务( Security Expert Service,SES)由专业的安全专家团队提供安全托管、网站渗透测试、应急响应、安全攻防对抗等服务,帮助用户在上云前、上云中、上云后获得合适的安全解决方案、发现潜在安全威胁和提升用户的安全防护能力、帮助用户恢复业务,定位黑客身份,是一直陪伴在用户身边的安全守护者。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档