硬件故障。比较常见的服务器硬件故障包括磁盘损坏、电池故障等。
软件问题。例如操作系统崩溃、未知的程序运行错误等。
病毒破坏。勒索病毒加密、删除服务数据等。
不可控力量。设备浸水、火烧、倒塌等导致的损坏和数据丢失。
误操作。人员操作失误导致的数据丢失,如格式化、删除、覆盖等。
1. 定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。
2. 定制服务器应急计划。可定制一套应急计划,例如备份服务器,应急电源,冗余内存等,在服务器停止运行时可以立即启用应急计划,避免影响业务。
3. 定期更新软件。可以定期对服务器内的操作系统、软件进行更新,做好安全防护,避免病毒攻击。
4. 建立事件日志。对操作者和操作内容进行严格监控,尽可能实现自动化。
服务器故障虽然可防但不可控,出现故障也是难免的,出现故障后应该如何恢复呢。
1. 一旦出现故障首先要启用应急机制,备份服务器上线,替换故障服务器。
2. 排查故障情况并进行维修。
3. 如果服务器上的数据已经遭到破坏,应该对服务器进行关机,备份服务器数据并进行专业的数据恢复操作,恢复服务器数据。
本次分享的服务器为HP DL380系列,存储是由6块73GB SAS硬盘组成的RAID5,操作系统是WINDOWS 2003 SERVER,主要作为企业部门内部的文件服务器来应用,主机(无UPS)故障前经历过几次意外断电,重启后RAID报错,提示无法找到存储设备,进入RAID管理模块后操作死机,重启后问题依旧无法解决。
主机意外断电导致RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)的情况并不少见,一般来说,RAID创建完成后,其管理模块的信息就不会再发生改变,但这部分信息毕竟属于可修改信息,意外断电很容易造成这部分信息被篡改甚至丢失,多次断电甚至有可能导致RAID卡上的元器件损坏,从而使主机失去对多块物理硬盘进行RAID管理的中间层模块。该案例中对RAID模块的操作死机现象极有可能是由RAID卡硬件损坏引起的(后经HP售后技术人员验证得到证实),此时通过正常途径已无法将获取6块硬盘中的数据,只能依靠第三方提供数据恢复服务来解决。
数据恢复过程是怎么样的?
1.首先针对用户提供的6块SAS硬盘进行严格的物理检测,6块硬盘读取状态均良好;
2.分别镜像用户故障RAID组中的6块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;
3.镜像完成后,对所生成的6个备份文件进行RAID结构分析,依据文件系统存储规则确定6块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;
4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;
5.用户确认数据恢复结果已完全达到预期(数据恢复至故障前状态)后,将所有用户业务数据迁移至用户存储,至此数据恢复完成
北亚小贴士
1.尽量保证机房电源供应稳定,以减少电源异常对主机及存储的冲击;
2.最好为重要的服务器及存储配置UPS,可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作,从而为企业寻求应急解决方案赢得宝贵的时间;
3.对于服务年限已久的服务器应定期进行安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。
服务器作为一种高速运算、长时间运行的设备,出现故障的情况相对较多,但我们可以在使用过程中尽量减少或避免服务器故障,也可以在服务器故障后选择数据恢复手段来保护服务器内的数据,减少损失。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。