首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器zfs文件系统修复过程记录

一、服务器数据恢复介绍:

一台zfs文件系统的服务器,配备32块硬盘,Windows操作系统。

二、服务器数据恢复故障情况

设备在运行过程中突然崩溃,设备不存在物理故障,重启后问题没有解决,需要恢复服务器内的大量数据。

三、备份服务器数据

北亚数据恢复工程师第客户服务器进行扇区级镜像操作,通过对镜像文件分析获取到如下信息:

zfs文件系统

服务器硬盘共分4组

热备盘全部启用

四、服务器故障情况分析

故障服务器4组raidz里有两组中的热备盘启动了,其中第一组启用了一块热备盘,第二组启用了3块。

另外第一组启动了一块热备盘后还有一块正常硬盘掉线,第二组中则有2块硬盘掉线。

两组raidz均在出现硬盘离线的状况后启用了热备盘进行坏盘替换,在热备盘上线后第这两组又有其他硬盘出现离线的情况。zpool在每次读取数据都需要进行校验得到正确数据,紧接着第二组raidz又有硬盘离线,服务器因此彻底崩溃。

五、重组ZPOOL,追踪数据入口

ZFS管理的存储池与常规存储不同,所有磁盘都由ZFS进行管理。常规RAID在存储数据时,只按照特定的规则组建池,不关心文件在子设备上的位置。而ZFS在数据存储时会为每次写入的数据分配适当大小的空间,并计算得到指向子设备的数据指针。这种特性使得RAIDZ缺盘时无法直接进行校验得到数据,必须将整个ZPOOL作为一个整体进行解析。

手工截取事务块数据,编写程序获取最大事务号入口:

获取文件系统入口

获取到文件系统入口后,编写数据指针解析程序进行地址解析:

解析数据指针

获取到文件系统入口点在各磁盘分布情况后,开始手工截取并分析文件系统内部结构,入口分布所在的磁盘组无缺失盘,可直接提取信息。根据ZFS文件系统的数据存储结构顺利找到客户映射的LUN名称,进而找到其节点。

六、编写数据提取程序并运行

经过仔细分析,发现在此存储中的ZFS版本与开源版本有较大差别,无法使用公司原先开发的解析程序进行解析,所以重新编写了数据提取程序。

由于磁盘组内缺盘个数较多,每个IO流都需要通过校验得到,提取进度极为缓慢。与客户沟通后得知,此ZVOL卷映射到XenServer作为存储设备,客户所需的文件在其中一个大小约为2T的vhd内。提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析,发现2T vhd在整个卷的尾部,计算得到其起始位置后从此位置开始提取数据。

七、验证数据完整性,服务器数据恢复成功

Vhd提取完毕后,对其内部的压缩包及图片、视频等文件进行验证,均可正常打开。

联系客户验证数据,确定文件数量与系统自动记录的文件个数相差极小,丢失文件可能是最新生成还未刷新到磁盘。验证文件可用性,文件全部可正常打开,服务器数据恢复成功。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210917A08W9Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券