服務器數據恢復環境&故障:
一臺某品牌X3650M3服務器,服務器中有一組raid5磁盤陣列,上層采用zfs文件系統。
服務器未知原因崩潰,工作人員排查故障后發現服務器的raid5陣列中有兩塊硬盤離線導致該陣列不可用,服務器內的數據丟失。
數據恢復工程師在現場對故障服務器raid5陣列中的磁盤進行硬件故障檢測,經過檢測發現該raid5陣列中離線的兩塊硬盤均無硬件問題。
服務器數據恢復過程:
1、將故障服務器raid5陣列中所有磁盤編號后取出,以只讀方式進行扇區級的全盤鏡像,鏡像完成后按照編號將所有磁盤還原到原服務器中,隨后數據分析和數據恢復操作均在鏡像文件進行,確保原始數據不被修改和破壞。
2、基于鏡像文件對所有磁盤鏡像文件進行分析,發現該raid5陣列中有兩塊熱備盤,2塊硬盤離線時只有一塊熱備盤成功激活,此時raid5陣列處于缺盤狀態,數據并未同步。數據恢復工程師通過分析獲取到原raid5陣列中的硬盤分布規律、raid條帶、盤序等raid信息。
3、根據分析獲取到的RAID信息分析每一塊硬盤中的數據,發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,數據恢復工程師初步判斷此硬盤是最先掉線的。使用北亞企安自主開發的RAID校驗程序對這個條帶進行校驗,發現除掉剛才分析的那塊硬盤后所得出的數據是最好的,因此可以確定最先掉線的那塊硬盤。
4、根據獲取到的raid信息重組raid5陣列,在重組出的raid5陣列中分析lun的分配情況和數據塊情況。使用北亞企安自主開發的軟件導出lun并解析文件系統時提示報錯,重新調試軟件后報錯情況依舊,可以排除由于軟件問題所導致的文件系統解析報錯。手動檢查導出的文件后發現導致解析報錯的原因是文件系統元文件損壞。經過檢測發現元文件損壞原因是服務器癱瘓時zfs文件系統正在進行IO操作。由于軟件無法解析文件系統,于是數據恢復工程師手動修復zfs文件系統中損壞的元文件后再使用軟件進行解析。
5、將手動修復好的文件系統再次使用軟件進行解析,這次成功解析所有文件節點和文件目錄結構,然后將數據導出。
6、驗證恢復出來的數據沒有發現問題。交由用戶方對恢復出來的數據進行檢查,經過仔細檢查,用戶方確認恢復出來的數據完整可用。本次數據恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
13文章
9706瀏覽量
87322 -
數據恢復
+關注
關注
10文章
638瀏覽量
18020 -
磁盤
+關注
關注
1文章
388瀏覽量
25664 -
RAID5
+關注
關注
0文章
130瀏覽量
12979
發布評論請先 登錄
評論