服務器數據恢復環境&故障:
一臺emc某型號存儲服務器,存儲服務器上組建了一組raid5磁盤陣列,陣列中有兩塊磁盤作為熱備盤使用。存儲服務器在運行過程中有兩塊磁盤出現故障離線,但是只有一塊熱備盤激活,最終導致該raid5陣列崩潰,上層應用無法正常使用。
服務器故障檢測:
將故障存儲服務器中所有磁盤編號后取出,由硬件工程師對兩塊掉線的硬盤進行物理故障檢測,經過檢測發現這2塊離線的磁盤確實存在物理故障,需要對這2塊盤進行物理故障修復后才能進行下一步的數據恢復,存儲服務器中其他硬盤經過檢測沒有發現存在物理故障及壞道。
將故障存儲服務器中的完好硬盤以只讀方式進行扇區級的全盤鏡像。針對存在物理故障的2塊磁盤,由硬件工程師進行開盤處理后使用專業工具進行全盤鏡像。由于故障存儲服務器中所有磁盤的扇區大小為520字節,在進行數據恢復之前需要將所有鏡像數據做520字節to512字節的轉換。
服務器數據恢復過程:
1、基于鏡像文件分析所有磁盤底層數據,經過分析發現故障存儲服務器中的兩塊熱備盤是空的,沒有寫入任何數據,據此推斷有一塊熱備盤雖然上線,但此時raid陣列仍處于缺盤狀態,數據并沒有開始同步。
2、通過分析底層數據獲取到條帶大小、磁盤順序等raid陣列結構基礎信息,利用這些信息虛擬重組raid5陣列。
3、由于該型號存儲服務器的LUN是基于RAID5陣列的,在raid5陣列重組完成之后,需要分析LUN在RAID陣列中的分配信息以及LUN分配的數據塊MAP。
4、根據上一步獲取到的信息,使用北亞企安自研程序解釋LUN的數據MAP并導出LUN的所有數據。
5、使用北亞企安自研的ZFS文件系統解釋程序對生成的LUN做文件系統解釋,但是在解釋某些文件系統元文件的時候程序報錯。開發工程師對該解釋程序做debug調試并分析程序報錯原因,與此同時,文件系統工程師分析ZFS文件系統是否存在問題。經過數小時的分析與調試,最終確認導致程序無法正常解釋ZFS文件系統的原因:ZFS文件系統中某些元文件損壞。對損壞的元文件進行分析,發現ZFS文件系統正在進行I/O操作的時候存儲服務器癱瘓,導致部分文件系統元文件損壞。
6、北亞企安數據恢復工程師對損壞的ZFS文件系統元文件進行手工修復,直到ZFS文件系統能夠正常解析。
7、對修復后的ZFS文件系統進行解析并驗證數據。經過用戶方工程師的仔細驗證,確認存儲服務器內所有數據成功恢復。本次存儲服務器數據恢復工作完成。
審核編輯 黃宇
-
存儲
+關注
關注
13文章
4520瀏覽量
87277 -
服務器
+關注
關注
13文章
9758瀏覽量
87607 -
數據恢復
+關注
關注
10文章
645瀏覽量
18085 -
emc
+關注
關注
172文章
4148瀏覽量
186475 -
RAID5
+關注
關注
0文章
131瀏覽量
13016
發布評論請先 登錄
服務器數據恢復—Raid5陣列熱備盤上線失敗的數據恢復案例
服務器數據恢復—RAID5陣列兩塊硬盤離線崩潰,數據如何起死回生?

評論