服務器存儲數據恢復環境:
某品牌MSA2000服務器存儲中有一組由8塊SAS硬盤組建的raid5磁盤陣列,其中包含一塊熱備盤。分配了6個LUN,均分配給HP-Unix小機使用。磁盤分區由LVM進行管理,存放的數據主要為Oracle數據庫及OA服務端。
服務器存儲故障:
服務器存儲raid5陣列中有兩塊硬盤先后離線,服務器癱瘓,無法正常訪問lun。
服務器存儲數據恢復過程:
1、將所有磁盤編號標記后取出故障服務器存儲,硬件工程師分別對服務器中所有磁盤進行物理故障檢測和壞道檢測,均無異常。
將所有磁盤以只讀方式鏡像成文件,鏡像完成后將所有磁盤按照編號還原到故障存儲中。后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始磁盤數據造成二次破壞。
備份完成的部分數據:
北亞企安數據恢復——raid5數據恢復
2、MSA2000存儲中一旦某些磁盤讀寫性能不穩定,該存儲中的raid控制器會將這些磁盤識別為壞盤并踢出RAID。一旦RAID中掉線的盤數到達到采用的RAID級別所允許掉盤的極限,RAID不可用,服務器癱瘓。
3、存儲中的LUN都是基于RAID的,要想恢復數據就需要先將原始RAID重組出來。分析Oracle數據庫頁在每個磁盤中分布的情況,并根據數據分布的情況獲取RAID條帶大小,盤序、數據走向等重組RAID所需要的信息。
4、根據分析出來的RAID信息重組原始RAID。重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數據塊MAP。由于有6個LUN,因此只需要將每一個LUN的數據塊分布MAP提取出來。北亞企安數據恢復工程師根據這些信息編寫相應的程序,解析所有LUN的數據MAP,然后根據數據MAP導出所有LUN的數據。
導出的部分數據:
北亞企安數據恢復——raid5數據恢復
5、分析所有LUN,發現所有LUN中均包含LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,發現其中一共有三套LVM:第一個LVM中劃分了一個LV,存放OA服務器端的數據;第二個LVM中劃分了一個LV,存放臨時備份數據;剩下的4個LUN組成一個LVM,劃分了一個LV,存放Oracle數據庫文件。北亞企安數據恢復工程師編寫LVM解釋程序,嘗試解釋每套LVM中的LV卷,但是在解釋過程中出錯。
6、開發工程師debug程序出錯的位置,分析程序報錯原因,由文件系統工程師對恢復出來的LUN做檢測,檢測LVM信息是否會因為存儲癱瘓而導致LMV邏輯卷的信息損壞。經過檢測發現LVM信息確實被破壞。北亞企安數據恢復工程師嘗試人工修復損壞的區域,并同步修改程序重新解析LVM邏輯卷。
7、搭建HP-Unix環境,將解釋出來的LV卷映射到HP-Unix。嘗試Mount文件系統,結果Mount文件系統出錯。嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統,修復完成還是不能掛載。懷疑vxfs文件系統元數據被破壞。
8、仔細分析解析出來的LV,根據VXFS文件系統的底層結構校驗此文件系統的完整性。分析發現VXFS文件系統確實存在問題,存儲癱瘓的同時此文件系統正在執行IO操作,因此部分文件系統元文件損壞。人工修復這些損壞的元文件,直到能夠正常解析VXFS文件系統。再次將修復好的LV卷掛載到HP-Unix小機上,嘗試Mount文件系統,這回文件系統沒有報錯,成功掛載。
9、在HP-Unix機器上mount文件系統后,將所有用戶數據備份至指定空間。
部分文件目錄:
北亞企安數據恢復——raid5數據恢復
10、使用Oracle數據庫文件檢測工具“dbv”檢測每個數據庫文件是否完整,沒有發現錯誤。使用北亞企安自主研發的Oracle數據庫檢測工具進行檢測,發現有部分數據庫文件和日志文件校驗不一致。由數據庫工程師修復此類文件并校驗,直到所有文件均通過校驗。
11、將恢復出來的Oracle數據庫附加到原始生產環境的HP-Unix服務器中,嘗試啟動Oracle數據庫,Oracle數據庫啟動成功。
北亞企安數據恢復——raid5數據恢復
12、啟動Oracle數據庫和OA服務端,通過OA客戶端對最新的數據記錄以及歷史數據記錄進行驗證,并且安排不同部門人員進行遠程驗證。經過仔細驗證,確認數據完整有效。本次數據恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9334瀏覽量
86133 -
數據恢復
+關注
關注
10文章
587瀏覽量
17662 -
RAID5
+關注
關注
0文章
122瀏覽量
12772
發布評論請先 登錄
相關推薦
服務器數據恢復—raid5陣列崩潰導致上層lun無法正常使用的數據恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數據</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b><b class='flag-5'>崩潰</b><b class='flag-5'>導致</b>上層lun無法正常使用的<b class='flag-5'>數據</b><b class='flag-5'>恢復</b>案例](https://file1.elecfans.com/web1/M00/F5/CD/wKgaoWdEEuKANb_mAAFsIQ9lvYU381.png)
評論