服務器數據恢復環境:
某公司網站服務器,6塊SCSI硬盤組建raid5磁盤陣列;
服務器上層:linux操作系統+EXT3文件系統。
服務器故障&分析:
服務器在工作狀態下raid5磁盤陣列中的一塊硬盤由于未知原因離線。因為raid5中的一塊硬盤掉線并不會影響磁盤陣列的正常工作,服務器沒有出現異常,直到該raid5磁盤陣列中又有一塊硬盤掉線,服務器癱瘓。
管理員發現服務故障后,對raid5磁盤陣列進行了檢查,但是不能確定這兩塊硬盤的離線順序,抱著碰運氣的想法選擇了其中一塊離線硬盤嘗試強制上線操作。將這塊硬盤強制上線后發現操作系統啟動時出現異常,為了避免再次對數據造成破壞,管理員將服務器關機,之后沒有進行任何操作。
在過去十多年中,北亞企安數據恢復工程師們經常遇到類似的raid5故障:由于發現不及時或者第一塊硬盤掉線時不在意并沒有及時處理,當第二塊硬盤甚至更多的硬盤掉線時,磁盤陣列徹底崩潰。第二塊磁盤掉線后對后離線的硬盤進行強制上線具有一定的可操作性行,但是也有很大的風險。
強制上線最好由經驗豐富的管理員或者數據恢復工程師進行操作,而且強制上線之前必須做好備份工作。這個案例就是管理員在沒有備份,也沒有搞清楚硬盤離線順序的情況下進行了強制上線操作,最終導致數據丟失,服務器崩潰。
服務器數據恢復過程:
1、將故障服務器內的所有硬盤編號后取出,以只讀方式對所有硬盤進行鏡像備份。后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始數據造成二次破壞。
2、在鏡像過程中發現除了已經掉線的兩塊硬盤外,其他沒有掉線硬盤存在壞道,由于這些硬盤沒有離線所以暫時沒有進行特殊處理。
3、備份完成后基于鏡像文件分析原raid5磁盤陣列的組成結構并虛擬重構raid5環境。
4、由于管理員對磁盤陣列進行過強制上線的操作,該操作破壞了部分數據結構。
5、驗證raid5結構后由北亞企安數據恢復工程師手工修復被破壞的那部分結構,導出磁盤陣列內的所有數據。經過數據恢復工程師和管理員的驗證,確認恢復出來的數據完整有效。
6、在數據恢復工程師的協助下,管理員在準備好的服務器環境上重新搭建磁盤陣列并遷移數據。
服務器數據恢復Tip:
1、服務器發生故障后,切忌對服務器進行操作;也不要隨意取出硬盤,以免弄亂盤序。
2、如果需要取出硬盤,標記好硬盤的順序之后再取出。
3、服務器磁盤陣列癱瘓后應該立即斷電,不要做同步或強制上線操作,防止數據進一步破壞。
4、當服務器由于未知原因的故障而導致系統崩潰或者文件不識別/不可用時,通常不建議盲目地在服務器上進行數據分析和數據恢復操作。如果確實對自己的數據恢復技術有自信,必須先對原服務器的所有硬盤數據進行鏡像備份,數據分析和數據恢復操作只能在鏡像文件上進行,避免操作失誤破壞原始數據,讓后續的數據恢復難度增加。
審核編輯黃宇
-
硬盤
+關注
關注
3文章
1317瀏覽量
57494 -
服務器
+關注
關注
12文章
9308瀏覽量
86071 -
數據恢復
+關注
關注
10文章
586瀏覽量
17633
發布評論請先 登錄
相關推薦
評論