服務器數據恢復環(huán)境&故障:
一臺服務器中有5塊硬盤,其中的4塊組建了一組RAID5陣列,剩下一塊盤作為熱備盤(Hot-Spare)使用。服務器操作系統為linux,應用系統為構架于oracle數據庫的一個oa。
raid5陣列中一塊盤離線,但熱備盤未自動激活rebuild。直到另外一塊盤離線,RAID崩潰。
由于oracle已經不再對本案例中的oa系統提供后續(xù)支持,用戶方要求盡可能恢復數據和操作系統。經過檢測發(fā)現熱備盤完全沒有啟用,硬盤無明顯物理故障,無明顯同步表現。
服務器數據恢復過程:
1、將故障服務器中所有硬盤做好標記后取出,以只讀方式將所有硬盤進行扇區(qū)級別完整鏡像,鏡像后發(fā)現后離線的硬盤有10-20個壞扇區(qū),其余磁盤,均無壞道。鏡像完成后將所有硬盤根據標記按照原樣還原到原服務器中。后續(xù)的數據分析和數據恢復操作都基于鏡像文件進行,避免后續(xù)操作對原始數據造成二次破壞。
2、基于鏡像文件分析raid結構,獲取到盤序、塊大小、backward parity(Adaptec)等raid結構相關信息。
北亞企安數據恢復—服務器數據恢復
3、驗證數據發(fā)現大小200M以上的壓縮包解壓無報錯,確定結構正確。
4、按照此結構虛擬重組RAID到一塊單硬盤上,打開文件系統無明顯報錯。
5、確定備份包安全的情況下,經用戶方同意后,對原盤重建RAID(重建時已經用全新硬盤更換發(fā)現壞扇區(qū)的硬盤)。將恢復好的單盤用USB方式接入故障服務器,再用linux SystemRescueCd啟動故障服務器,之后通過dd命令進行全盤回寫。
6、回寫后啟動操作系統。無法正常進入操作系統并且報錯。
懷疑報錯信息中提到的文件權限有問題。使用SystemRescueCd重啟后檢查,發(fā)現此文件時間,權限,大小均有明顯錯誤,顯然節(jié)點損壞。
7、重新分析重組數據中的根分區(qū),定位出錯的目錄,發(fā)現問題是由硬盤壞道引起的。
使用其他數據盤盤,針對發(fā)現壞道的硬盤的損壞區(qū)域進行xor補齊。補齊后重新校驗文件系統,依然有錯誤。再次檢查inode表,發(fā)現壞道的硬盤上的損壞區(qū)域有部分節(jié)點表現下圖中的55 55 55部分。
北亞企安數據恢復—服務器數據恢復
8、雖然節(jié)點中描述的uid還正常存在,但屬性、大小、最初的分配塊全部是錯誤的。按照所有可能進行分析,確定無法找回此損壞節(jié)點。要么修復此節(jié)點,或者復制一個相同的文件過來。
對所有可能有錯的文件,通過日志確定原節(jié)點塊的節(jié)點信息,再做修正。
修正后重新dd根分區(qū),執(zhí)行fsck命令進行檢測,依然報錯。
北亞企安數據恢復—服務器數據恢復
9、根據提示,在系統中發(fā)現有多個節(jié)點共用同樣的數據塊。按此提示進行底層分析,發(fā)現存在節(jié)點信息的新舊交集。
10、北亞企安數據恢復工程師按照節(jié)點所屬的文件進行區(qū)別。清除錯誤節(jié)點后,再次執(zhí)行fsck命令檢測,依然出現報錯,但數量已經很少。根據提示,發(fā)現這些節(jié)點大多位于doc目錄下,不影響系統啟動,于是直接fsck命令強行修復。
修復完成后重啟系統,成功進入桌面。啟動數據庫服務和應用軟件,一切正常,無報錯。數據庫數據恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
13文章
9795瀏覽量
88001 -
數據恢復
+關注
關注
10文章
650瀏覽量
18158
發(fā)布評論請先 登錄
服務器數據恢復—raid5陣列多塊硬盤離線導致EMC存儲不可用的數據恢復案例
服務器數據恢復—raid5陣列中硬盤壞道導致陣列崩潰的數據恢復案例

服務器數據恢復—Raid5陣列熱備盤上線失敗的數據恢復案例
服務器數據恢復—華為OceanStor存儲中RAID5陣列數據恢復案例

評論