服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
某品牌MSA2000服務(wù)器存儲(chǔ)中有一組由8塊SAS硬盤組建的raid5磁盤陣列,其中包含一塊熱備盤。分配了6個(gè)LUN,均分配給HP-Unix小機(jī)使用。磁盤分區(qū)由LVM進(jìn)行管理,存放的數(shù)據(jù)主要為Oracle數(shù)據(jù)庫及OA服務(wù)端。
服務(wù)器存儲(chǔ)故障:
服務(wù)器存儲(chǔ)raid5陣列中有兩塊硬盤先后離線,服務(wù)器癱瘓,無法正常訪問lun。
服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)過程:
1、將所有磁盤編號(hào)標(biāo)記后取出故障服務(wù)器存儲(chǔ),硬件工程師分別對(duì)服務(wù)器中所有磁盤進(jìn)行物理故障檢測(cè)和壞道檢測(cè),均無異常。
將所有磁盤以只讀方式鏡像成文件,鏡像完成后將所有磁盤按照編號(hào)還原到故障存儲(chǔ)中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
備份完成的部分?jǐn)?shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
2、MSA2000存儲(chǔ)中一旦某些磁盤讀寫性能不穩(wěn)定,該存儲(chǔ)中的raid控制器會(huì)將這些磁盤識(shí)別為壞盤并踢出RAID。一旦RAID中掉線的盤數(shù)到達(dá)到采用的RAID級(jí)別所允許掉盤的極限,RAID不可用,服務(wù)器癱瘓。
3、存儲(chǔ)中的LUN都是基于RAID的,要想恢復(fù)數(shù)據(jù)就需要先將原始RAID重組出來。分析Oracle數(shù)據(jù)庫頁在每個(gè)磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況獲取RAID條帶大小,盤序、數(shù)據(jù)走向等重組RAID所需要的信息。
4、根據(jù)分析出來的RAID信息重組原始RAID。重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。由于有6個(gè)LUN,因此只需要將每一個(gè)LUN的數(shù)據(jù)塊分布MAP提取出來。北亞企安數(shù)據(jù)恢復(fù)工程師根據(jù)這些信息編寫相應(yīng)的程序,解析所有LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導(dǎo)出所有LUN的數(shù)據(jù)。
導(dǎo)出的部分?jǐn)?shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
5、分析所有LUN,發(fā)現(xiàn)所有LUN中均包含LVM邏輯卷信息。嘗試解析每個(gè)LUN中的LVM信息,發(fā)現(xiàn)其中一共有三套LVM:第一個(gè)LVM中劃分了一個(gè)LV,存放OA服務(wù)器端的數(shù)據(jù);第二個(gè)LVM中劃分了一個(gè)LV,存放臨時(shí)備份數(shù)據(jù);剩下的4個(gè)LUN組成一個(gè)LVM,劃分了一個(gè)LV,存放Oracle數(shù)據(jù)庫文件。北亞企安數(shù)據(jù)恢復(fù)工程師編寫LVM解釋程序,嘗試解釋每套LVM中的LV卷,但是在解釋過程中出錯(cuò)。
6、開發(fā)工程師debug程序出錯(cuò)的位置,分析程序報(bào)錯(cuò)原因,由文件系統(tǒng)工程師對(duì)恢復(fù)出來的LUN做檢測(cè),檢測(cè)LVM信息是否會(huì)因?yàn)榇鎯?chǔ)癱瘓而導(dǎo)致LMV邏輯卷的信息損壞。經(jīng)過檢測(cè)發(fā)現(xiàn)LVM信息確實(shí)被破壞。北亞企安數(shù)據(jù)恢復(fù)工程師嘗試人工修復(fù)損壞的區(qū)域,并同步修改程序重新解析LVM邏輯卷。
7、搭建HP-Unix環(huán)境,將解釋出來的LV卷映射到HP-Unix。嘗試Mount文件系統(tǒng),結(jié)果Mount文件系統(tǒng)出錯(cuò)。嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng),修復(fù)完成還是不能掛載。懷疑vxfs文件系統(tǒng)元數(shù)據(jù)被破壞。
8、仔細(xì)分析解析出來的LV,根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗(yàn)此文件系統(tǒng)的完整性。分析發(fā)現(xiàn)VXFS文件系統(tǒng)確實(shí)存在問題,存儲(chǔ)癱瘓的同時(shí)此文件系統(tǒng)正在執(zhí)行IO操作,因此部分文件系統(tǒng)元文件損壞。人工修復(fù)這些損壞的元文件,直到能夠正常解析VXFS文件系統(tǒng)。再次將修復(fù)好的LV卷掛載到HP-Unix小機(jī)上,嘗試Mount文件系統(tǒng),這回文件系統(tǒng)沒有報(bào)錯(cuò),成功掛載。
9、在HP-Unix機(jī)器上mount文件系統(tǒng)后,將所有用戶數(shù)據(jù)備份至指定空間。
部分文件目錄:
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
10、使用Oracle數(shù)據(jù)庫文件檢測(cè)工具“dbv”檢測(cè)每個(gè)數(shù)據(jù)庫文件是否完整,沒有發(fā)現(xiàn)錯(cuò)誤。使用北亞企安自主研發(fā)的Oracle數(shù)據(jù)庫檢測(cè)工具進(jìn)行檢測(cè),發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)庫文件和日志文件校驗(yàn)不一致。由數(shù)據(jù)庫工程師修復(fù)此類文件并校驗(yàn),直到所有文件均通過校驗(yàn)。
11、將恢復(fù)出來的Oracle數(shù)據(jù)庫附加到原始生產(chǎn)環(huán)境的HP-Unix服務(wù)器中,嘗試啟動(dòng)Oracle數(shù)據(jù)庫,Oracle數(shù)據(jù)庫啟動(dòng)成功。
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
12、啟動(dòng)Oracle數(shù)據(jù)庫和OA服務(wù)端,通過OA客戶端對(duì)最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進(jìn)行驗(yàn)證,并且安排不同部門人員進(jìn)行遠(yuǎn)程驗(yàn)證。經(jīng)過仔細(xì)驗(yàn)證,確認(rèn)數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9744瀏覽量
87525 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
645瀏覽量
18073 -
RAID5
+關(guān)注
關(guān)注
0文章
131瀏覽量
13010
發(fā)布評(píng)論請(qǐng)先 登錄
服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)raid5磁盤陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列中硬盤壞道導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列崩潰導(dǎo)致上層lun無法正常使用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—華為OceanStor存儲(chǔ)中RAID5陣列數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—用5盤RAID5陣列中的4塊盤重建RAID5陣列后如何恢復(fù)原始數(shù)據(jù)?
RAID5數(shù)據(jù)恢復(fù)—如何重組RAID5陣列?

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤上線同步失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復(fù)?
服務(wù)器數(shù)據(jù)恢復(fù)—不當(dāng)操作導(dǎo)致raid5陣列數(shù)據(jù)無法恢復(fù)的案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤同步失敗的數(shù)據(jù)恢復(fù)案例

評(píng)論