服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
一臺(tái)EMC某型號(hào)存儲(chǔ)設(shè)備,該存儲(chǔ)中有一組由12塊(包括2塊熱備盤)STAT硬盤組建的raid5陣列。
服務(wù)器故障:
該存儲(chǔ)在運(yùn)行過程中突然崩潰,raid癱瘓。數(shù)據(jù)恢復(fù)工程師到達(dá)現(xiàn)場(chǎng)對(duì)故障存儲(chǔ)設(shè)備進(jìn)行初檢,發(fā)現(xiàn)raid中有兩塊硬盤掉線但只有一塊熱備盤成功激活,所以導(dǎo)致陣列癱瘓,上層lun無法使用。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障存儲(chǔ)中所有磁盤標(biāo)記后取出。由硬件工程師檢測(cè)后沒有發(fā)現(xiàn)有磁盤存在物理故障,使用壞道檢測(cè)工具檢測(cè)也沒有發(fā)現(xiàn)有磁盤存在壞道。將所有磁盤以只讀方式進(jìn)行扇區(qū)級(jí)全盤鏡像,由于源磁盤的扇區(qū)大小是520字節(jié),做完鏡像后將520字節(jié)轉(zhuǎn)換成512字節(jié)。
2、由于故障存儲(chǔ)中所有硬盤經(jīng)過檢測(cè)沒有發(fā)現(xiàn)存在物理故障和壞道,基本上可以推斷硬盤掉線是磁盤讀寫性能不穩(wěn)定造成的。EMC控制器的磁盤檢測(cè)策略十分嚴(yán)格,讀寫性能不穩(wěn)定的磁盤一般會(huì)被控制器判定為壞盤并踢出raid。當(dāng)raid中掉線盤超過該raid級(jí)別的允許掉盤數(shù)量的極限,raid就會(huì)崩潰,基于raid的lun不可用。本案例中只有一個(gè)lun分配給sun小機(jī),上層文件系統(tǒng)是ZFS。
3、EMC存儲(chǔ)的LUN都是基于RAID。通過分析發(fā)現(xiàn)有2塊盤完全沒有數(shù)據(jù),EMC存儲(chǔ)的管理界面上顯示這2塊沒有數(shù)據(jù)的盤都是熱備盤,其中一塊熱備盤替換了一塊離線盤。雖然這塊熱備盤成功激活,RAID中還有一塊硬盤離線,所以數(shù)據(jù)沒有同步到這塊熱備盤中。繼續(xù)分析其他10塊盤,分析數(shù)據(jù)在硬盤中的分布規(guī)律、RAID條帶大小以及盤序等重組RAID所需要的信息。
4、由于RAID中有兩塊盤掉線,需要搞清楚這兩塊盤的掉線順序。分析每一塊盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,因此初步判斷此硬盤可能是最先掉線的。通過北亞企安自主開發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶做校驗(yàn),最終確定這塊硬盤就是最先掉線的。
5、根據(jù)上面步驟獲取到的信息將RAID重組出來。EMC存儲(chǔ)的LUN是基于RAID的。分析LUN在RAID中的分配信息,以及LUN分配的數(shù)據(jù)塊MAP。根據(jù)上述信息,用北亞企安自主開發(fā)的程序解釋LUN的數(shù)據(jù)MAP并導(dǎo)出LUN的所有數(shù)據(jù)。
6、用北亞企安自主開發(fā)的ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,但是在解釋某些文件系統(tǒng)元文件的時(shí)候報(bào)錯(cuò)。開發(fā)工程師對(duì)程序做debug調(diào)試并分析程序報(bào)錯(cuò)原因,文件系統(tǒng)工程師分析ZFS文件系統(tǒng)是否因?yàn)榘姹驹蚨鴮?dǎo)致程序不支持。經(jīng)過長(zhǎng)達(dá)數(shù)小時(shí)的分析與調(diào)試,發(fā)現(xiàn)ZFS文件系統(tǒng)因存儲(chǔ)癱瘓導(dǎo)致某些元文件損壞,從而導(dǎo)致文件系統(tǒng)解釋報(bào)錯(cuò)。
7、北亞企安數(shù)據(jù)恢復(fù)工程師手工修復(fù)這些損壞的元文件,直到ZFS文件系統(tǒng)能夠正常解析。
8、解析ZFS文件系統(tǒng),解析所有文件節(jié)點(diǎn)及目錄結(jié)構(gòu)。用戶方工程師對(duì)恢復(fù)出來的數(shù)據(jù)進(jìn)行隨機(jī)驗(yàn)證,經(jīng)過仔細(xì)驗(yàn)證沒有發(fā)現(xiàn)問題。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
87992 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
650瀏覽量
18155 -
emc
+關(guān)注
關(guān)注
172文章
4168瀏覽量
186986
發(fā)布評(píng)論請(qǐng)先 登錄
raid5數(shù)據(jù)恢復(fù)—Raid陣列重建后如何恢復(fù)原陣列的數(shù)據(jù)?
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列多塊硬盤離線導(dǎo)致EMC存儲(chǔ)不可用的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)raid5磁盤陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列中硬盤壞道導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—RAID5陣列熱備盤同步數(shù)據(jù)失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列崩潰導(dǎo)致上層lun無法正常使用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—華為OceanStor存儲(chǔ)中RAID5陣列數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—用5盤RAID5陣列中的4塊盤重建RAID5陣列后如何恢復(fù)原始數(shù)據(jù)?
RAID5數(shù)據(jù)恢復(fù)—如何重組RAID5陣列?

服務(wù)器數(shù)據(jù)恢復(fù)—RAID5陣列硬盤離線但熱備盤未激活的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤上線同步失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復(fù)?
服務(wù)器數(shù)據(jù)恢復(fù)—不當(dāng)操作導(dǎo)致raid5陣列數(shù)據(jù)無法恢復(fù)的案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

評(píng)論