服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境:
一臺存儲中有一組由12塊SAS硬盤組建的RAID6磁盤陣列,劃分為一個卷,分配給幾臺Vmware ESXI主機做共享存儲。該卷中存放了大量Windows虛擬機,這些虛擬機系統(tǒng)盤是統(tǒng)一大小,數(shù)據(jù)盤大小不確定,數(shù)據(jù)盤是精簡模式。
服務(wù)器存儲故障:
機房斷電導(dǎo)致服務(wù)器存儲異常關(guān)機,加電后存儲無法使用。
服務(wù)器存儲數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器存儲的所有磁盤和備份數(shù)據(jù)的目標(biāo)磁盤接入到Windows Server服務(wù)器上。將磁盤都設(shè)為脫機(只讀)狀態(tài),看到的連接狀態(tài)如下所示(HD1-HD12為目標(biāo)備份磁盤,HD13-HD24為源故障磁盤,型號為HUS723030ALS640):
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
2、使用工具在底層讀取HD13-HD24扇區(qū),發(fā)現(xiàn)了大量損壞扇區(qū),數(shù)據(jù)恢復(fù)工程師初步推斷出現(xiàn)這種情況的原因是這種硬盤的讀取機制與常見硬盤不一樣。嘗試更換主機、HBA卡、擴展柜,并將操作系統(tǒng)更換為Linux,均呈現(xiàn)相同故障表現(xiàn)。與用戶方工程師溝通,用戶方工程師回應(yīng)此控制器對磁盤沒有特殊要求。
檢測硬盤損壞扇區(qū)的分布規(guī)律,服務(wù)器數(shù)據(jù)恢復(fù)工程師發(fā)現(xiàn)以下規(guī)則:
a、損壞扇區(qū)分布以256個扇區(qū)為單位。
b、除損壞扇區(qū)片斷的起始位置不固定外,后面的損壞扇區(qū)都是以2816個扇區(qū)為間隔。
所有磁盤的損壞扇區(qū)(部分)分布:
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)工程師編寫小程序,繞過處理每個磁盤的損壞扇區(qū),將所有盤的數(shù)據(jù)做只讀鏡像。
3、基于鏡像文件分析所有磁盤的底層數(shù)據(jù)。
經(jīng)過分析發(fā)現(xiàn)損壞扇區(qū)呈規(guī)律性出現(xiàn):
-每段損壞扇區(qū)區(qū)域大小總為256。
-損壞扇區(qū)分布為固定區(qū)域,每跳過11個256扇區(qū)遇到一個壞的256扇區(qū)。
-損壞扇區(qū)的位置一直存在于RAID的P校驗或Q校驗區(qū)域。
-所有硬盤中只有10號盤中有一個自然壞道。
分析HD13、HD23、HD24的0-2扇區(qū)得知分區(qū)大小為52735352798扇區(qū),按RAID6的模式計算,將分區(qū)大小除以9等于5859483644扇區(qū),與物理硬盤大小以及DS800控制器中保留的RAID信息區(qū)域大小吻合。根據(jù)物理硬盤底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無8字節(jié)校驗,大量的0扇區(qū)也無8字節(jié)校驗。故原存儲并未啟用存儲中常用的DA技術(shù)(520字節(jié)扇區(qū))。
分區(qū)大小如下圖(GPT分區(qū)表項底層表現(xiàn),涂色部分表示分區(qū)大小,單位512字節(jié)扇區(qū),64bit):
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
4、存儲使用的是標(biāo)準(zhǔn)RAID6陣列,只需要分析出RAID成員盤數(shù)量以及RAID走向就可以重組RAID。
-分析RAID條帶大小
整個存儲被劃分為一個大的卷,分配給幾臺ESXI做共享存儲,卷的文件系統(tǒng)是VMFS。該VMFS卷中存放了大量的Windows虛擬機。Windows虛擬機大多使用NTFS文件系統(tǒng),因此可以根據(jù)NTFS中MFT的順序分析出RAID條帶大小以及RAID走向。
-分析RAID是否存在掉線盤
鏡像完所有磁盤后發(fā)現(xiàn)最后一塊硬盤中并沒有像其他硬盤一樣有大量的壞道。最后一塊硬盤中有大量未損壞扇區(qū),這些未損壞扇區(qū)大多是全0扇區(qū),因此可以判斷這塊硬盤是熱備盤。
5、根據(jù)分析出來的RAID結(jié)構(gòu)重組RAID。重組完成后能看到目錄結(jié)構(gòu),但不確定是否為最新狀態(tài)。隨機檢測幾個虛擬機發(fā)現(xiàn)部分虛擬機數(shù)據(jù)異常,初步判斷RAID中存在掉線的磁盤。依次將RAID中的每一塊磁盤踢掉,然后查看剛才數(shù)據(jù)異常的地方,沒有找到問題原因。
6、分析底層數(shù)據(jù)后發(fā)現(xiàn)問題不是出在RAID層面,而是出在VMFS文件系統(tǒng)層面。由于VMFS文件系統(tǒng)如果大于16TB會存在一些其他的記錄信息,因此在組建RAID的時候需要跳過這些記錄信息。再次重組RAID后查看以前數(shù)據(jù)異常的地方,已經(jīng)沒有問題了。
針對其中的一臺虛擬機做驗證,將所有磁盤加入RIAD中后,這臺虛擬機是可以啟動的,但缺盤的情況下啟動有問題,因此可以判斷整個RAID處在不缺盤的狀態(tài)為最佳。
驗證數(shù)據(jù):
1、驗證虛擬機
驗證較為重要的虛擬機,發(fā)現(xiàn)大多數(shù)虛擬機都可以開機,進(jìn)入登錄界面。部分虛擬機開機藍(lán)屏或開機檢測磁盤,但是使用光盤修復(fù)之后都可以正常啟動。
部分虛擬機開機如下:
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
2、驗證數(shù)據(jù)庫
驗證重要虛擬機中的數(shù)據(jù)庫,發(fā)現(xiàn)數(shù)據(jù)庫都正常。通過查詢master數(shù)據(jù)庫中的系統(tǒng)視圖,查出所有數(shù)據(jù)庫信息如下:
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
3、檢測整個VMFS卷是否完整
由于虛擬機數(shù)量很多,每臺都驗證的話,所需的時間會很長,因此檢測整個VMFS卷,在檢測VMFS卷的過程中發(fā)現(xiàn)部分虛擬機或虛擬機的文件被破壞。
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
批量恢復(fù)數(shù)據(jù):
1、和用戶方溝通并且通報了目前恢復(fù)數(shù)據(jù)的情況。用戶對幾臺重要的虛擬機進(jìn)行驗證后,認(rèn)可恢復(fù)的數(shù)據(jù)。于是北亞企安數(shù)據(jù)恢復(fù)工程師著手恢復(fù)所有數(shù)據(jù)。
準(zhǔn)備好目標(biāo)RAID,將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上,然后使用工具解析整個VMFS。
2、將恢復(fù)出來的VMFS卷連接到虛擬化環(huán)境中的一臺ESXI5.5主機上,嘗試將該VMFS卷掛載到的ESXI5.5的環(huán)境中。由于版本(用戶方的ESXI主機是5.0版本)原因或VMFS本身有損壞,導(dǎo)致掛載不成功。
移交數(shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)工程師將目標(biāo)陣列上的數(shù)據(jù)帶到用戶方現(xiàn)場,使用工具導(dǎo)出VMFS卷中的虛擬機。
1、將目標(biāo)陣列上的數(shù)據(jù)通過HBA卡連接到用戶的VCenter服務(wù)器上。
2、在VCenter服務(wù)器安裝工具,然后使用工具解釋VMFS卷。
3、使用工具將VMFS卷中的虛擬機導(dǎo)入到VCenter服務(wù)器上。
4、使用VCenter的上傳功能將虛擬機上傳到ESXI的存儲中。
5、將上傳完的虛擬機添加到清單,開機驗證。
6、如果有虛擬機開機出現(xiàn)問題,則嘗試使用命令行模式修復(fù);或者重建虛擬機并將恢復(fù)的虛擬機磁盤(既VMDK文件)拷貝過去。
7、由于部分虛擬機的數(shù)據(jù)盤很大,而數(shù)據(jù)很少。這種情況就可以直接導(dǎo)出數(shù)據(jù),然后新建一個虛擬磁盤,最后將導(dǎo)出的數(shù)據(jù)拷貝至新建的虛擬磁盤中即可。
統(tǒng)計了一下整個存儲中虛擬機的數(shù)量,整個存儲中大約有200臺虛擬機。目前的情況只能通過上述方式將恢復(fù)出來的虛擬機一臺一臺的恢復(fù)到用戶的ESXI中。
總結(jié):
所有磁盤壞道的規(guī)律如下表:
北亞企安數(shù)據(jù)恢復(fù)——存儲數(shù)據(jù)恢復(fù)
經(jīng)過分析后得到關(guān)于壞道的規(guī)則表現(xiàn):
-除去SN:YHJ6LEUD上的一個自然壞道外,其余壞道均分布于RAID6的Q校驗塊中。
-壞道區(qū)域多數(shù)表現(xiàn)為完整的256個扇區(qū),正好是當(dāng)時創(chuàng)建RAID6時的一個完整RAID塊大小。
-活動區(qū)域表現(xiàn)為壞道,非活動區(qū)域壞道有可能不出現(xiàn),如熱備盤,由于上線不足10%,所以壞道數(shù)量就比其他在線盤少。
-其他非Q校驗區(qū)域完好,無任何故障。
結(jié)論:通過上述壞道規(guī)則表現(xiàn)可推斷:壞道為控制器生成Q校驗,向硬盤下達(dá)IO指令時,可能表現(xiàn)為非標(biāo)指令,硬盤內(nèi)部處理異常,導(dǎo)致出現(xiàn)規(guī)律性壞道。
存儲故障是由壞道引起的,導(dǎo)致恢復(fù)出來的數(shù)據(jù)有部分破壞,但不影響整體,結(jié)果也在可接受范圍內(nèi)。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9796瀏覽量
88015 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
650瀏覽量
18160 -
RAID6
+關(guān)注
關(guān)注
0文章
10瀏覽量
6038
發(fā)布評論請先 登錄
服務(wù)器數(shù)據(jù)恢復(fù)——服務(wù)器異常斷電導(dǎo)致raid模塊損壞的數(shù)據(jù)恢復(fù)案例
vsan數(shù)據(jù)恢復(fù)—vsan分布式服務(wù)器節(jié)點上raid數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—Linux系統(tǒng)服務(wù)器崩潰的數(shù)據(jù)恢復(fù)案例
虛擬化數(shù)據(jù)恢復(fù)—VMware虛擬化環(huán)境下重裝系統(tǒng)導(dǎo)致服務(wù)器數(shù)據(jù)丟失的數(shù)據(jù)恢復(fù)

服務(wù)器數(shù)據(jù)恢復(fù)—Zfs文件系統(tǒng)服務(wù)器數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—ZFS文件系統(tǒng)下RAIDZ數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—EVA存儲磁盤組磁盤掉線的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—EVA存儲誤刪除VDISK的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致linux系統(tǒng)無法啟動的數(shù)據(jù)恢復(fù)案例
虛擬機數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致XenServer虛擬機不可用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—V7000存儲NTFS文件系統(tǒng)數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—意外斷電導(dǎo)致虛擬機虛擬磁盤損壞的數(shù)據(jù)恢復(fù)案例

評論