服務器故障&檢測&分析:
HP EVA存儲設備中的RAID5磁盤有兩塊硬盤掉線,lun丟失。硬件工程師對故障服務器進行物理故障檢測,發現掉線硬盤能夠正常讀取,無物理故障,也沒有發現壞道。
故障服務器掉線硬盤沒有物理故障,所以掉線極有可能是硬盤讀寫不穩定造成的。EVA控制會將讀寫不穩定的硬盤默認為壞盤并踢出。raid5冗余允許最大掉線硬盤的數量是2,掉線的硬盤超過了2塊就會導致服務器崩潰。
通過分析故障服務器內raid條目的存儲形式,發現每個硬盤的不同塊組成一個raid條目。通過分析后解析出來raid條目信息,發現每個LUN都有一份LUN_MAP。由于EVA將LUN_MAP分別存放在不同的磁盤中,用一個索引來指定其位置,因此在磁盤中找出這個指定LUN_MAP位置的索引就可以找到現存LUN的信息。
服務器數據恢復過程:
1、將故障存儲中所有硬盤連接到北亞企安數據恢復平臺上,以只讀方式將硬盤數據鏡像備份,后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始數據造成二次破壞。
2、通過故障分析確定硬盤掉線的原因是讀寫不穩定,被控制器踢出掉線。這些掉線的硬盤中有一部分數據是老舊數據,LUN使用的是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。
將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那個盤就一定就是掉線盤。排除掉線盤后根據LUN_MAP即可恢復所有LUN的數據。由北亞企安數據恢復工程師編寫相對應程序來實現這個方案,根據編寫好的程序去實現不同的功能:
a、編寫程序掃描全部LUN_MAP,結合人工分析獲取到LUN_MAP。
b、編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤,結合人工分析排除掉線的磁盤。
c、編寫LUN數據恢復程序,結合LUN_MAP恢復所有LUN數據。
恢復出所有LUN的數據后由人工核對每個LUN,驗證是否和用戶方工程師描述的一致。
3、根據用戶方工程師描述,所有LUN的數據可以分成兩部份:1、Vmware的虛擬機;2、HP-UX上的裸設備,裸設備存放Oracle的dbf數據庫。由于通過恢復出來的LUN無法看到里面的文件,因此需要人工核對哪些LUN是存放Vmware的數據,哪些LUN是HP-UX上的裸設備。核對完成后將不同的LUN掛載到不同的驗證環境中進行驗證。
4、將所有存放vmware虛擬機數據的LUN里面的虛擬機文件都生成出來,通過NFS共享的方式掛載到虛擬主機上,然后將虛擬機一個一個添加到清單。所有虛擬機加電開機后都能啟動系統。用戶方工程師親自對虛擬機里面的數據進行驗證沒有發現問題。本次數據恢復工作完成。
服務器數據安全Tips:
1、定期巡查服務器&存儲設備,發現報警及時處理。
2、操作要謹慎,避免誤操作導致設備數據丟失。
3、如果發現EVA控制器模塊不穩定,應當及時更換。
4、本案例中的EVA存儲故障是由磁盤讀寫不穩定導致的,如果EVA存儲中所有磁盤(掉線和沒有掉線的)是同一批次,這些沒有掉線的磁盤也應該快到極限,如果有條件建議更換掉這批磁盤。
審核編輯:湯梓紅
-
存儲
+關注
關注
13文章
4505瀏覽量
87073 -
服務器
+關注
關注
13文章
9693瀏覽量
87292 -
數據恢復
+關注
關注
10文章
637瀏覽量
18013
發布評論請先 登錄
服務器數據恢復—raid5陣列多塊硬盤離線導致EMC存儲不可用的數據恢復案例
信號線電壓不穩定原因分析
如何解決電磁流量計讀數不穩定的問題
LDO輸出不穩定的原因
運放輸出不穩定是什么原因
伺服電機轉速不穩定的因素
電壓不穩定對伺服電機有影響嗎
服務器數據恢復—磁盤不穩定被踢導致raid5陣列崩潰的數據恢復案例

評論