執行概要
云計算正在引起廣泛的討論并為企業IT世界帶來了活力。由于渴望提高效率和降低成本,各種規模和各式各樣的組織都在迅速地采用基于Web的軟件、平臺和基礎設施解決方案。確實,分析公司國際數據公司(International Data Corporation)預計在2009年到2013年間,全球企業在云服務方面支出的復合年均增長率將達到26%,即從174億美元增長到442億美元。專家們預測也就是幾年的時間,大多數企業都會至少使用一些基于云技術的應用和服務。
然而,除了能夠簡化管理、提高靈活性之外,云計算也對供電、冷卻和可用性帶來了挑戰。為了應對這些挑戰,各企業必須增加其電氣及機械基礎設施的強度和彈性。
本白皮書調查不斷采用基于云的解決方案背后的推動力,研究云架構如何影響數據中心,討論一系列能夠幫助公司在不損失正常運行時間或過載其供電與冷卻系統的情況下受益于云計算的具體方法與技術。
了解云計算
盡管存在各種各樣的定義,云計算最基本的定義就是IT基礎架構、服務和軟件通過互聯網或內部基于Web的基礎架構進行實時交付。一般來說,云解決方案分為三大類:
軟件即服務(SaaS),這種解決方案通過云來交付軟件應用。例如,在線CRM應用Salesforce.com和基于Web的生產力套裝軟件Google Apps,都是常見的SaaS服務。
平臺即服務(PaaS),這類解決方案提供在線訪問計算資源和編程工具,開發人員可以利用這些資源和編程工具來創建和控制基于云計算的應用。如:源于Salesforce.com的Force.com,還有Microsoft Windows Azure,就是兩個人們比較熟悉的PaaS解決方案。
基礎設施即服務(IaaS),這類解決方案通過Web提供像存儲空間和處理能力這樣的基礎設施資源。亞馬遜網絡服務(Amazon Web Services)就是最著名的IaaS提供商之一。
無論是哪一類云計算解決方案,它們都能通過“公共云”(public cloud)或“私有云”(private cloud)來交付。公共云解決方案通過互聯網交換數據。在用戶端,除了一個Web瀏覽器和高速互聯網連接外,它們不需要任何基礎設施,其典型的收費方式為訂閱型現收現付制(subscription-based),您只需為所使用的資源付費。私有云解決方案利用相同的基礎技術和協議作為其公共對等物,但駐留在企業防火墻內的私有或租用的服務器上。許多IT經理人們都相信,私有云方案使他們的安全和管理工作更加輕松。
無論是公共云還是私有云解決方案,都能夠帶來大量的商業和技術方面的效益:
效率:云解決方案通常運行在靈活、高度自動化的基礎架構上,它們在管理上更加簡單,因而成本更低。另外,由于它們不需要本地服務器資源,公共云解決方案使各企業避免了巨大的前期軟硬件投資,使IT由資本支出轉為費用。
靈活性:大多數云基礎架構都廣泛采用服務器虛擬化技術,這種技術允許單個物理服務器宿主成多個“虛擬服務器”,而每個虛擬服務器都有其自己的操作系統和應用程序。由于那些虛擬服務器本質上只是些復雜的計算機文件,創建一個虛擬服務器所需的時間只相當于建立一個新的物理服務器的一小部分。因此,云環境使企業部署新的應用和服務的速度遠遠高于傳統環境。
可擴展性:大多數云方案都利用虛擬化帶來的靈活性,使用戶根據需求的變化而動態地增加或去除處理與儲存能力。
云計算如何影響IT基礎設施
維持可用性和提供充足的供電和制冷能力對于傳統的數據中心管理人員來說是長期存在的挑戰。然而,由于種種原因,云數據中心的管理人員要解決那些問題會更加困難。
供電與制冷
大多數云基礎架構用于宿主虛擬機的服務器硬件都比典型的單一功能的服務器更大且更穩定。同時也得到更為廣泛的利用:當平均非虛擬服務器以5~15%的處理能力運行時,平均虛擬主服務器在任何時候的利用率可能高達80%。鑒于這兩種原因,大多數云數據中心的虛擬主服務器都比傳統服務器需要更多的供電,配電裝置(PDU)、配電盤和不間斷電源系統(UPS)的負擔也更重。
當企業部署刀片式服務器來宿主其虛擬服務器時尤其如此。刀片式服務器采用多個即插即用型處理裝置,它們共享公共的電氣系統、電源、風扇、電纜和存儲器。這樣的安排節省了數據中心的占地面積,簡化了硬件管理,并提高了IT靈活性。然而,這同時也大大增加了運算密度。結果,刀片式服務器產生大量的熱,從根本提高了機柜級供電要求。確實,一個典型的傳統服務器機柜可能需要4至6 kW電力,而一個典型的布滿刀片式機架的機柜則可能需要高達30 kW的電力,遠遠超過許多電源和冷卻系統的處理能力。
圖1:大多數云基礎架構為超高密環境,機柜級供電要求遠遠高于傳統的數據中心。
可靠性
大多數云計算環境大量采用虛擬化技術對可用性具有重要影響。在傳統的數據中心,每個服務器通常只支持一種應用。而在虛擬化的云計算數據中心,一個主服務器可以支持幾種或多種應用。因此,一旦主機發生故障,將會影響大批用戶和企業職能。
此外,令云計算和虛擬化如此吸引人的靈活性也能夠在有意無意間導致停機。沒有正確的管理,在數據中心內或跨數據中心的突然轉移工作負荷會造成電路過載或冷卻系統負擔過重,進而使關鍵的系統崩潰。
基于云基礎架構的供電與冷卻策略
IT及設備管理人員可以通過實施下述策略來應對為云環境提供供電和冷卻的巨大挑戰。
采用模塊式供電與冷卻系統組件
任何云數據中心的管理者都不希望其供電和冷卻能力無法滿足客戶需求。另一方面,在未來需要之前過早地提前部署額外能力會浪費大量的時間、金錢和資源。
采用模塊式供電系統組件是一種更理想的作法。這類產品使您能夠隨著需求的增長而快速、遞增式地提高能力。例如,用于小型云環境的模塊式可擴展型UPS可以基于能夠安裝在標準設備機柜內的12kW組件,提供高達50或60kW的供電能力。隨著需求的增長,IT人員可以插入另一個12kW組件,供電能力(在本例中)從12kW增加至N+1架構的60kW。此外,基于機柜的模塊式供電系統組件都傾向于采用緊湊結構,且易于安裝,這就使其非常適用于技術人員會經常移動、改變和增加基礎設施資源的快節奏的云數據中心。
UPS供電模塊的規模小到3kVA,大到1,000kVA以上。一般來說,企業應該部署比成品模塊預計滿容量小4~6倍的UPS模塊。
圖2:模塊式電源組件讓您根據需求的不斷增長而遞增式地提高能力。
部署被動式冷卻系統
現在,大多數企業都在其服務器所在樓層的周圍部署機房空調(CRAC)裝置來解決數據中心產生的熱量。許多公司還采用“熱通道-冷通道”式硬件配置,針對指定的服務器機柜只配置了熱風排出或者冷風吸入。這就產生了對流循環,從而形成冷卻的連續氣流。然而,雖然這類技術基本足以應對傳統數據中心的需求,但卻往往無法處理云基礎架構產生的巨大熱量。因此,公共和私有云環境通常需要更先進、更強大的冷卻技術。
模塊式冷卻系統組件與上面討論過的UPS設計類似,目前許多制造商都有生產。然而,根據需求的增長部署額外的冷卻模塊并不像模塊式UPS那么簡單。數據中心管理人員通常必須提前為那些設備安裝造價昂貴的地板下或架空管道。因此,許多公司寧愿通過配備帶有變頻驅動或電子整流(EC)扇的CRAC和機房空氣調節器(CRAH)系統來降低與冷卻相關的耗電量。變頻驅動讓空氣調節系統在服務器需要較少的冷卻量時運行得更慢,在工作負荷達到峰值時運行得更快,從而達到節能目的。同樣,EC風扇采用“智能”電機,根據氣流的需求量運行得更快或更慢。
圖3:在最初施工時可以加裝帶快速接頭的地板下或架空管道,盡管它們會增加施工成本
追求更低前期成本和更高運行效率的公司可以安裝被動式冷卻系統。它們的機殼上裝有一個氣密的后門和煙囪,用于收集來自服務氣的熱排風,并將其直接引導至CRAC裝置上的回風管道中。然后,CRAC裝置對排風進行冷卻并重新循環。被動式系統要求機柜從前到后都具有較強的氣密性,以便與由CRAC裝置進入的冷風混合的服務器熱風盡量少。通過比普通的熱-冷通道技術更徹底地分離冷風和熱風,設計合理的被動式冷卻系統甚至能以低成本使灼熱的30kW服務器機柜在安全溫度下運行。
圖4:本文所述的被動式冷卻系統利用氣密的機殼和煙囪在熱風與冷風混合前排出數據中心,從而使溫度管理更加高效
建造多個設備間
提供公共云服務的大型數據中心通常在與服務器樓層相鄰的指定設備間內配備UPS設備。建立兩個設備間,一個用于UPS和供電系統電氣組件,另一個用于UPS蓄電池,這種安排的效率更高。由于UPS電子裝置的典型安全工作溫度為35°C / 95°F,UPS蓄電池溫度通常必須保持在25°C / 77°F。
將UPS蓄電池放在其自己的環境可控房間內可以減少冷卻系統必須處理的熱量。將放熱量較大的設備部署在可接受的高溫環境中有助于降低冷卻需求和節省電費。
改善云基礎架構可靠性的策略
盡管云計算使得保持正常運行時間更加困難,下面所討論的方法和技術能夠顯著改善這項任務。
進行電源鏈審計
打算在現有數據中心的基礎上增加云基礎架構的企業應該在其部署前規劃中包含電源鏈審計。由通過認證的供電系統工程師進行審計時,電源鏈審計有助于評估您的供電系統和確定哪個需要進行升級、擴展或現代化(如果有),以支持云環境更苛刻的要求。另外,電源鏈審計還能夠幫助您識別潛在的成本節約機會,評估您的供電組件的電氣安全性。
為供電基礎架構增加冗余度
企業可以利用如下的冗余供電系統架構來提高可用性和減少計劃外停機的可能性:
N+1:N+1架構比保持服務器設備啟動和運行所需的最低要求多一個UPS、發電機或其它供電組件。因此,如果任何一個組件發生中斷或需要維護,其余系統仍能提供充分的保護,以免數據丟失。N+1架構一般足以滿足小型或中型云環境的需求。
圖5:即使UPS因技術問題或維護要求而關閉,N+1供電體系結構仍能繼續工作
2(N):它對于大型云環境是一個不錯的選擇,2(N)架構的特點是有兩個獨立但相同的供電路徑,每個都能自行支持整個架構。在正常情況下,兩個供電路徑均按50%供電能力工作。然而,如果一個路徑發生計劃內或計劃外停機,另一個就會臨時按100%供電能力運行來進行補償。
2(N)架構與含有雙電源的服務器配合使用。在這種排列中,每個電源一般都是利用一個獨立的供電路徑。那樣,即使整個動力總成都關機進行維修或維護,服務器仍然可用。
圖6:A 2(N)電源架構利用獨立且相同的供電路徑。如果任何一個路徑發生故障,另一個會自動補償
部署復制軟件
為了進一步提高可靠性,云數據中心管理人員可以使用基于軟件的冗余技術,如:復制。復制解決方案持續捕獲所保護的服務器上發生的變化,然后接近實時地將其復制到備份服務器中。如果主服務器發生故障,則備份服務器能夠迅速介入,從而確保無縫的可用性。
利用實時遷移軟件
利用許多服務器虛擬化解決方案中內建的實時遷移功能是另一個有效的基于軟件的可靠性策略。實時遷移系統,如:VMware公司的在線遷移(vMotion)解決方案,讓管理員能夠幾乎同時地將虛擬服務器由一個物理主機遷移至另一個物理主機,以解決技術問題或滿足維護要求。假如一個物理服務器有即將發生故障的跡象,技術人員就可以利用實時遷移軟件迅速地將其虛擬機轉移至另一個宿主機上,直到問題解決為止。
部署集成管理軟件
清潔、可靠的電源是云基礎架構作為處理能力和存儲空間成功運行的關鍵。那么,為了讓云數據中心保持平穩運行,管理員需要關于其IT資源和電力資源的完整的最新信息。現在,許多云操作人員都利用獨立的管理工具來監測其服務器和電源環境。然而,現在有了集成的解決方案,它讓管理員能夠只通過一個控制臺就能管理物理服務器、虛擬服務器、UPS、PDU等。
例如,最新發布的伊頓公司(Eaton)的智能電源管理器(Intelligent Power Manager)軟件和VMware的虛擬中心服務器(vCenter Server)虛擬化管理系統配合使用,支持在一個地方綜合查詢與網絡和電源相關的事件和報警信息。此外,管理員還能對這兩個系統進行設置,讓其根據狀態信息動態地工作。假如您的數據中心發生電氣中斷,智能電源管理器(Intelligent Power Manager)和虛擬中心(vCenter)便可以從容地在您的UPS系統電量耗盡以前關閉受影響的虛擬及物理服務器。或者,如果數據中心配備有在線遷移(vMotion),您就可以自動地將受影響的虛擬機遷移至另一個完全運行的設備上的宿主設備。無論采用哪種方法,從最終用戶的角度來說,最終結果就是持續的正常運行。
結論
基于云的軟件、平臺和基礎架構解決方案提高了IT運營的效率和靈活性。因此,許多企業現在都在開發和利用公共和私有云,并且在接下來的幾年里會有更多的企業加入。
然而,云計算也使數據中心遭受到更大的新壓力。云基礎架構廣泛利用了虛擬化和更強大的服務器(包括刀片式服務器)和技術,顯著地提高了機柜級供電和冷卻要求。此外,云數據中心一般是動態環境,虛擬工作負荷在物理主機之間自由的遷移。它增加了IT業的靈活性,但也會導致電路損壞及其它致使服務中斷的電氣問題。
為了掌控這些挑戰,各企業應該采用能夠提高其物理及虛擬環境(包括供電和冷卻系統)可靠性和冗余度的技術和工藝。它們包括模塊式電源組件、被動式冷卻方案、復制解決方案和實時遷移軟件。另外,對物理及虛擬系統進行適當的監控將有助于企業更加輕松地管理其基礎設施。總之,這些工具和策略能夠幫助任何公司可靠而低成本地享受云計算的力量!
評論