在一個理想的世界里,一切都非常完美,并且一直都在順暢運作。早晨的通勤沒有交通堵塞,最喜歡的停車位一直空著,一杯溫度適宜的飲料,生活一帆風順,沒有任何中斷。在需要時,您能得到所需的東西。但這只存在于想象中的完美世界里。在現實世界里,一切往往不總是按計劃進行。交通情況是多變的,每天我們可能停在不同的車位,有時,可能把一杯燙手的咖啡不小心弄灑了。
現在,考慮一下IT世界里發生的這些類似中斷,而且規模更大:在全球范圍內運行的服務和應用程序可能會遭遇意外中斷,從而產生輕微或重大影響,具體取決于業務本身的性質。
例如在機場候機時,常用的手機應用程序意外發生崩潰,這屬于影響輕微的中斷;相比之下,由于網絡服務中斷,飛行員無法與機場塔臺人員溝通,導致所有航班停飛,這就是影響重大的中斷了。
韌性應用程序可減小發生此類中斷的可能性,并盡量縮短發生故障時的恢復時間。韌性應用程序可確保服務在發生各種規模的中斷時恢復過來,并在盡可能短的時間內再次可用。
我們來更深入地了解一下什么是韌性、我們如何構建云本身的韌性,以及亞馬遜云科技如何幫助客戶在云中構建具有高可靠性和韌性的應用程序。
架構可靠:亞馬遜云科技全球云基礎設施及架構設計穩定可靠
云的韌性和可靠是承載云服務的硬件、軟件、網絡和設施所具備的抵御故障并快速從中斷中恢復的能力,并盡可能減少云服務的中斷。亞馬遜云科技在確保云可靠性方面進行了大量投資,設計了高度可用的全球基礎設施,在服務設計和部署機制中建立了保障措施,并將韌性融入平臺的運營文化中。
全球基礎設施:亞馬遜云科技在全球范圍內部署了32個區域、102個可用區,并宣布計劃增加15個可用區和5個亞馬遜云科技區域,以便支持為全球客戶提供的200多項功能齊全的服務,并且這一數字還在不斷增加。每個區域由一個地理區域內的多個隔離的且在物理上分隔的可用區組成,每個區域設計為3個以上的可用區,每個可用區都有獨立的電力、冷卻和物理安全性,并通過冗余的超低延遲網絡進行互聯。可以將應用程序在多個可用區或者多個區域內部署以實現更大的容錯能力。
故障邊界的隔離:在全球部署的同時,亞馬遜云科技使用多種故障隔離結構來實現服務的韌性。這些故障隔離的邊界將故障控制在已有故障域且可預測的范圍內。亞馬遜云科技服務的隔離邊界包括:可用區(AZ)、區域(Region)、控制平面和數據平面。從故障隔離邊界的維度看,亞馬遜云科技運營三種不同類別的服務:可用區性、區域性和全球性。例如,每個區域級服務都部署了專用的基礎設施和服務堆棧,且互相隔離,在跨區域調用時也足夠的隔離機制。同時,每種服務的控制平面和數據平面都在不同的范圍內進行隔離,即控制面的失敗不影響數據面的運行,且不會擴散到相鄰范圍。(例如,控制臺的失敗不會影響現有云主機的運行)。綜上,亞馬遜云科技將故障發生時的爆炸半徑控制住最小的范圍內。
靜態穩定設計:亞馬遜云科技韌性設計的關鍵是保持“靜態穩定性”。“靜態穩定性”是依賴項發生故障或不可用期間系統無需進行更改就可以依然可以保持繼續正常運行,在數據平面對資源的訪問一旦配置,就不依賴于控制平面,因此不會受到任何控制平面失效的影響。換句話說,即使創建、修改或刪除資源的能力受損,現有資源仍然可用。
單元架構:亞馬遜云科技的服務采用單元架構的部署方式,即將單元作為云服務部署的基本單位,單元的大小受到限制且彼此隔離。這種設計減少了故障的影響范圍,整體可用性得以提高并保持了服務的連續性,類似于船只中多個水密艙的設計。
卓越運營:實現云的可靠和韌性需要的不僅僅可靠的技術,它也需要人員、文化、流程和工具的支持。亞馬遜云科技基于Two-Pizza team的服務所有模式組建團隊和文化,通過安全的持續發布、運營就緒審查、錯誤更正流程等流程和工具來維護云服務的穩定運行。
事件預警:提供主動預警工具與機制,提前預防云上問題發生
同時,亞馬遜云科技提供系列的工具、解決方案及方案論,幫助客戶利用云本身的韌性,提升“云中的韌性”。
Amazon Health是您的權威信息來源,可從中了解關乎您的亞馬遜云科技云資源的相應服務事件和計劃更改情況。Amazon Health會向您發送有關服務事件、計劃變更和賬戶的通知,以幫助您進行管理并采取行動。登錄Amazon Health Dashboard可使用Amazon EventBridge查看特定于賬戶的Health信息或接收Health事件更新。您還可以使用Amazon Premium Support提供的Amazon Health API以編程方式訪問Amazon Health。
Amazon Managed Services提供主動、預防和檢測功能,這些功能提高了操作門檻,并幫助降低風險,而不限制敏捷性,使您能夠專注于創新。AMS通過運營能力擴展您的團隊,包括監控、事件管理、亞馬遜云科技事件檢測及響應服務、安全、補丁、備份和成本優化。
事前優化:提供系列工具及方法論,幫助客戶提升云上業務可靠性
通過Well-Architect框架,構建韌性系統最佳實踐:包含自動從故障中恢復,測試恢復過程,橫向擴展以提高工作負載的可用性,在設計時,分布式系統的工作負載架構必須能夠預防與減少故障,符合靜態穩定性的實踐,并具備隔離機制。同時系統的設計應能夠檢測故障并自動加以修復或轉移。
全棧可觀測性:包括亞馬遜云科技原生、應用程序性能監控(APM)和開源解決方案,讓您能夠隨時了解整個技術棧中發生的情況。可觀測性讓您可以在云、混合或本地環境中的網絡、基礎設施和應用程序中收集、關聯、聚合和分析遙測數據,以便深入了解系統的行為、性能和運行狀況。這些見解可幫助您更快地檢測、調查和修復問題;結合人工智能和機器學習,以主動反應、預測和預防問題。
事后協助:幫助客戶構建云上可靠性能力,保障應用和數據高可靠運行
最后,實現業務連續性,合適的業務容災備份策略也是十分重要的。亞馬遜云科技提供完善的容災與備份機制,從冷備份、實時異步復制業務數據,到實時復制業務數據、實時同步/異步雙向復制業務數據,適用于不同RPO/RTO目標需求,幫助您提前做好準備提升可用性。
總結
云上業務連續性是創新的基石,亞馬遜云科技基礎設施經過精心構建,是當今最安全、最可靠的云計算環境之一,旨在提供一個高可擴展性、高可靠的平臺,使您能夠快速安全地部署應用程序、構建高可用的業務系統。
審核編輯 黃宇
-
應用程序
+關注
關注
38文章
3296瀏覽量
57946 -
云服務
+關注
關注
0文章
836瀏覽量
39066 -
亞馬遜
+關注
關注
8文章
2680瀏覽量
83676
發布評論請先 登錄
相關推薦
亞馬遜云科技發布Amazon Bedrock新功能
美的攜手亞馬遜云科技,提升全球客戶體驗
超級應用程序Grab選擇亞馬遜云科技為首選云服務商
低溫高可靠性錫膏逐步引領趨勢,深受客戶青睞!
![低溫<b class='flag-5'>高可靠性</b>錫膏逐步引領趨勢,深受<b class='flag-5'>客戶</b>青睞!](https://file1.elecfans.com/web3/M00/02/11/wKgZPGdaxVSAYFNXAACMj_0Snyw464.png)
基于亞馬遜云科技的GROW with SAP解決方案 助力企業簡化云端ERP部署
半導體封裝的可靠性測試及標準
![半導體封裝的<b class='flag-5'>可靠性</b>測試及標準](https://file1.elecfans.com/web1/M00/F5/96/wKgaoWc-1NiAEj59AAA5ucoUbis593.png)
PCB高可靠性化要求與發展——PCB高可靠性的影響因素(上)
![PCB<b class='flag-5'>高可靠性</b>化要求與發展——PCB<b class='flag-5'>高可靠性</b>的影響因素(上)](https://file1.elecfans.com//web1/M00/F2/B1/wKgaoWcImW-AVZ6iAAA1UIogzFM024.jpg)
紅外探測器封裝秘籍:高可靠性鍵合工藝全解析
![紅外探測器封裝秘籍:<b class='flag-5'>高可靠性</b>鍵合工藝全解析](https://file1.elecfans.com/web2/M00/E8/2D/wKgZomZOngaAOQ0vAABV-JP65qU099.png)
長電科技為自動駕駛芯片客戶提供多樣化高可靠性的封裝測試解決方案
![長電科技為自動駕駛芯片<b class='flag-5'>客戶</b>提供多樣化<b class='flag-5'>高可靠性</b>的封裝測試解決方案](https://file1.elecfans.com/web2/M00/E5/4B/wKgZomZCzFiAQ--NAAAmMteFNYc414.png)
評論