2023 年 11 月 12 日 17:44 開始,阿里云發生嚴重故障,導致阿里巴巴大量產品無法連接,一時間,“阿里云盤崩了”、“淘寶又崩了”、“閑魚崩了”、“釘釘崩了”等話題相繼登上熱搜。
阿里云出現大規模故障,也成為政企們熱議的話題,大家關心的問題在于:公有云到底還安全嗎?是否還能繼續上云?未來應該采取哪些措施來保障穩定可靠?
不要動搖“上云”的方向
一個不爭的事實是:阿里云出現嚴重故障,給上云企業,特別是核心業務跑在云上的企業帶來了損失。
一個是故障波及的范圍廣,故障期間阿里云控制臺無法正常登錄,API 調用異常,導致阿里云全系列產品服務及全球區域數據中心都受到了影響;另一個是持續的時間長,故障持續了 3 個多小時才基本完全恢復。據不完全統計,除了阿里系幾乎全線產品出現故障外,整數云、理工小蜜蜂、餓樂送、cooleasy、IOTTEC、納思云、語雀等平臺均受到影響。
如此大的影響規模,如此嚴重的程度,在公有云歷史上都非常罕見。于是,有一些人出現了是否繼續上云的疑慮,甚至有人說應該退回到過去自建的模式。
筆者首先給出結論:千萬不要動搖“上云”的方向。雖然這次阿里云出現的故障很嚴重,但我們仍不能否認云相比物理主機具有更高的可靠性。
這是因為傳統服務器硬件受到廠商品牌、機型、服務器運行時間以及部件型號故障率等諸多因素影響,更容易出現故障,而云服務提供商通常遵循一對多的模型,而且具有專業的基礎運維團隊和內核團隊,能夠在出現問題時快速恢復。相比自建機房的方式,公有云不僅運維成本更低,而且運維更專業、可靠。
某電商公司 2018 年投入數百萬資金自建物理機房,起初系統穩定性連 90%都達不到,2020 年雙 11 大促活動期間,因業務中斷兩小時,造成高達 100 余萬的損失。后來該公司改用移動云云主機,公司業務系統穩定性提高至 99%,建設維護成本下降 60%,問題迎刃而解。
更重要的是,上云相比自建機房更是能為企業帶來無可比擬的價值。在數字化轉型的大背景下,云作為數字化轉型的重要支撐技術,具有按需使用、彈性伸縮、資源共享等優勢,可以提升企業的業務敏捷性,降低企業的成本。而且,云計算也是人工智能的基座,只有在云的基礎上,企業才能更好地擁抱智能時代。
從千行萬業無數企業的實踐也能看到這一點。例如,對可靠性要求最為苛刻的金融企業,也在將核心業務上云。以郵儲銀行為例,其新一代分布式核心系統為全行 6 億多個人客戶提供了日均 20 億筆的處理能力,聯機交易處理效率提升一倍,批處理效率提升 33%。
正如長江黃河不會倒流,上云的大方向也不會因為出現一些坎坷而發生改變。
雞蛋不要放在一個籃子里
上云的方向沒問題,但是上云的路徑和具體策略卻需要借助阿里云故障時間進行重新審視。
比如對于核心業務上云的企業,就有必要警惕云集中的風險,實施多云戰略勢在必行。
Gartner 公布的 2023 年三季度新興風險報告顯示,云集中風險連續第二年進入“五大新興風險”綜合榜單,其中中國市場的這種風險尤為突出。正如 Gartner 法律風險與合規實踐部門研究總結徐然所說,“云服務集中化風險正在成為大多數企業的共識,許多企業和機構現在面臨這樣的處境:一旦單個云服務商出現故障,將導致業務發生嚴重中斷。”
破局云集中風險的一個有效途徑,就是實施多云戰略,就像不要將雞蛋放在同一個籃子里一樣。Flexera 發布的《2021 年云計算市場發展狀態報告》顯示,有 92%的企業采用了多云戰略,就是如此。
采用多云戰略的好處顯而易見,一方面,企業可以將風險分散,防止出現某個云廠商出現故障時企業業務中斷的風險,實現雙保險、多保險;另一方面,企業也能選擇各領域最優的云服務廠商,形成最佳組合來滿足業務需求。
通過這次阿里云宕機事件,還有一個警示意義,那就是必須要重視災備。事實上,災備服務也是云相比自建機房的重要優勢,云服務提供商通常會提供災備服務,以滿足企業數據安全和業務連續性需求。
但是需要指出的是,不同云廠商的災備服務能力也是有差異的。例如,華為云就具有同城 AZ(AvailableZone,可用區)內、跨 AZ、異地跨區的兩地三中心容災方案和 1000 公里以上的城市級容災能力。河鋼集團,就采用華為云提供的兩地三中心容災備份方案,實現了系統的平穩可靠運行,任何時候都能實現業務 0 中斷。
所以,對于將核心業務放在云上的企業,只有不將雞蛋放在一個籃子里(多云與多地災備),才能最大限度保障企業核心數據的安全和業務的平穩運行。
后記:選云,要選可靠的云
毋庸置疑,阿里云這次出現如此大的故障,會對其未來的市場開拓帶來負面影響。野村綜研(上海)數字化能力中心總監陶旭駿就表示,政府和國企央企市場是云市場的非常重要的客戶群,他們對安全性和穩定性的要求是壓倒成本和性能的,阿里云會在開拓企業市場時受到挑戰。
可以預計,這次事件也會對政企在選擇云服務廠商時帶來影響,大家會有一個強烈的共識:選云,要選可靠的云。因為,不管是性能,還是成本,都必須有一個前提,那就是高可靠性、高可用性。打個比方,高可靠性和高可用性是 1,其他是 0,如果沒有前者,后者也不復存在。
那么什么是可靠的云呢?我覺得,首先要看企業的基因。比如華為云,就根植華為的基因,華為從運營商業務起家,運營商對于產品的可靠性、穩定性有極高的要求,如我們經常聽到的電信級要求,要求在不間斷運行、高穩定性、可靠性上有 5 個 9 的級別。正是這樣嚴苛的要求,讓高可靠性、高可用性刻在了華為、華為云的骨子里,滲透到了血液里。
其次要看企業在高可靠性、高可用性上的技術能力,尤其是運維安全上的內功。事實上,在軟硬件迭代加速、企業需求瞬息萬變、不確定性加劇的大背景下,云服務的運維也在發生變革,運維既要保穩,也要敏捷。令人欣喜的是,業界的頭部廠商正在身體力行地推動運維模式的變革,從運維組織、人員能力、知識體系發展等全維度進行變革,強化穩定可靠性。
穩定可靠一直是各云廠商的業務重點和難點,為此進行了各種組織上和體制上的設計。例如,華為云內部就專門有一種職業,叫做 SRE(SiteReliabllitiyEngineer,站點可用工程師),還系統定義了包括質量管理機制、運維平臺等 SRE 的能力體系。京東云通過京東云云泰-穩定性主動管理平臺,為客戶提供全鏈路的云上安全保障,其基于混沌工程原理,可以做到先于用戶發現問題、先于感知修復問題。金山云服務器帶來完善的管理員面板功能,可以讓用戶快速了解實例情況、配置實例、掛載和擴容硬盤等,隨時掌控資源使用情況。
總而言之,針對阿里云出現故障這一事件,需要客觀理性看待:既不能因噎廢食,改變上云的大方向;也不能置若罔聞,需要對上云的路徑和策略進行重新審視,需要對云服務廠商進行全面審視。
只有這樣,企業的云上之旅和數字化轉型步伐才能既快又穩。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9306瀏覽量
86070 -
云服務
+關注
關注
0文章
835瀏覽量
39052
發布評論請先 登錄
相關推薦
評論