摘要:?洛神是阿里云飛天系統(tǒng)的虛擬網(wǎng)絡系統(tǒng)核心,而在11月15日的GNTC 云專場峰會上,阿里云資深網(wǎng)絡技術(shù)專家宗志剛先生首先分享了“驅(qū)動阿里云的高性能網(wǎng)絡引擎- 飛天洛神”主題演講,深度探尋了洛神系統(tǒng)關(guān)鍵技術(shù)能力及未來應用方向。
大家都知道阿里云部件的系統(tǒng)都是以神仙命名的,比如說洛神、伏羲、盤古、女媧等等。而在11月15日的GNTC 云專場峰會上,阿里云資深網(wǎng)絡技術(shù)專家宗志剛先生首先分享了“驅(qū)動阿里云的高性能網(wǎng)絡引擎- 飛天洛神”主題演講。洛神是阿里云飛天系統(tǒng)的虛擬網(wǎng)絡系統(tǒng)核心,提供了阿里云豐富的網(wǎng)絡產(chǎn)品同時也是阿里云所有云產(chǎn)品的網(wǎng)絡基礎設施。洛神也支撐了阿里巴巴集團和螞蟻金服集團的業(yè)務。此分論壇深度探尋了洛神系統(tǒng)關(guān)鍵技術(shù)能力及未來應用方向。
以下為大家?guī)碜谥緞倢<揖实难葜v摘要:
起名洛神的來由是因為在古代,河流是人們非常重要的一個交通方式,就好比網(wǎng)絡一樣是人類生活工作通訊重要的組成方式,所以阿里云網(wǎng)絡在剛剛成立的時候,就起了洛神這個名稱。洛神現(xiàn)在管理阿里云的基礎網(wǎng)絡系統(tǒng)已經(jīng)非常的龐大,到目前為止已經(jīng)有19個Region,20T的總出口帶寬以及超過200條的BGP線路,而且不斷在增長。另外阿里云推出了業(yè)界最豐富的網(wǎng)絡產(chǎn)品,從部署的位置來看可以分成四個組成部分:
云上網(wǎng)絡(洛神):如VPC、NAT網(wǎng)關(guān)、負載均衡這些網(wǎng)源,以及要大力發(fā)展的IPv6的網(wǎng)絡
云間網(wǎng)絡(織女):GEN云企業(yè)網(wǎng)、GA全球加速
上云網(wǎng)絡(嫦娥):高速通道、VPN網(wǎng)關(guān)還有智能接入網(wǎng)關(guān)
大圣智能機器人(齊天):通過阿里云運營的數(shù)據(jù)目前有的大數(shù)據(jù)分析,通過人機交互的方式給網(wǎng)絡的規(guī)劃者、運營者提供疑難雜癥的解答,幫助我們的網(wǎng)絡維護人員、規(guī)劃人員提高效率,現(xiàn)在正在試用,預計明年會推出。
阿里云的網(wǎng)絡架構(gòu)跟以上的網(wǎng)絡產(chǎn)品是一一對應的,而洛神實際上是代表了云上網(wǎng)絡。從以下企業(yè)上云的路線以及企業(yè)的一個IT架構(gòu)的變化來看一看云對網(wǎng)絡的要求是哪一些。云進化的路線圖分幾個階段:
第一階段,企業(yè)會將部分IT系統(tǒng)云化,主要是提升用戶體驗,提升運維效率。
第二階段,企業(yè)會將基礎資源全面云化,主要用于優(yōu)化企業(yè)IT資源的利用率。
第三階段,企業(yè)會進行架構(gòu)的微服務化改造,構(gòu)建以中臺為核心的業(yè)務架構(gòu),共享企業(yè)之間的各業(yè)務模塊,快速構(gòu)建自己的業(yè)務系統(tǒng),主要用于提高IT的敏捷能力
到了最后一個階段,阿里云認為隨著企業(yè)的業(yè)務在云上逐漸運行,收集了大量的一個數(shù)據(jù),后面會通過智能學習、大數(shù)據(jù)分析相關(guān)的工具對數(shù)據(jù)進行智能化的一個分析,用于指導業(yè)務更精準的服務,更精準的開展。
對應阿里云的系統(tǒng)架構(gòu)轉(zhuǎn)變,最開始的時候業(yè)務都是應用和數(shù)據(jù)一體化的單機部署方式,到后面應用和數(shù)據(jù)分層、多級分層部署,再到分布式的集群,以及到現(xiàn)在越來越應用廣泛的微服務化的改造,在這個過程中可以看到應用和應用之間,應用和數(shù)據(jù)之間彈性越來越高。
進入云以后,企業(yè)的業(yè)務在云上是可以看到網(wǎng)絡的,所以最基本的要求是網(wǎng)絡首先要提供各種網(wǎng)關(guān)類的服務,其次還需要提供跟業(yè)務相匹配的彈性能力、安全、可靠性以及高效的運維。
另外是阿里云認為未來企業(yè)在云上的時候其實對基礎設施將不再可見,將看不到所謂的計算、存儲、網(wǎng)絡等等各種服務,只需要在云上的生態(tài)系統(tǒng)里面按需獲取自己所獲取的前臺、中臺稍微進行改造生成自己的生態(tài)系統(tǒng)。在這個階段阿里云認為最終的用戶將對網(wǎng)絡不可見,這正是洛神系統(tǒng)最終的使命。
阿里云網(wǎng)絡產(chǎn)品推進的時間點跟企業(yè)上云的系統(tǒng)基本上保持一致的。最開始只是提供AVS、SLB這些單實例,到后面因為基礎實例上云了之后需要云上和云下的高速通道,專線以及智能接入網(wǎng)關(guān),到后面資源的力度越來越細,分布的范圍越來越廣,阿里云提供了比如說全球加速、云企業(yè)網(wǎng),通過企業(yè)架構(gòu)在云上不停的演進,阿里云網(wǎng)絡還將繼續(xù)推進各種滿足客戶服務,各種業(yè)務系統(tǒng)的網(wǎng)絡產(chǎn)品。
接下來介紹阿里云網(wǎng)絡洛神系統(tǒng)的關(guān)鍵技術(shù)。三個關(guān)鍵詞:彈性、可靠和智能。
彈性:有兩個重要數(shù)字,第一個是秒級的轉(zhuǎn)發(fā)性能的彈性擴展。洛神可以支持轉(zhuǎn)發(fā)帶寬從1兆到1個T在1秒以內(nèi)可以彈性擴張。另外一個是容量的彈性能力,目前10萬太的單網(wǎng)絡內(nèi)ECS規(guī)模。
而阿里云有這樣的彈性擴展能力,主要有兩個原因:
數(shù)據(jù)面:目前洛神系統(tǒng)包括X86、FPGA、ASIC,在轉(zhuǎn)發(fā)面可以支持多種方式,但不同的轉(zhuǎn)發(fā)技術(shù)及不同的轉(zhuǎn)發(fā)產(chǎn)品如何應用在不同的場景里面?到目前為止大部分的網(wǎng)關(guān)網(wǎng)源類產(chǎn)品主要還是用X86軟轉(zhuǎn)發(fā),但是后面會逐漸到智能網(wǎng)卡上面去。另外對于一些大帶寬,同時帶寬訴求不確定的應用場景,例如阿里云一些VRP客戶訪問存儲這一塊帶寬要求非常的高,而且也不確定。這樣的話阿里云會專門部署ASIC的芯片提升客戶的能力。通過這么多的轉(zhuǎn)發(fā)技術(shù)洛神形成了龐大的轉(zhuǎn)發(fā)的資源池,用于快速提升轉(zhuǎn)發(fā)性能的訴求。
管控面:洛神管理著一個非常龐大的網(wǎng)絡系統(tǒng),所以使用傳統(tǒng)的集中式單點的控制面肯定沒辦法滿足要求,所以整個洛神系統(tǒng)一方面控制面是區(qū)別層次化的,另外一方面很重要的是在下發(fā)轉(zhuǎn)發(fā)表面的時候采用的是緩沖的機制,例如虛擬機之內(nèi)的表象生成,通過數(shù)據(jù)面通過緩存自發(fā)學習到表象,通過數(shù)據(jù)面學習到的表象而不是通過控制面一一下發(fā)的,這樣表現(xiàn)的深層效率、深層速度將遠遠超過集中式的這樣方式。通過這種方式可以快速的去讓計算節(jié)點上線或者是下線。
可靠性:去年阿里云所有的網(wǎng)絡實例故障是50毫秒,還不計算 vSwitch的網(wǎng)絡情況下得到的結(jié)果,這是一個很短的時間。
談到可靠,跨機房多活是最基本的要求,對于洛神來講它的關(guān)鍵節(jié)點包?
括控制器,包括各種網(wǎng)關(guān),一方面是集群化部署,另外一方面在每一個機房基本上都會部署,節(jié)點與節(jié)點之間,機房與機房之間會互相備份,當某一個故障洛神會在集群內(nèi)倒換,如果超過了一定的值會在機房倒換,避免因為單一的一個點或者一個集群故障造成整個網(wǎng)絡的不可用。這個實際上是一個跨機房多活的方式。
跟大家介紹一下洛神的故障快速發(fā)現(xiàn)染色系統(tǒng),這個系統(tǒng)會對特定的流?
進行染色并且加以匹配,作用于阿里云虛擬網(wǎng)絡和物理網(wǎng)絡上面。在整個設備的運行過程中會對特定的業(yè)務,特定的流染色進行景象采樣,打時間搓等等,會進行數(shù)據(jù)的實時分析。通過數(shù)據(jù)的實時分析快速發(fā)現(xiàn)特定的流的故障,比如說丟包了,立即通知網(wǎng)絡管理人員恢復故障,這是我跟我們現(xiàn)在IT的思維基本上一致的,但是阿里云的洛神平臺主要是從客戶的業(yè)務出發(fā)。
智能性:其實智能與可靠性是密切相關(guān)的,因為通過智能監(jiān)控、智能運維、智能故障恢復,可以有效降低故障的時間。
提到智能,就必須介紹阿里云基于大數(shù)據(jù)的智能運維平臺,在阿里云內(nèi)部叫齊天系統(tǒng),通過數(shù)據(jù)面、控制面的各種數(shù)據(jù)收集,例如流數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等等用戶信息,收集到大數(shù)據(jù)的分析工具(JStorm)里面去對數(shù)據(jù)進行分類,我們分為基礎數(shù)據(jù)、監(jiān)控數(shù)據(jù)和診斷數(shù)據(jù),對這些數(shù)據(jù)進行規(guī)則的匹配、運算,會將分析結(jié)果輸送到各個界面,比如說報警、API、機器人等等,對于一些故障會進行故障隔離恢復,思路是差不多的。
介紹幾個現(xiàn)在正在使用的場景案例:
變更的案例:大家都知道線上很多的問題都是因為網(wǎng)絡的變更導致的,怎么樣降低變更時對業(yè)務的影響,阿里云一般會選取業(yè)務量最小的對客戶影響最小的時間點去進行變更。那怎么選擇時間點以往會通過人工的方式,這樣的話一方面工作量大,另外一方面其實也不精準,對業(yè)務的影響是不可知的。阿里云的齊天平臺可以通過大數(shù)據(jù)的分析,精準描繪用戶網(wǎng)源的畫像,選擇業(yè)務量最小的時間點進行自動的變更。這樣的話大大降低了影響業(yè)務運行的概率。另外很多時候要選擇版本上線的時間進行恢復,很多的時候難以判斷哪一些機房跟網(wǎng)源。利用大數(shù)據(jù)分析和齊天系統(tǒng)可以判斷哪些先進行可以對業(yè)務的影響最小,這也是基于智能平臺去做的,所以在網(wǎng)絡變更的情況下可以達到對業(yè)務的影響很小,而且都是自動化完成的。
異常的檢測:齊天會對多種策略異常檢測,并且用到線上去,在實際的運行過程中判斷這些策略是否異常存在并首先告警,其次會進行快速的逃逸過程。整個過程其實并不容易,因為要對全局全景進行判斷,到底是屏蔽電路還是屏蔽結(jié)點還是整機房的倒換,要根據(jù)業(yè)務場景做綜合判斷才可以得出。實際上在阿里云的網(wǎng)絡上運行時候正是齊天系統(tǒng)可以綜合判斷及決策,什么樣的故障逃逸對業(yè)務的影響是最小的。
看一下洛神的應用情況。截止當前整個阿里云的網(wǎng)絡規(guī)模已經(jīng)非常的龐大,對于虛擬網(wǎng)源來講已經(jīng)有百萬級的網(wǎng)絡設備,千萬級的網(wǎng)絡實例,并且監(jiān)控著超過一千多個的網(wǎng)絡指標進行一些大數(shù)據(jù)的分析。當然對于運行壓力最大的肯定還是雙十一這樣的場景。今年雙十一的數(shù)據(jù)還沒有完全得到。峰值的交易筆數(shù)達到了32.5萬,單一的負載均衡實例帶寬達到了160G,而且現(xiàn)在所有的阿里的業(yè)務都是運行在阿里云的洛神系統(tǒng)上的,已經(jīng)都是VPC網(wǎng)絡上面的一個業(yè)務了。
最后總結(jié)洛神的使命,洛神有三代,第一經(jīng)典網(wǎng)絡,主要是解決連通性的問題,第二代推出了VPC的網(wǎng)絡用于安全隔離,當前是第三代,打通了接入云的解決方案,提供跟傳統(tǒng)企業(yè)網(wǎng)絡相同能力的能力,最后一個階段阿里云定義為Networkless,最終的網(wǎng)絡對最終用戶其實是不可見的,就像阿里云網(wǎng)絡的名稱— 洛神,其實他像神一樣你看不到他的存在,其實他也無處不在。
評論
查看更多