一、計算模式的演進(jìn)
?
圖 1 計算模式的演進(jìn)
計算紀(jì)年:
1、大型機時代:20世紀(jì)60~70年代,計算機體積大、價格高,支持成百上千用戶同時操作。
2、個人電腦時代:20世紀(jì)80~90年代,計算機體積小、價格低,只支持單個用戶同時操作。
3、移動時代:21世紀(jì)00~10年代,終端設(shè)備搭載移動操作系統(tǒng),用戶隨時隨地可用。
4、泛在時代:21世紀(jì)20年代及以后,計算無處不在,無所不包,典型代表:云計算。
二、云計算應(yīng)用場景及特征
?
圖 2 云計算
應(yīng)用場景:
1、支持動態(tài)組織和業(yè)務(wù)系統(tǒng)的應(yīng)用:
典型代表:移動辦公。
2、提供集中管理和集成共享的應(yīng)用:
典型代表:桌面管理。
3、基于網(wǎng)絡(luò)渠道和面向服務(wù)的應(yīng)用:
典型代表:電子商務(wù)。
4、需要大數(shù)據(jù)計算和存儲能力的應(yīng)用:
典型代表:搜索服務(wù)。
特征:經(jīng)濟性、靈活性、共享性、可靠性、可擴展性。
三、云計算數(shù)據(jù)中心網(wǎng)絡(luò)需求
?
圖 3 云計算數(shù)據(jù)中心網(wǎng)絡(luò)
云計算的主要載體是數(shù)據(jù)中心。數(shù)據(jù)中心云化對網(wǎng)絡(luò)提出了新需求:
1、超大規(guī)模,平滑擴展:支持?jǐn)?shù)萬甚至更高量級的服務(wù)器接入。
2、虛機動態(tài)遷移:虛機可在不同物理機之間漂移。
3、交換無阻塞,轉(zhuǎn)發(fā)低時延:網(wǎng)絡(luò)流量以東西向為主,南北向為輔。
4、多租戶:不同租戶網(wǎng)絡(luò)物理共享,邏輯隔離。
5、低成本,高擴展:采用普通商用組件作橫向擴展。
6、網(wǎng)絡(luò)靈活性:可動態(tài)調(diào)整拓?fù)洹⒇?fù)載。
7、高效的網(wǎng)絡(luò)協(xié)議:根據(jù)數(shù)據(jù)中心結(jié)構(gòu)和流量特點設(shè)計網(wǎng)絡(luò)協(xié)議。
但是在傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)中難以滿足上述需求。
四、數(shù)據(jù)中心軟件定義網(wǎng)絡(luò)
?
圖 4 SDN網(wǎng)絡(luò)架構(gòu)
為了應(yīng)對云計算的沖擊,數(shù)據(jù)中心網(wǎng)絡(luò)需要SDN化。SDN的價值主要體現(xiàn)在網(wǎng)絡(luò)即服務(wù)。
SDN的本質(zhì)在于抽象網(wǎng)絡(luò)控制,包括轉(zhuǎn)發(fā)抽象(網(wǎng)絡(luò)模型)、狀態(tài)分步抽象(全局網(wǎng)絡(luò)視圖)與規(guī)格抽象(抽象網(wǎng)絡(luò)視圖)。SDN的特征有控制與轉(zhuǎn)發(fā)分離、開放的編程接口與集中化的網(wǎng)絡(luò)控制。
五、基于Overlay的SDN解決方案
?
圖 5 Overlay網(wǎng)絡(luò)
基于Overlay的SDN解決方案存在如下優(yōu)勢:
1、復(fù)用傳統(tǒng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,設(shè)備復(fù)用;
2、突破傳統(tǒng)網(wǎng)絡(luò)中虛擬網(wǎng)絡(luò)數(shù)量限制;
3、虛擬網(wǎng)絡(luò)拓?fù)渑c物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施解耦;
4、支持VM動態(tài)遷移;
5、多租戶支持,網(wǎng)絡(luò)資源可復(fù)用且相互隔離不干擾;
6、虛擬網(wǎng)絡(luò)多路徑轉(zhuǎn)發(fā);
7、輕松實現(xiàn)業(yè)務(wù)編排。
但是云計算對數(shù)據(jù)中心網(wǎng)絡(luò)的挑戰(zhàn)依然存在。
六、挑戰(zhàn)依然存在
1、網(wǎng)絡(luò)故障定位:
?
圖 6 網(wǎng)絡(luò)故障定位
一旦網(wǎng)絡(luò)出現(xiàn)異常,難以快速界定到底是上層網(wǎng)絡(luò)、下層網(wǎng)絡(luò)還是服務(wù)器的問題。往往需要虛擬網(wǎng)絡(luò)、服務(wù)器、物理網(wǎng)絡(luò)運維團(tuán)隊三方協(xié)同。解決問題難度大,耗時長,代價大。
2、物理網(wǎng)絡(luò)部署:
?
圖 7 物理網(wǎng)絡(luò)部署
物理網(wǎng)絡(luò)設(shè)備部署流程通常包括:網(wǎng)絡(luò)設(shè)備上架加電、設(shè)備配置、調(diào)試網(wǎng)絡(luò)連通性、添加網(wǎng)管、設(shè)備信息登記。網(wǎng)絡(luò)設(shè)備配置復(fù)雜,人工操作易錯,部署速度緩慢。
3、物理網(wǎng)絡(luò)構(gòu)建:
?
圖 8 Core-Spine-Leaf無阻塞網(wǎng)絡(luò)
以Core-Spine-Leaf無阻塞網(wǎng)絡(luò)為例,Spine與Leaf采取CLOS組網(wǎng)方式構(gòu)成POD,Core與POD也采取CLOS組網(wǎng)方式,其中Leaf交換設(shè)備選用華為的CE68系列,Core與Spine交換設(shè)備選用華為的CE128系列。受限于網(wǎng)絡(luò)交換設(shè)備路由負(fù)載分擔(dān)最大鏈路數(shù)64,任一Spine最多連接64個Core,任一Core最多連接64個Spine,則無阻塞網(wǎng)絡(luò)最大提供16384端口的接入規(guī)模,網(wǎng)絡(luò)交換設(shè)備成本支出在27M$左右。網(wǎng)絡(luò)規(guī)模小,設(shè)備品牌鎖定,Scale-up模式,構(gòu)建成本高。
4、網(wǎng)絡(luò)流量均衡:
?
圖 9 網(wǎng)絡(luò)流量均衡
常用的網(wǎng)絡(luò)流量均衡技術(shù)有TRILL、BGP與靜態(tài)路由等,都屬于Local ECMP(等價多路徑),無法動態(tài)調(diào)整,實際網(wǎng)絡(luò)帶寬利用率一般在40~80%。全局網(wǎng)絡(luò)流量不均,局部容易擁塞,網(wǎng)絡(luò)帶寬利用率低。
5、網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能:
?
圖 10 VXLAN通信
?
?
圖 11 VXLAN封裝
虛擬網(wǎng)絡(luò)通過隧道穿越物理網(wǎng)絡(luò),報文轉(zhuǎn)發(fā)需要額外封裝。以VXLAN(MAC in UDP)為例,每個以太幀至少增加50B封裝開銷,其它隧道協(xié)議大同小異。服務(wù)器網(wǎng)口線速10G,虛擬交換機吞吐量不及50%。服務(wù)器吞吐量低下,網(wǎng)絡(luò)帶寬浪費嚴(yán)重。
七、Heatsink網(wǎng)絡(luò)架構(gòu)
網(wǎng)絡(luò)連接方式:
1、Spine與Leaf采取CLOS組網(wǎng)方式構(gòu)成Fin;
2、Fin間彼此相連,由Spine間連接方式不同而產(chǎn)生兩種變形。
?
圖 12 粗放型Heatsink網(wǎng)絡(luò)
粗放型網(wǎng)絡(luò)Spine在Group內(nèi)相連,以提升網(wǎng)絡(luò)接入規(guī)模,適用于超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)。
?
圖 13 集約型Heatsink網(wǎng)絡(luò)
集約型網(wǎng)絡(luò)Spine在Group外相連,以提升網(wǎng)絡(luò)設(shè)備利用率,適用于小、中、大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)。
八、Heatsink網(wǎng)絡(luò)控制系統(tǒng)
?
圖 14 Heatsink網(wǎng)絡(luò)控制系統(tǒng)
1、全棧式控制:物理與虛擬網(wǎng)絡(luò)設(shè)備統(tǒng)一控制管理。
2、控制器(Open Network Controller,ONC):
部署分散,控制集中;
南向屏蔽網(wǎng)絡(luò)設(shè)備差異(OpenFlow/OVSDB/…);
北向提供控制抽象(Rest API/…);
網(wǎng)絡(luò)操作系統(tǒng),通過服務(wù)對外提供網(wǎng)絡(luò)功能和接口。
九、 Heatsink網(wǎng)絡(luò)部署
?
圖 15 Spine Block
1、白盒交換機選型:
Spine:32×40GbE;
Leaf:48×10GbE + 4×40GbE。
2、Spine Block:
目前市面流通的40GbE白盒交換設(shè)備端口密度普遍偏低,通過Spine之間CLOS相連,多Spine擬合邏輯Spine,可以提升端口密度。
將Spine Block模擬的邏輯Spine代入Heatsink網(wǎng)絡(luò)可以獲得如下表所示的各種網(wǎng)絡(luò)規(guī)模:
?
表 1 Heatsink網(wǎng)絡(luò)規(guī)模
十、Heatsink網(wǎng)絡(luò)路由方式
1、共Fin選路:
?
圖 16 Heatsink網(wǎng)絡(luò)共Fin選路
轉(zhuǎn)發(fā)路徑:源Leaf → Spine → 目的Leaf。路由選路即選擇Group的過程。
2、跨Fin選路:
1)粗放型:
?
圖 17 粗放型Heatsink網(wǎng)絡(luò)跨Fin選路
? ? ? ?
轉(zhuǎn)發(fā)路徑:源Leaf → 源Spine → 中轉(zhuǎn)Spine → 目的Spine → 目的Leaf。路由選路即選擇Group與中轉(zhuǎn)Spine的過程。中轉(zhuǎn)Spine所屬Group與選定Group相同。
2)集約型:
?
圖 18 集約型Heatsink網(wǎng)絡(luò)跨Fin選路
轉(zhuǎn)發(fā)路徑:源Leaf → 源Spine → 中轉(zhuǎn)Spine → 目的Spine → 目的Leaf。路由選路即選擇Group與中轉(zhuǎn)Spine的過程。中轉(zhuǎn)Spine所屬Group與選定Group不同。
十一、Heatsink網(wǎng)絡(luò)尋址方式
1、網(wǎng)絡(luò)分區(qū):
1)核心區(qū):
白牌、盒式物理交換機。
2)邊緣區(qū):
虛擬交換機。
2、控制策略:
核心簡單、魯棒;邊緣復(fù)雜、智能。
3、源標(biāo)簽路由:
控制器統(tǒng)一派發(fā)交換機標(biāo)簽,邊緣交換機封裝標(biāo)簽路徑,核心交換機按路標(biāo)尋址。
?
圖 19 Fin內(nèi)通信
?
?
圖 20 Fin間通信
十二、Heatsink網(wǎng)絡(luò)路徑封裝
?
圖 21 VLAN + Src MAC封裝
1、VLAN:
1)以VID標(biāo)識報文剩余跳數(shù),每跳遞減,降至0時,剔除VLAN頭;
2)共Fin通信,VID初始值取3;跨Fin通信,VID初始值取5。
2、Src MAC:
針對當(dāng)前交換設(shè)備,指示報文下一跳,各字段填充不同Heatsink屬性,掩碼匹配可分別提取。
十三、演示
?
圖 22 3D網(wǎng)絡(luò)拓?fù)?Fin
?
?
圖 23 3D網(wǎng)絡(luò)拓?fù)?Spine層
?
?
圖 24 2D網(wǎng)絡(luò)拓?fù)?/p>
?
?
圖 25 路徑跟蹤
?
?
圖 26 端口信息統(tǒng)計
?
?
圖 27 流表信息統(tǒng)計
十四、總結(jié)
1、網(wǎng)絡(luò)構(gòu)建:
1)Heatsink架構(gòu),采取多級CLOS組網(wǎng),支持由小而大平滑擴展,公、私有云網(wǎng)絡(luò)均適用;
2)選擇白牌、盒式交換設(shè)備,Scale-out模式,避免品牌鎖定,降低網(wǎng)絡(luò)成本支出;
3)全網(wǎng)交換無阻塞,無單點故障,適應(yīng)云計算數(shù)據(jù)中心流量模型由南北向轉(zhuǎn)東西向的變化。
2、網(wǎng)絡(luò)控制:
1)全棧式控制,物理與虛擬網(wǎng)絡(luò)合一,設(shè)備即插即用,網(wǎng)絡(luò)狀態(tài)實時可見,運維難度低;
2)網(wǎng)絡(luò)分區(qū),核心簡單、魯棒,確保網(wǎng)絡(luò)性能,邊緣復(fù)雜、智能,確保業(yè)務(wù)靈活;
3)源標(biāo)簽路由,降低核心區(qū)物理交換設(shè)備流表消耗,解決物理交換設(shè)備流表容量不足的問題;
4)全網(wǎng)鏈路實時統(tǒng)計,端到端流量可控,基于流粒度實現(xiàn)全局流量均衡;
5)VLAN+Src MAC掩碼匹配,封裝開銷小,節(jié)省網(wǎng)絡(luò)帶寬,提高服務(wù)器吞吐量、網(wǎng)絡(luò)性能。
鄭重申明PS:文章中舉凡畫得好看的圖都是來自引用。本文是作者團(tuán)隊面向公、私有云構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的相關(guān)研究與實踐,主要特點有超大規(guī)模網(wǎng)絡(luò)、白盒交換設(shè)備、虛擬與物理網(wǎng)絡(luò)設(shè)備統(tǒng)一管理等,Overlay網(wǎng)絡(luò)解決方案的本質(zhì)在于將傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)SDN化,無可否認(rèn)VXLAN/GRE等技術(shù)取得了一定的成功,尤其在兼容傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)上,但是讓本來已經(jīng)很復(fù)雜的網(wǎng)絡(luò)變得更加復(fù)雜了,自然也帶來了大量的問題
我們認(rèn)為Overlay只是數(shù)據(jù)中心網(wǎng)絡(luò)SDN化進(jìn)程中不可避免的一環(huán),不過Singlelay才是SDN網(wǎng)絡(luò)的終極,我們團(tuán)隊始終以推動SDN在云領(lǐng)域的商業(yè)化進(jìn)程為目標(biāo)
一些淺顯的觀點,與大家分享,歡迎拍磚,有任何問題可以直接聯(lián)系我,咱們共同切磋。
評論