近日,以“Connect·Collaborate·Accelerate”為主題,由浪潮和OCP基金會聯合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術峰會中國專場在北京望京凱悅酒店隆重開幕。騰訊作為OCP中國社區的核心成員,在峰會現場介紹了當前數據中心互聯光網絡技術的發展,以及騰訊基于標準化單元構建的自動運行光網絡。目前,騰訊已將光網絡的標準單元快速復制到數據中心互聯應用中,有效應對數據中心互聯帶寬的快速增長。
數據中心光網絡面臨挑戰
過去的10年是互聯網高速發展的10年,隨著產業的不斷發展,應用種類極大豐富,用戶規模空前龐大。往往一個應用就擁有千萬級別用戶,上PB數據量。在這樣的環境下,早期的單機或集群的計算模式已經無法滿足應用的發展要求,更大規模的云計算模式是互聯網持續發展的必經之路。
受限于目前數據中心的規模問題以及異地容災的需求,往往一個應用會分布在多個數據中心之內,導致在不同的云數據中心之間往往會產生幾百甚至上千GB的帶寬需求。在這樣的背景下,光網絡逐漸走入了互聯網企業的視野。
騰訊的開放光網絡平臺是騰訊新一代光網絡系統,基于超強的采集和控制能力不斷提升光網絡的自動化水平,目標是構建一個高度自動化、友好的光網絡。目前,騰訊的開放光網絡平臺已經解決了硬件標準化問題,開發標準的OPC-4設備,實現電層系統與光層系統的解耦合,不再綁定單一供應商。同時騰訊開放光網絡平臺標準化的管控模型也已開發完畢。通過騰訊開放光網絡控制器實現對不同廠商設備的統一管控。
開放光網絡的未來 -- 自動化
數據流量的快速增長,要求我們部署越來越多的帶寬。互聯網的時代,層出不窮的應用被創造出來,他們便捷了我們的生活,提升了效率。這些應用加工數據、產生數據,特別是一些新的、流行的移動應用在人群中傳播速度非常快,隨之帶來的是流量的迅速增長,這要求我們必須以更快的速度部署帶寬資源。為數據中心提供高質量帶寬,保證帶寬長期穩定運行,開放光網絡的研發被騰訊提上日程。
為應對大規模數據中心快速增長的互聯帶寬,騰訊技術人員針對數據中心互聯組網的特點,構建了一套開放光網絡系統,通過將光網絡切割成一個一個獨立的標準化單元,設計為更加適用于數據中心應用的硬件設備OPC-4,TPC-4和設備管控模型,構建起標準化管控系統,實現對不同廠商設備的統一管理,混合組網,并將標準單元應用到數據中心互聯中,在一定程度上能夠更加有效地應對帶寬的快速增長。
隨著系統規模越來越大,網絡運營壓力也持續增大,騰訊正在為系統構建自動化自主運行能力,使系統能夠常態化自動運行。騰訊技術人員依然是從標準結構入手,基于閉環控制的原理,為標準結構構建起自主運行的能力,使它能夠自己管理自己,自己優化自己,使系統能夠常態化自動運行。這樣一旦標準結構具備了自主運行能力,便可以快速的將這種能力復制到整個網絡,使整個網絡能夠常態化自動運行。
數據中心自動光網絡邁進三部曲
數據中心互聯光網絡在持續向前演進,從最初依靠工程師經驗驅動的光網絡,到標準模型一統天下的模型驅動光網絡,再向數據為王的數據驅動光網絡演進。第一個階段,主要依靠經驗豐富的工程師,將不同廠商的傳輸系統部署到了數據中心網絡。此時系統的復雜度是最高的,因為雖然滿足同樣的需求,但是不同廠商的設備,實現的方案是不一樣的,整個網絡充斥著不同廠商的不同方案,面對本質上類似的技術問題,雖然掌握基本原理,但是要落實到具體的系統,就需要熟悉某個系統的專家來幫助分析問題,同時需要針對特定系統操作熟練的工程師配合,這個階段運維大廳里坐著很多不同廠商的工程師。此時系統是最復雜的,需要最多的人來處理解決問題。
如何降低系統的復雜度?減少人工干預?答案是:標準化,程序化!通過構建標準化的流程,用程序去處理模型統一一致的物理設備,可以很大程度的降低整個系統的復雜度。這就是第二個階段模型驅動階段,這個階段大家會針對自己的系統定義標準模型,而騰訊則更進一步,直接定義系統需要的硬件設備,這樣即使不同廠商進行生產,但設備的形態保持一致,這明顯降低了系統的復雜度,不用再去關注不同設備的細節差異,開始基于相同的模型構建,來對系統進行思考。
這個階段強調的是模型的一致性,行為的一致性。當系統標準化后,對系統進行數字化升級改造,極大的提升了系統的數據采集能力,使系統能夠采集到更多、更精細化的數據。為我們向下一個階段:數據驅動的光網絡演進奠定基礎。
經歷了模型驅動階段,系統具備了標準模型,同時積累了大量的數據,使整個系統全景數據化成為可能。而源源不斷的數據也成為了驅動系統不斷發現問題,解決問題的核心驅動力,至此我們為系統構建起了一個數據引擎,驅動系統不斷的優化和演進。
構建自動控制架構關鍵能力
騰訊開放光網絡的自動控制架構,本質是一個閉環控制架構。整個架構的關鍵點是四大關鍵能力的構建:控制能力,采集能力,感知能力,決策能力。然后將這四大能力合理有序的串聯起來,便可以實現整個系統的自動運行。采集能力采集到系統更加詳盡、更加精細的運行數據,感知能力通過對運行數據的分析,感知到系統的變化,決策能力則是使系統具備科學分析,科學決策的能力,依據感知結果對系統作出科學決策,并將指令傳遞給控制系統執行,實現對系統的閉環控制。
構建光網絡的感知能力
什么是感知能力?用人體的一個體驗作為一個例子,如果人體被針扎一下或者手擰一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準確地從這兩種疼痛不同的表現方式,感覺出哪個是針扎,哪個是手擰,這就是感知能力。可以看到感知能力是一種對數據的分析,并得到結論的能力。在傳統的光網絡系統中,對數據的感知往往是由經驗豐富的工程師來完成的,騰訊正在幫助系統構建起這種能力,使系統能夠在無人干預的情況下,自行實現對數據的經驗性轉化。目前騰訊開放光網絡已經具備了控制能力和采集能力,正在進行感知能力和分析能力的構建。
騰訊主要是從兩個維度來構建系統的感知能力,一個維度是:系統維度,另一個維度是:時間維度。系統維度,首先構建針對單個指標的感知能力,通過對不同指標的感知來判斷系統變化。我們的系統從物理上看是由硬件和光纖組成的,而這兩大類物理可見的物件,又是運營中可以操作的基本單元,構建針對硬件和光纖的感知能力,使系統能夠準確的感知其故障和潛在風險,觸發相關運維操作,便可以有效將非預期的故障轉化為預期的網絡操作,有效避免故障的發生。傳輸系統最終是一個帶寬系統,我們常常會被用戶問及現在帶寬情況如何?帶寬的感知能力構建則是讓系統能夠自行回答這個問題。帶寬感知是系統最為關鍵的一環,使讓系統能夠感知帶寬的運行狀態,對潛在風險進行合理規避,有效降低帶寬的非預期性中斷,保證系統長期穩定運行。
而從時間角度,則要為系統構建快速感知能力,中速感知能力和慢速感知能力,這是從系統問題分析的時效性出發定義的能力。快速感知是對性能數據的實時分析,快速捕獲系統故障。中速感知則是對系統潛在風險或者關鍵指標變化的分析和感知,這往往需要對一定量數據進行分析,才能發現一定的特征。而慢速感知則是通過對大量數據的分析來感知系統運行趨勢,可以對系統未來的運行狀況進行預測。
設備作為整個系統的運行數據采集終端,騰訊在想辦法提升其采集數據的速率和精度,在騰訊的持續努力下,目前設備可以按照1s間隔向控制器推送性能數據,而且關鍵性能指標的時間分辨率可以達到20ms。控制器作為系統計算能力主要單元,則在持續提升其數據處理及時性和準確性。基于1s streaming telemetry構建的數字驅動系統,對比傳統傳輸系統的15min性能數據,不僅僅是900倍的時間分辨率提升,更是對系統觀測能力的革命。正是基于對系統的精細化觀測,使我們能夠精確感知、準確控制。
數據驅動為系統帶來了革命性的變化的同時,也帶來了極大的挑戰。數據驅動系統的核心是:數據與算法。我們希望在這兩個方面與更多的合作伙伴一起合作,在數據為王的時代,數據源的質量直接影響到系統的正確表達,如何保證數據源的質量,如何監控數據源的質量,是一項關鍵任務。
而找到數據背后的真相,發現問題的本質則會從根本上改變我們和供應商的協作方式,由原來我們只能在問題發生后被動的接受故障分析報告,演進到可以根據數據發現的真相,有效驅動供應商進行精準的問題修復,防患于未然。在算法方面,找到針對指標感知更加通用的算法,找到更加合理的帶寬質量分析算法,找到更加通用的硬件和網絡系統分析算法,則是我們關注的重點,有效解決光網絡系統問題的同時,更為通用的算法也可以更加便捷的應用到其他網絡領域中。
在本次OCP China Day大會上,可以看到來自騰訊、百度、Intel、微軟、浪潮、三星、希捷等不同領域的開放計算社區成員,騰訊的OPC-4和TOOP是開放的光網絡項目,百度的天蝎整機柜是開放的計算項目,三星poseidon是一款存儲產品,阿里的液冷是開放的數據中心散熱項目……在這些開源項目背后,是計算、存儲、網絡等不同領域的開源項目正在相互融合匯聚,開放計算不僅推動形成了下一代數據中心的基本技術框架,也在加速構建開放融合的統一計算生態。
責任編輯:gt
-
互聯網
+關注
關注
54文章
11235瀏覽量
105771 -
數據中心
+關注
關注
16文章
5166瀏覽量
73252
發布評論請先 登錄
華為榮獲數據中心自智網絡基礎能力解決方案檢測證書
適用于數據中心和AI時代的800G網絡
華為全新升級星河AI數據中心網絡
華為發布星脈PEN新一代全光網絡解決方案
NVIDIA推出全新硅光網絡交換機
華為發布四大創新全光解決方案 構建以AI為中心的F5.5G全光網絡,共贏智能時代

速率可調的光傳輸和彈性光網絡

評論