突襲,其實并不恰當!
因為字節(jié)跳動自研交換機,早在2019年,就開始悄悄布局了。
只是這一次,隨著51.2T高性能數據中心交換機的閃亮登場,字節(jié)跳動也低調宣布,實現了“在2023年全面上線自研交換機的目標”。
廢話不說,看看這款命名為B5020的51.2T交換機的細節(jié)吧。
按字節(jié)的說法,這可是全球首款51.2T全端口支持LPO的交換機,也是全球率先實現800G實際規(guī)模化部署的產品。劃重點
上面視頻來源于字節(jié)跳動系統(tǒng)技術公眾號(字節(jié)跳動SYS Tech),我在二次剪輯的時候,把一些關鍵信息摘出來Highlight了一下。
先看一下交換機的外觀和內部結構,標準機架式,4U高度,64×800GbE端口。 整機交換容量51.2Tbs(其實按業(yè)界全雙工的算法應該是102.4Tbps),這個容量也是當下業(yè)界單芯片盒式交換機的極限。
有人說,前面板看著挺空的,似乎2U就能擺下這些端口,為啥不把機箱做得更緊湊些(比如3U甚至2U),豈不是更能節(jié)省機房空間。
其實,字節(jié)在設計這款交換機的時候,散熱、電源功率、機箱結構等等,都是做了向后兼容下一102.4T產品的考慮,且從功率密度角度,2U省空間是偽命題。
未來,單芯片102.4T時代,這個4U結構正好可以擺下128個800G端口(當然也可以是64×1.6T,這端口速度,看著就嚇人啊,剛入行的時候,1G我都覺得很少見,誰能想20年后,馬上要1600G了)。
在板卡設計上,字節(jié)也做了很多微創(chuàng)新,比如整機一張MAC-PCB板,整機內部僅用三條連接線纜。
這些極簡設計可以讓整機生產功率大幅減少。有助于提高生產直通率,減少故障點。
以前大家學產品規(guī)劃/管理的時候,都有一條叫做DFM(Design For Manufacturing)。在這里,字節(jié)就運用得很好。
再比如,在僅用28層PCB方案的情況下,完成高密度布線設計,而且成功將全端口最大損耗控制在7d以下。
較少層數的PCB,降低了生產難度,也能更好地控制硬件成本。
在端口扇出(Fan out)設計上,字節(jié)團隊摒棄了傳統(tǒng)扇出方案(傳統(tǒng)扇出方案在大芯片時代,遠端端口難以維持信號完整性),首創(chuàng)了大芯片布線空間復用方案。
PCB相關的設計論文,入選了全球芯片設計領域的頂級會議DesignCon2024,并申請了兩項發(fā)明專利。
上面入選的論文一共三篇,其中兩篇是PCB設計相關,還有一篇涉及800G LPO技術,因為這款交換機還在業(yè)內首度采用了800G LPO。
跟傳統(tǒng)光模塊相比,LPO光模塊功耗低、延遲低,當然成本也更低。
另外,為了簡化運維,這款交換機的管理引擎采用了插卡式模塊化設計,替換方便。
同時管理引擎上的BMC、SSD、DDR內存等,全部都是扣卡設計,大大降低了運維難度。
有同學評價:管理引擎光模塊化還不夠,不支持熱插拔,也不是雙冗余。
其實這是對業(yè)務場景和交換機定位的誤解。
這款B5020并不是模塊化機箱交換機,而是一款“盒式”機架交換機,應用場景是互聯(lián)網數據中心/智算中心的Leaf或者Spine。
在這樣的場景下,一般采用胖樹架構,而不是咱們常規(guī)園區(qū)或者企業(yè)網絡中,雙核心+匯聚+接入。
比如,互聯(lián)網大廠數據中心一個典型的胖樹網絡是這樣的,B5020充當的角色,就是一臺高速率、高密度同時高性價比、易運維的Spine或者Leaf。
在交換機軟件上,字節(jié)基于開源的SONiC,自研了Lambda OS。
不得不說,這幾年SONiC的成熟度越來越高,生態(tài)也越來越好,很多互聯(lián)網大廠都開始基于SONiC來開發(fā)自家的交換機軟件。
關于字節(jié)的這款交換機,我們就扒到這里。
根據字節(jié)跳動的說法,他們已經實現了在2023 年全面上線自研交換機的目標。
目前大規(guī)模交付的 100G/400G 網絡,全由自研交換機覆蓋,硬件采用 JDM + CM 模式研發(fā),軟件則是自研的 Lambda OS。
說到這里,我們有必要談談硬件的研發(fā)模式:JDM+CM。
以交換機為例,業(yè)界的產品研發(fā)模式包括:
最初級的叫OEM模式,也就是大家常說的貼牌。交換機軟硬件整機全是原廠提供,品牌商只需要貼標,修改下軟件界面,就變成自家的品牌。
第二級叫做ODM模式,品牌商有自己的idea,提出自己的定制化需求,然后由ODM商完成設計和生產。對交換機來說,一般品牌廠家具備軟件研發(fā)能力,只需要ODM定制化硬件。尤其白盒時代,這種流行度很高。
第三級叫做JDM模式,Joint Design Manufacture,聯(lián)合設計制造,是客戶企業(yè)(比如字節(jié))和交換機制造商(比如數通大廠)共同參與設計和開發(fā),企業(yè)方需要深度參與整個過程。
再往上,更純粹的CM模式,Contract Manufacture,合同制造,也就是客戶企業(yè)完全自行設計,然后委托給制造商生產。
回頭看,字節(jié)交換機采用的模式就是“JDM+CM”,即聯(lián)合設計制造+委托生產,這可不是貼牌,人家說自研,完全沒毛病。
最后一個問題,有吃瓜群眾評論,為啥字節(jié)“不務正業(yè)”非要搞交換機呢?難道字節(jié)是看重交換機那點可憐巴巴的市場嗎?
非也,其實互聯(lián)網大廠自研基礎設施,是大勢所趨,也是真實剛需。從國外的谷歌、Facebook到國內BAT,都有自研的經歷。
從服務器到存儲到交換機,甚至到AI芯片、DPU、主芯片,互聯(lián)網巨頭們一直在努力。 一方面是他們用量太大,通過自研是真的可以有效降低成本。另一方面,大廠們會根據自己的業(yè)務場景需求,來定制軟件和硬件,讓這些設備更純粹的扛活。
所以,更低的成本、更方便運維、極簡且定制的功能,這些是大廠們看重的,其實前面視頻里,字節(jié)也多次強調了成本的節(jié)省、功耗的節(jié)省、運維的簡化。
這不是交換機廠商的宣傳標簽,這是人家真實的需求啊。
還有一點新變化,在我們常規(guī)的組網工程里,交換機的數量要遠遠少于主機/服務器。
但是在現代數據中心/智算中心里,尤其是大模型時代GPU服務器場景,一臺8卡服務器,就要占用8個400G/800G交換機端口,再加上冗余拓撲要求,交換機的需求數量大大提升了。
(圖源:鵝廠網事)
所以,你看到,國內大廠都在自研交換機,阿里云推出了磐久交換機,從100G到400G全有。
(阿里自研交換機)
鵝廠則搞出了星脈網絡,而且,鵝廠不僅有交換機,還有自研的光傳輸呢。
這塊市場有多大呢,從IDC的交換機市場跟蹤數據上,我們可以大概揣摩出來。
下圖橙色的部分,每次排名里那個神秘的“ODM Direct”,主要就是這類互聯(lián)網大廠們干的。
所以,字節(jié)做交換機,并非「突襲」,更非玩票,而是謀定后動,順勢而為。
審核編輯:劉清
-
交換機
+關注
關注
21文章
2728瀏覽量
101547 -
信號完整性
+關注
關注
68文章
1438瀏覽量
96524 -
PCB布線
+關注
關注
21文章
471瀏覽量
42585 -
光模塊
+關注
關注
80文章
1403瀏覽量
60127 -
字節(jié)跳動
+關注
關注
0文章
346瀏覽量
9403
原文標題:字節(jié)跳動“突襲”交換機!
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
工業(yè)交換機與普通交換機的區(qū)別:為什么工廠網絡寧貴不省?
工業(yè)級交換機選型指南

主交換機和分交換機的連接光纖接口是否是lc
POE交換機接口詳解
如何實現POE交換機串聯(lián)?
PoE交換機與非PoE交換機的比較:兩者能否協(xié)同工作?
交換機與集線器的優(yōu)缺點 如何監(jiān)控交換機流量
交換機的工作原理是什么?3類交換機故障詳解
如何測試交換機端口速率
如何使用反射內存交換機
反射內存交換機與普通交換機的區(qū)別

網管型交換機和非網管型交換機的區(qū)別
Is交換機組成的環(huán)形網絡中,當位于主控節(jié)點的Ism網管交換機故障后,為什么環(huán)網中其他交換機不受影響?
園區(qū)交換機 VS 數據中心交換機

評論