英偉達愈發(fā)強勢，AI芯片初創(chuàng)公司仍不服輸

電子發(fā)燒友網(wǎng)報道（文/周凱揚）從最近英偉達公布的財報中就可以看出，AI應(yīng)用的火熱使其賺得盆滿缽滿，原本就在AI軟硬件生態(tài)稱王的英偉達，現(xiàn)今更是如日中天。而這樣的處境也讓不少AI芯片初創(chuàng)公司不好過，他們的產(chǎn)品有的還沒落地，有的則難以與A100、H100這樣的產(chǎn)品匹敵。這幾年沉寂下去的AI芯片初創(chuàng)公司著實不少，但還是有的廠商敢于繼續(xù)往這個市場里鉆。

水平擴展性的限制

隨著AI/ML的模型越來越大，甚至是以5年內(nèi)翻4萬倍的速度提升，要想在硬件上跟上軟件進度已經(jīng)越來越難了。可即便如此，從16nm到4nm，從低精度到脈動陣列，都給了我們巨大的優(yōu)勢去追隨這些大模型。

但運行這些大模型終究不是靠單個芯片的力量，而是整個規(guī)模集群需要面臨的問題，所以這就牽扯到了水平擴展性。工藝制程的提高帶來了5倍的性能提升，芯片架構(gòu)帶來了14倍的性能提升，而水平擴展則要實現(xiàn)600倍的性能提升，才能滿足未來的AI/ML計算要求。這也就是目前AI計算存在的問題，大模型往往需要更大的內(nèi)存、更高的算力和更大的帶寬，隨著設(shè)備數(shù)量越多，這三大硬件要求的分配復(fù)雜程度就變得越來越高。

比如在GPU上就已經(jīng)嘗試了不少并行擴展方案，比如數(shù)據(jù)并行、流水線模型并行或張量模型并行等，但以上方案往往都會受到內(nèi)存、帶寬和參數(shù)量的限制，并沒有單一通用的解決方案，大模型往往需要同時結(jié)合這三種方案，所以擴展效率不高。AI芯片公司Cerebras則想出了一個在大規(guī)模集群下提高水平擴展性的解決方案。

Cerebras的WSE

要說在AI芯片的初創(chuàng)公司里，走著獨立無二路線的公司，Cerebras絕對能排得上名號。2019年，他們推出了WSE，一個晶圓大小的AI處理器，到了2021年，他們又推出了第二代的WSE-2，采用更先進的工藝將單個處理器的核心數(shù)推進至85萬核。而這次Hot Chips上，他們則展示了用于對抗英偉達的解決方案。

WSE-2與GPU大小對比 / Cerebras

Cerebras選擇了將內(nèi)存和計算解耦的方案，利用內(nèi)存擴展技術(shù)MemoryX，將模型權(quán)重存儲在外部，然后將權(quán)重傳輸給WSE-2組成的CS-2系統(tǒng)，CS-2再將梯度傳給外部存儲。Cerebras還打造了一個互聯(lián)方案SwarmX，用于連接多個CS-2系統(tǒng)，從而提高擴展性。

以Cerebras搭建的Andromeda超算為例，該超算由16個CS-2系統(tǒng)組成，擁有1350萬個AI優(yōu)化核心，稀疏算力高達1ExaFLOPs，稠密算力高達120PetaFLOPs。在這樣強大的算力下，訓(xùn)練大模型只要幾周的時間。而且在Cerebras不同規(guī)模的集群上，不同參數(shù)的大模型可以共享同樣的代碼，以同樣的方式訓(xùn)練，省去了不少開發(fā)時間。

除了Andromeda以外，Cerebras也已經(jīng)開始了下一個AI超算的部署，由64個CS-2系統(tǒng)組成的Condor Galaxy 1，該超算的算力將擴展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1，也意味著這僅僅是單個超算中心所用的系統(tǒng)而已，未來他們計劃在2024年底之前擴展為9個超算中心，分布在美國各地，構(gòu)建最大的分布式超算網(wǎng)絡(luò)，總算力高達36ExaFLOPs，是英偉達Israel-1超算的9倍，是谷歌最大TPUv4集群的4倍。

寫在最后

單從擴展性和性能的角度來看，Cerebras確實已經(jīng)做到了一個新的高度。但對于購置這些GPU或AI芯片的云服務(wù)或互聯(lián)網(wǎng)公司來說，GPU或許是一個更加通用的資源，在AI技術(shù)日新月異的當(dāng)下，GPU總能憑借自己的軟硬件生態(tài)快速找到自己的一席之地，并在高性能的王座上穩(wěn)坐一段時間。這也就是AI爆款應(yīng)用的市場導(dǎo)向決定的了，性能固然重要，但搶占先機才是最關(guān)鍵的一環(huán)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
34588

瀏覽量
276184
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3927

瀏覽量
93273

E4Life
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot ASML 2023年末爆單，中國貢獻營收翻倍
Hot 蘋果瘋狂堆料M1 Max與Pro，圖形性能直超RTX 3080？！

New 只能跑Transformer的AI芯片，卻號稱全球最快？
New 臺積電開始探索面板級封裝，但三星更早？

精選推薦
更多

文章

資料

帖子

當(dāng)工業(yè)設(shè)備開始“思考”：HZ-RK3576-SP_EVM如何讓傳統(tǒng)工業(yè)行業(yè)煥發(fā)智能新生？

合眾恒躍
16小時前

366 閱讀

樹莓派5上的Gemma 2：如何打造高效的邊緣AI解決方案？

上海晶珩電子科技有限公司
17小時前

221 閱讀

新品 | 視美泰發(fā)布高性價比四核工控主板GK-68A，開啟智能工業(yè)新時代！

視美泰
20小時前

317 閱讀

技術(shù)干貨 | DAC靜態(tài)參數(shù)計算全解析：從偏移誤差到總未調(diào)整誤差

jf_21111497
23小時前

231 閱讀

PLL技術(shù)在FPGA中的動態(tài)調(diào)頻與展頻功能應(yīng)用

智多晶
23小時前

240 閱讀

COMSOL Multiphysics使用手冊(中文版)

靜電控制
5.96 MB

免費

0下載

multissh并行SSH執(zhí)行工具

哈哈哈
0.02 MB

免費

0下載

SmartQQBot基于SmartQQ的自動機器人框架

jjll652
0.09 MB

免費

0下載

Sequel Ace Mac數(shù)據(jù)庫管理應(yīng)用程序

李英
66.04 MB

免費

1下載

迪文串口屏與STM32通訊資料分享

sh電子發(fā)燒友
6.72 MB

2積分

88下載

【RA4L1-SENSOR】07 低功耗待機模式及功耗實測

jf_83922529
1天前

540 閱讀

ArkUI-X平臺橋接Bridge說明

jf_14971143
2天前

448 閱讀

電容三點式無法起振的原因

jf_01102310
2天前

1167 閱讀

HarmonyOS NEXT意圖框架習(xí)慣推薦二場景開發(fā)實現(xiàn)

李洋水蛟龍
2天前

452 閱讀

一種采用NMOS濾出開關(guān)電源輸出紋波的電路

chunlai_zhang
2天前

828 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

英偉達愈發(fā)強勢，AI芯片初創(chuàng)公司仍不服輸

評論