來源:SDNLAB
2023年,以ChatGPT為代表的AIGC技術(shù)正在蓬勃發(fā)展,并在文本生成、代碼開發(fā)等各個領(lǐng)域取得了重大進(jìn)展,重塑了行業(yè)格局。德勤報告預(yù)測,到2027年,在AIGC推動下的人工智能基礎(chǔ)設(shè)施服務(wù)市場將增至130-160億美元。
AIGC 利用自然語言處理 (NLP) 和機(jī)器學(xué)習(xí) (ML) 技術(shù)來完成跨文本、圖像、音頻和視頻的內(nèi)容生成,這一成就得益于強(qiáng)大的計算能力、存儲和高速通信的支持。
01賦能算力的關(guān)鍵在于網(wǎng)絡(luò)
AI的顯著進(jìn)步離不開數(shù)據(jù)、算法和計算能力這三大支柱。尤其是對于大規(guī)模、復(fù)雜的AIGC模型,強(qiáng)大的算力基礎(chǔ)設(shè)施至關(guān)重要。以ChatGPT為例,它在訓(xùn)練過程中使用了10000個V100 GPU,形成一個高帶寬集群,單次訓(xùn)練消耗約3640 PF-day的算力。
然而,影響GPU利用率的最重要因素是網(wǎng)絡(luò),特別是在由數(shù)萬個GPU組成的計算集群中,需要大量的帶寬來實現(xiàn)高效的數(shù)據(jù)交換。缺乏強(qiáng)大的網(wǎng)絡(luò)支持可能會導(dǎo)致 GPU 利用率降低、訓(xùn)練時間延長、成本增加以及用戶體驗下降。因此,網(wǎng)絡(luò)尤為重要。
從本質(zhì)上講,如果沒有高效的組網(wǎng),大模型的應(yīng)用將會受到嚴(yán)重制約。
為了支持AIGC的運(yùn)行,高性能的網(wǎng)絡(luò)基礎(chǔ)設(shè)施必不可少。為了滿足AI集群計算的需求,業(yè)界提出了三種主要的網(wǎng)絡(luò)解決方案:InfiniBand、RDMA和Fabric switch。
其中,RDMA是一種新的通信機(jī)制,可以顯著提高數(shù)據(jù)吞吐量,同時減少延遲。它主要基于 RoCE v2 協(xié)議,通過以太網(wǎng)實現(xiàn)。
Fabric switch解決方案適用于小規(guī)模AI計算集群部署,它采用特定的芯片和技術(shù)來滿足高性能網(wǎng)絡(luò)的需求,但它面臨著可擴(kuò)展性有限、設(shè)備功耗高、故障域大等挑戰(zhàn)。
InfiniBand網(wǎng)絡(luò)具有極高的帶寬、無擁塞、低延遲等特點,雖然成本較高,但被ChatGPT、GPT-4等模型所采用。憑借 InfiniBand 和 GPU,NVIDIA 已在 AI 基礎(chǔ)設(shè)施領(lǐng)域建立了主導(dǎo)地位,占據(jù)了約 80% 的市場份額。以配備 NVIDIA DGX H100 系統(tǒng)的 NVIDIA DGX SuperPOD 為例,它由 31 到 127 個 DGX H100 系統(tǒng)組成,總共 1016 個 NVIDIA Hopper GPU。這種配置提供了出色的AI計算性能。
02AIGC 網(wǎng)絡(luò)和計算能力驅(qū)動下核心產(chǎn)品的趨勢
服務(wù)器:AI算力的核心
AIGC的快速發(fā)展推動了對高性能AI服務(wù)器的需求。全球AI服務(wù)器市場正在經(jīng)歷大幅增長,IDC數(shù)據(jù)預(yù)計到2025年市場規(guī)模將達(dá)到317.9億美元,年復(fù)合增長率為19%。
AI服務(wù)器與傳統(tǒng)服務(wù)器的不同之處在于其硬件配置,高性能GPU或TPU加速器使得這些服務(wù)器能夠在短時間內(nèi)處理大規(guī)模數(shù)據(jù)集,加速深度學(xué)習(xí)和機(jī)器學(xué)習(xí)。這也導(dǎo)致對更大內(nèi)存、更快存儲和更多核心處理器的需求不斷增加。此外,PCIe設(shè)備的需求也隨之上升,以支持更多的加速器卡和高速網(wǎng)絡(luò)接口。
不斷升級的高性能需求:AI工作負(fù)載通常需要大量的計算能力,從而推動了對高性能服務(wù)器的需求,包括配備高性能 GPU、TPU 和快速存儲的服務(wù)器。
特定硬件要求:AI服務(wù)器需要特定的硬件配置,例如GPU加速器、PCIe插槽和高速網(wǎng)絡(luò)接口,以滿足AI算法的運(yùn)行需求。
創(chuàng)新的服務(wù)器設(shè)計:為了滿足大規(guī)模AI模型的需求,諸如 NVIDIA DGX GH200 之類的新型服務(wù)器設(shè)計應(yīng)運(yùn)而生,可提供更高的吞吐量和可擴(kuò)展性。
交換機(jī):400G/800G需求迫切
交換機(jī)作為數(shù)據(jù)中心計算網(wǎng)絡(luò)的中樞,正在逐漸演進(jìn)以滿足不斷增長的高速數(shù)據(jù)傳輸需求。在為人工智能和數(shù)據(jù)中心的快速增長提供必要的支持和解決方案方面,交換機(jī)發(fā)揮著關(guān)鍵作用。
高速網(wǎng)絡(luò)需求:AI工作負(fù)載產(chǎn)生了大量的數(shù)據(jù)傳輸需求,這也推動了對網(wǎng)絡(luò)交換機(jī)從10G/40G過渡到400G/800G的需求。
減少帶寬損失:AI服務(wù)器和數(shù)據(jù)中心需要更高性能的交換機(jī)來減少數(shù)據(jù)傳輸過程中的帶寬損耗,以及更快的數(shù)據(jù)傳輸速度,以確保實時處理和響應(yīng)。因此對交換機(jī)性能的要求更加苛刻,這也催生了更復(fù)雜的交換機(jī)設(shè)計和PCB要求。
數(shù)據(jù)中心擴(kuò)展:隨著AI的快速發(fā)展,數(shù)據(jù)中心的規(guī)模和復(fù)雜性也在不斷增加。數(shù)據(jù)中心的擴(kuò)展需要更多的交換機(jī),以滿足連接和通信的需求。根據(jù)Dell'Oro的報告,到2027年,速度為400Gbps及以上的交換機(jī)將占據(jù)近70%的市場份額。
光模塊:強(qiáng)勁增長和新興技術(shù)趨勢
隨著人工智能和數(shù)據(jù)中心的快速擴(kuò)張,光模塊市場正在經(jīng)歷強(qiáng)勁的增長。這些光模塊是數(shù)據(jù)傳輸中不可或缺的組件,通常與交換機(jī)或網(wǎng)卡協(xié)同工作,實現(xiàn)高速數(shù)據(jù)傳輸。由于AI工作負(fù)載的不斷增加,數(shù)據(jù)中心需要更快、更可靠的連接,這推動了對高性能光模塊的需求。
此外,隨著網(wǎng)絡(luò)速度不斷提高,傳統(tǒng)的可插拔光模塊可能會受到物理極限的制約,這促使了新型光模塊解決方案(如共封裝光學(xué)器件 (CPO) )的涌現(xiàn),以滿足高速數(shù)據(jù)傳輸中對更高帶寬和更小型設(shè)備的需求。
AIGC 推動的其他產(chǎn)品趨勢
除了前面提到的服務(wù)器、交換機(jī)和光模塊之外,整個網(wǎng)絡(luò)基礎(chǔ)設(shè)施需要更廣泛的產(chǎn)品,它們的增長也受到AI驅(qū)動解決方案擴(kuò)展的影響,包括:
電源管理:電源開關(guān)、電源濾波器和穩(wěn)壓器等組件,確保整個網(wǎng)絡(luò)穩(wěn)定可靠的配電。
控制和管理:服務(wù)器內(nèi)的管理芯片、時鐘芯片和BIOS芯片等組件,對于監(jiān)督和協(xié)調(diào)網(wǎng)絡(luò)操作至關(guān)重要。
熱管理:在AI驅(qū)動的系統(tǒng)中,特別是在數(shù)據(jù)中心環(huán)境中,CPU散熱器和風(fēng)扇等產(chǎn)品對于有效可靠的熱管理至關(guān)重要。
03AIGC 的持續(xù)連鎖反應(yīng)
AIGC的到來引發(fā)了一場技術(shù)革命,對硬件、軟件和服務(wù)領(lǐng)域都帶來了巨大的影響。
從硬件角度來看,AIGC的崛起對高性能服務(wù)器、網(wǎng)絡(luò)交換機(jī)和光模塊的需求產(chǎn)生了持續(xù)的增長。特別是在高性能計算和數(shù)據(jù)中心領(lǐng)域,對更強(qiáng)大的硬件資源的渴望推動了創(chuàng)新的硬件設(shè)計趨勢。服務(wù)器需要更大內(nèi)存、更多GPU加速器和更快的存儲來滿足日益復(fù)雜的AI工作負(fù)載。此外,網(wǎng)絡(luò)交換機(jī)需要更高的吞吐量和更快的數(shù)據(jù)傳輸速度,以支持大規(guī)模的數(shù)據(jù)處理需求。光模塊的需求也隨之上升,以實現(xiàn)更高速度和更密集的數(shù)據(jù)傳輸。
從軟件和服務(wù)來說,僅限于傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí),AIGC技術(shù)正在滲透到各個領(lǐng)域,如文本生成、代碼開發(fā)、詩歌創(chuàng)作等。這為軟件開發(fā)和云計算服務(wù)提供了新的機(jī)遇,推動了創(chuàng)新和多樣化。
AIGC的蝴蝶效應(yīng)正在持續(xù)蔓延,并有望繼續(xù)下去,這使我們需要在技術(shù)變革和市場變化中保持靈活應(yīng)對和創(chuàng)新思維。了解和適應(yīng)AIGC技術(shù)的快速演進(jìn)將成為各行各業(yè)的關(guān)鍵,而這也將為未來的技術(shù)發(fā)展和應(yīng)用帶來更多的可能性和機(jī)遇。
審核編輯:湯梓紅
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7600瀏覽量
89303 -
AI
+關(guān)注
關(guān)注
87文章
31690瀏覽量
270487 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8445瀏覽量
133121 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1570瀏覽量
8105 -
AIGC
+關(guān)注
關(guān)注
1文章
367瀏覽量
1618
原文標(biāo)題:AIGC蝴蝶效應(yīng)下的網(wǎng)絡(luò)和硬件趨勢
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論