近年來,數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)一直在不斷發(fā)展,以滿足日益增長(zhǎng)的數(shù)據(jù)處理需求。從最初的傳統(tǒng)結(jié)構(gòu),到軟件定義網(wǎng)絡(luò)(SDN),再到云原生網(wǎng)絡(luò)(CN-NFV),數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)已經(jīng)走過了一個(gè)漫長(zhǎng)的發(fā)展歷程。AI時(shí)代,高性能計(jì)算需求正呈現(xiàn)爆發(fā)性增長(zhǎng)態(tài)勢(shì),數(shù)據(jù)中心網(wǎng)絡(luò)面臨更為復(fù)雜的挑戰(zhàn),技術(shù)將會(huì)有哪些新的變化?是否有合適的解決之道?

華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域副總裁 張白
2023年8月23日-25日,全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2023)在青島舉辦,CCF HPC China是高性能計(jì)算領(lǐng)域全球最具影響力的三大超算盛會(huì)之一,有著“中國(guó)超算風(fēng)向標(biāo)”的稱號(hào)。本次大會(huì)上,華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域副總裁張白分享隨著AI時(shí)代的到來,高性能計(jì)算對(duì)網(wǎng)絡(luò)新的訴求,以及如何依靠星河AI網(wǎng)絡(luò)解決方案去解決智能時(shí)代網(wǎng)絡(luò)面臨的新的挑戰(zhàn)。
高性能計(jì)算需要什么樣的互聯(lián)網(wǎng)絡(luò)?
當(dāng)前,新一輪科技革命和產(chǎn)業(yè)變革加速演進(jìn),高性能計(jì)算正帶領(lǐng)人類從“信息時(shí)代”走向“算力時(shí)代”。據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布的《2022中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展研究報(bào)告》顯示,目前中國(guó)算力規(guī)模約占全球的27%,排名第二。我國(guó)算力進(jìn)入高速發(fā)展階段,到2025年總算力規(guī)模將達(dá)到300EFlops,同比2020年增長(zhǎng)120%。
數(shù)據(jù)的爆炸性增長(zhǎng)需要算力去解決,一方面需要更高效的算力結(jié)構(gòu),另一方面需要好的算力網(wǎng)絡(luò)。高性能計(jì)算主要關(guān)注如何利用大規(guī)模計(jì)算的資源來解決科學(xué)、工程和商業(yè)問題。HPC應(yīng)用程序通常需要使用并行計(jì)算,億級(jí)、10億級(jí)的超算,它的并行計(jì)算帶給網(wǎng)絡(luò)非常大的挑戰(zhàn)。比如,并行通信、數(shù)據(jù)同步、大規(guī)模穩(wěn)定運(yùn)行等。同時(shí),隨著AI人工智能快速發(fā)展,HPC和AI結(jié)合的研究,HPC和AI應(yīng)用程序通常需要處理大量的數(shù)據(jù),并且在計(jì)算節(jié)點(diǎn)之間進(jìn)行數(shù)據(jù)傳輸和存儲(chǔ),對(duì)網(wǎng)絡(luò)的吞吐及負(fù)載均衡也提出了新的挑戰(zhàn)。
以當(dāng)前火爆的大模型來說,其對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)要求更為苛刻,可以說,大規(guī)模算力環(huán)境下的網(wǎng)絡(luò)問題已成為當(dāng)今數(shù)據(jù)中心所面臨的“緊箍咒”之一。
官網(wǎng)顯示,ChatGPT-4輸入?yún)?shù)已經(jīng)達(dá)到萬億,2.5年增長(zhǎng)了570倍,1.5萬張A100卡來支撐訓(xùn)練,大量服務(wù)器通過高速網(wǎng)絡(luò)組成算力集群,共同完成訓(xùn)練任務(wù)。但是大規(guī)模不等于大帶寬,AI大模型的訓(xùn)練場(chǎng)景中會(huì)存在負(fù)載不均衡的情況,而且設(shè)備網(wǎng)絡(luò)規(guī)模越大,傳統(tǒng)負(fù)載方式?jīng)_突會(huì)越嚴(yán)重。類似于要想提高車輛運(yùn)行速度,在拓寬道路的基礎(chǔ)上,還需要解決堵車的難題。大規(guī)模的網(wǎng)絡(luò)不僅讓業(yè)務(wù)調(diào)優(yōu)復(fù)雜,后期運(yùn)維也是雪上加霜,無法采用傳統(tǒng)手段運(yùn)維,據(jù)統(tǒng)計(jì)50%的迭代過程會(huì)被迫中斷,定位時(shí)長(zhǎng)平均1天以上。由此可見,AI訓(xùn)練對(duì)于網(wǎng)絡(luò)的訴求可以用三個(gè)詞來歸納:大規(guī)模,高吞吐,高可靠。
如何釋放高性能計(jì)算100%算力?
加大高性能計(jì)算供給,必須增加算力網(wǎng)絡(luò)可靠性。自2020年至今,大模型引領(lǐng)AI進(jìn)入新的發(fā)展階段,但大模型訓(xùn)練是個(gè)復(fù)雜的系統(tǒng)工程,網(wǎng)絡(luò)基礎(chǔ)設(shè)施正是長(zhǎng)穩(wěn)訓(xùn)練的關(guān)鍵之一。對(duì)于用戶來說,其需要投入大量的資金和人才戰(zhàn)略來施行其智能化戰(zhàn)略,要怎樣才能進(jìn)行數(shù)據(jù)中心的創(chuàng)新,建立其符合未來需求的數(shù)據(jù)中心網(wǎng)絡(luò)呢?
針對(duì)當(dāng)前業(yè)界火爆的AI大模型,華為在2023CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2023)上帶來星河AI網(wǎng)絡(luò)解決方案,提供“運(yùn)得多、運(yùn)得快,運(yùn)得穩(wěn)”的高運(yùn)力數(shù)據(jù)中心網(wǎng)絡(luò),為客戶提供大規(guī)模、高吞吐、高可靠的網(wǎng)絡(luò)建設(shè)。
AI場(chǎng)景下對(duì)網(wǎng)絡(luò)的第一要求是大規(guī)模,適配萬卡集群是網(wǎng)絡(luò)最基本的要求。華為采用業(yè)界最高密200/400GE交換機(jī),匹配大模型訓(xùn)練基本硬件算力訴求,支持超大帶寬組網(wǎng),支持萬億參數(shù)量,規(guī)模可以達(dá)到IB的2-4倍。
網(wǎng)絡(luò)的另一個(gè)要求是高吞吐,面對(duì)大規(guī)模網(wǎng)絡(luò)采用算網(wǎng)一體化的方式部署,效率可以提升10倍以上。在AI場(chǎng)景中網(wǎng)絡(luò)時(shí)延不是關(guān)鍵指標(biāo),而網(wǎng)絡(luò)吞吐才是業(yè)務(wù)性能的關(guān)鍵因素,華為獨(dú)創(chuàng)AI智能加速器,提高網(wǎng)絡(luò)吞吐,訓(xùn)練效率提升20%。
高可靠同樣是客戶對(duì)網(wǎng)絡(luò)的重要要求,華為采用智能化運(yùn)維的方式來保證訓(xùn)練實(shí)時(shí)可視分鐘級(jí)識(shí)別慢主機(jī),保證訓(xùn)練的過程不中斷。通過采用網(wǎng)絡(luò)的控制器,包括網(wǎng)絡(luò)以及計(jì)算強(qiáng)強(qiáng)聯(lián)手,實(shí)現(xiàn)“算網(wǎng)一體的融合”,最終實(shí)現(xiàn)算力網(wǎng)絡(luò)“運(yùn)得多,運(yùn)得快,運(yùn)得穩(wěn)”的目標(biāo),從而實(shí)現(xiàn)算力100%釋放。
進(jìn)入AI時(shí)代,數(shù)據(jù)中心的使命正在從聚焦業(yè)務(wù)快速發(fā)放向聚焦數(shù)據(jù)高效處理進(jìn)行轉(zhuǎn)變,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等這些IT基礎(chǔ)設(shè)施的核心組成部分,正在融入更多的AI元素。企業(yè)如果想要打造未來型數(shù)據(jù)中心,就必須尋找優(yōu)秀的技術(shù)合作伙伴,致力于提供一套更好的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。華為星河AI網(wǎng)絡(luò)解決方案通過構(gòu)建支持AI業(yè)務(wù)的網(wǎng)絡(luò),實(shí)現(xiàn)從大型模型訓(xùn)練到推理的全過程。目前,華為星河AI網(wǎng)絡(luò)解決方案已在成全球100+企業(yè)部署商用。
如何打造面向未來的AI 網(wǎng)絡(luò)?
到2030年,全球聯(lián)接數(shù)預(yù)計(jì)將達(dá)到2000億,數(shù)據(jù)中心流量10年增長(zhǎng)100倍,IPv6地址滲透率將達(dá)到90%,AI算力將增長(zhǎng)500倍。當(dāng)前及未來的數(shù)據(jù)中心將如何應(yīng)對(duì)這些趨勢(shì)和發(fā)展要求?這就需要構(gòu)建一個(gè)立體超寬、滿足確定性時(shí)延的智能原生AI網(wǎng)絡(luò)。在華為看來,AI網(wǎng)絡(luò)的所有技術(shù)手段,都需要以業(yè)務(wù)為本,核心指標(biāo)就是減少模型的訓(xùn)練時(shí)間。
首先,大模型需要規(guī)模算力,需要非常大的GPU集群。而把大規(guī)模的GPU集群連起來,需要大規(guī)模的網(wǎng)絡(luò)。對(duì)于數(shù)據(jù)中心網(wǎng)絡(luò)而言,大規(guī)模網(wǎng)絡(luò)本身不是問題,更重要的是要考量建網(wǎng)的成本。華為主張采用大容量的交換設(shè)備組網(wǎng)降低網(wǎng)絡(luò)的層次,由原來的三層合適組網(wǎng)變成兩層寬河組網(wǎng),從而來降低組網(wǎng)的成本。
其次,大規(guī)模的集群只是把AI物理服務(wù)器物理上連接在一起,要發(fā)揮效果還需要釋放集群算力。網(wǎng)絡(luò)在提高集群的加速比上需要發(fā)揮更加關(guān)鍵的作用。
最后,AI訓(xùn)練的本質(zhì)是并行計(jì)算,有典型的木桶效應(yīng),水桶的盛水量是由幾塊木板中最短的一塊決定的。一個(gè)環(huán)節(jié)出問題,會(huì)拉慢整個(gè)系統(tǒng)甚至讓整個(gè)系統(tǒng)癱瘓。網(wǎng)絡(luò)需要盡可能多的保障服務(wù)器之間的連通性,對(duì)網(wǎng)絡(luò)的高可靠需求更高。未來網(wǎng)絡(luò)要提高集群的整體可用性,做到在99%的情況下都不會(huì)因?yàn)榫W(wǎng)絡(luò)導(dǎo)致訓(xùn)練中斷。
在過去20年,網(wǎng)絡(luò)技術(shù)獲得了長(zhǎng)足發(fā)展——2000年開始的ALL IP技術(shù)推動(dòng)了互聯(lián)網(wǎng)的大規(guī)模應(yīng)用,2010年開始的All Cloud技術(shù)驅(qū)動(dòng)了企業(yè)IT基礎(chǔ)設(shè)施的大規(guī)模云化。而今天,AI浪潮正撲面而來,持續(xù)演進(jìn)的AI對(duì)網(wǎng)絡(luò)的需求將會(huì)處于指數(shù)級(jí)增長(zhǎng)的態(tài)勢(shì),網(wǎng)絡(luò)也需要全面擁抱人工智能時(shí)代。在這個(gè)過程中,華為將繼續(xù)攜手伙伴開放合作與持續(xù)創(chuàng)新,在算力領(lǐng)域的發(fā)展和應(yīng)用中作出更大的貢獻(xiàn)。

原文標(biāo)題:轉(zhuǎn)載 | 高性能計(jì)算與AI網(wǎng)絡(luò)大融合,如何重塑網(wǎng)絡(luò)智能時(shí)代?
文章出處:【微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
華為
+關(guān)注
關(guān)注
216文章
35175瀏覽量
255508
原文標(biāo)題:轉(zhuǎn)載 | 高性能計(jì)算與AI網(wǎng)絡(luò)大融合,如何重塑網(wǎng)絡(luò)智能時(shí)代?
文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景

開售RK3576 高性能人工智能主板
6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計(jì)算新邊界
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
華為5G-A智能核心網(wǎng)助力運(yùn)營(yíng)商加速網(wǎng)絡(luò)商業(yè)變現(xiàn)
AI賦能邊緣網(wǎng)關(guān):開啟智能時(shí)代的新藍(lán)海
高性能計(jì)算,名副其實(shí)的“算力皇冠”

評(píng)論