在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

未來智算中心:從單數(shù)據(jù)中心到多數(shù)據(jù)中心AI訓(xùn)練集群的演變趨勢

SDNLAB ? 來源:SDNLAB ? 2024-11-13 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年以來,以ChatGPT為代表的大模型迅速紅遍全球,展現(xiàn)出變革經(jīng)濟(jì)社會的巨大潛能。全球主流科技公司紛紛參與其中,推動智能算力需求高速增長。華為公司去年曾預(yù)測,到2025年,智能算力需求將增長100倍。

與之相呼應(yīng)的,是蓬勃興起的智算中心。從政策面看,我國2022年全面啟動“東數(shù)西算”工程建設(shè),在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏建設(shè)8個國家算力樞紐,并規(guī)劃了10個國家數(shù)據(jù)中心集群。從產(chǎn)業(yè)來看,運營商資本開支重心正在向算力偏移,并大規(guī)模采購智算設(shè)備。

智算中心的未來將如何演變?構(gòu)建跨數(shù)據(jù)中心的AI訓(xùn)練集群是其中一個重要研究方向, “Region Scale Al”,已經(jīng)成為業(yè)界關(guān)注的熱點話題。

ODCC(開放數(shù)據(jù)中心委員會)攜手華為公司,在2024年3月28日召開的ODCC春季全會-新技術(shù)與測試工作組會議上提出了“Region Scale AI”研究項目。華為2012網(wǎng)絡(luò)技術(shù)實驗室專家李映輝做了《Region Scale AI 場景與挑戰(zhàn)》主題報告,介紹了AI大模型訓(xùn)練對算力需求不斷增加的背景下,多數(shù)據(jù)中心聯(lián)合訓(xùn)練的發(fā)展趨勢與業(yè)界實踐,深入分析了該場景下面臨的組網(wǎng)和通信挑戰(zhàn),通過現(xiàn)網(wǎng)實驗數(shù)據(jù)初步論證了AI集群跨AZ、跨Region聯(lián)合訓(xùn)練的可行性,并給出了“Region Scale AI”研究項目的工作計劃。李映輝因為此項目立項,榮獲ODCC2024年春季全會MVP演講嘉賓稱號。

報告中,還介紹了該場景下的創(chuàng)新技術(shù)探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在長距網(wǎng)絡(luò)上實現(xiàn)高吞吐傳輸、高性能加解密協(xié)議等等。同時指出,隨著AI模型的增大以及芯片算力的增強,未來跨AZ訓(xùn)練對網(wǎng)絡(luò)帶寬的需求還會進(jìn)一步增長,需要進(jìn)一步考慮DCN和DCI網(wǎng)絡(luò)架構(gòu)的演進(jìn)。

單集群AI訓(xùn)練存在極限,跨DC AI訓(xùn)練成趨勢

業(yè)內(nèi)人士都能感受到AI大模型發(fā)展的加速度。主流科技公司正在盡可能快地開發(fā)大模型并迭代新版本,以期在這個全新的產(chǎn)業(yè)中占據(jù)先機。大模型的訓(xùn)練參數(shù)在過去5年增長百倍,已經(jīng)達(dá)到萬億級,預(yù)計未來5年參數(shù)將再增長百倍,達(dá)到百萬億量級!

智算能力也隨之快速升級,目前單一數(shù)據(jù)中心已經(jīng)達(dá)到萬卡集群規(guī)模,以盡力滿足幾乎永無止境的AI計算需求。公開消息顯示,華為昇騰AI集群2023年升級為萬卡AI集群;螞蟻基礎(chǔ)大模型已具備萬卡AI集群;中國電信宣布推出了首個國產(chǎn)單池萬卡液冷算力集群。

AI集群是通過將多個計算機節(jié)點連接起來,形成協(xié)同工作的計算環(huán)境,從而為人工智能應(yīng)用提供強大的計算能力和數(shù)據(jù)處理能力。據(jù)了解,其技術(shù)門檻隨著訓(xùn)練量快速增長而不斷抬高,絕非簡單的算力設(shè)備堆砌。僅有少數(shù)幾家廠商能夠提供萬卡AI集群,面對大模型參數(shù)的指數(shù)級增長,壓力巨大。

然而,任何具體事物都存在極限,算力集群同樣如此。單一AI集群不可能無限制擴張,會受到電力供應(yīng)等因素影響,比如一些公司甚至考慮將數(shù)據(jù)中心建設(shè)在核電站附近。預(yù)計今后一個十萬卡級別的AI集群,需要上百MW的電力供應(yīng)。跨數(shù)據(jù)中心AI訓(xùn)練可以有效解決單集群供電不足問題,引起業(yè)界廣泛關(guān)注。

此外,云計算有峰谷效應(yīng),單集群算力面臨部署碎片化問題,難以承載云上大規(guī)模AI訓(xùn)練業(yè)務(wù),導(dǎo)致資源利用率下降。采用多個數(shù)據(jù)中心組成的跨AZ、跨Region AI訓(xùn)練集群,可有效支撐十萬卡甚至百萬卡級別的訓(xùn)練任務(wù),同時提高資源利用率,將是智算產(chǎn)業(yè)發(fā)展和探索的重要方向。

業(yè)界大型科技公司紛紛啟動跨DC訓(xùn)練技術(shù)研究

面向云上AI資源碎片化問題,微軟提出了“Singularity”框架,Planet-scale可搶占、可遷移、可彈性伸縮的AI任務(wù)調(diào)度。該框架可實現(xiàn)資源調(diào)度高彈性和可遷移性,增加云上AI資源利用率,但缺乏關(guān)注跨集群的訓(xùn)練性能。面向公有云AI訓(xùn)練網(wǎng)絡(luò)異構(gòu)問題,AWS提出了MiCS方案,能夠充分利用異構(gòu)網(wǎng)絡(luò)帶寬,通過減少較慢鏈路上的網(wǎng)絡(luò)流量,攤銷昂貴的全局梯度同步開銷。為了解決AI訓(xùn)練集群造價昂貴問題,Meta提出去中心化異構(gòu)訓(xùn)練。利用分布式、異構(gòu)和低帶寬互聯(lián)的AI訓(xùn)練資源來訓(xùn)練基礎(chǔ)大模型,降低訓(xùn)練成本。

Region Scale AI研究計劃啟動,已制定進(jìn)度表

華為云技術(shù)專家楊永強近日在交流中向SDNLAB表示,數(shù)字經(jīng)濟(jì)是根本,東數(shù)西算是實施的第一步,華為云大力支持國家的東數(shù)西算戰(zhàn)略,積極布局Regionless等技術(shù)創(chuàng)新,其中東數(shù)西訓(xùn)自不必說,而跨AZ、跨Region、線上線下跨集群的AI訓(xùn)練等高階訴求也日益顯現(xiàn)。參數(shù)交換會大幅提升跨Region的數(shù)據(jù)流量,弱網(wǎng)長距下的Regionless確定性高速傳輸需求迫切,有機會打造成東數(shù)西算的 “特高壓”。

“Region Scale AI研究”項目旨在通過跨數(shù)據(jù)中心聯(lián)合訓(xùn)練,突破單集群建設(shè)限制,靈活高效利用算力資源。未來幾個月,ODCC將與業(yè)界針對Region Scale AI面臨的技術(shù)挑戰(zhàn)展開具體研究,探索技術(shù)方向,期望在年內(nèi)形成研究成果,并在9月份ODDC年度大會進(jìn)行成果發(fā)布。

0e147092-9063-11ef-a511-92fbcf53809c.png

數(shù)字經(jīng)濟(jì)時代,算力就是生產(chǎn)力。尤其是智能算力,在復(fù)雜的國際政經(jīng)形勢下,能否取得突破,關(guān)系到新型數(shù)字技術(shù)的產(chǎn)業(yè)競爭力。ODCC跨AZ訓(xùn)練立項已經(jīng)走出了第一步,探索智算產(chǎn)業(yè)的發(fā)展路徑。未來華為公司會繼續(xù)在產(chǎn)業(yè)界開展分布式AI訓(xùn)練的聯(lián)合創(chuàng)新、認(rèn)證測試、標(biāo)準(zhǔn)制定等系列工作,也愿意與業(yè)界伙伴一起,賦能我國數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)的高質(zhì)量發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5182

    瀏覽量

    73345
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34779

    瀏覽量

    277070

原文標(biāo)題:AI訓(xùn)練集群從單DC擴展至多DC,智算中心的未來將如何演變?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    利用NVIDIA技術(shù)構(gòu)建數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案

    全球領(lǐng)先的電子制造商正在利用 NVIDIA 技術(shù),構(gòu)建數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案。
    的頭像 發(fā)表于 05-22 09:50 ?284次閱讀

    施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案

    在人工智能(AI)驅(qū)動的產(chǎn)業(yè)革命浪潮中,數(shù)據(jù)中心正迎來深刻變革。面對迅猛增長的人工智能力需求,部署高密度AI集群已成為
    的頭像 發(fā)表于 04-19 16:54 ?740次閱讀
    施耐德電氣發(fā)布<b class='flag-5'>數(shù)據(jù)中心</b>高密度<b class='flag-5'>AI</b><b class='flag-5'>集群</b>部署解決方案

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡(luò)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計算和網(wǎng)絡(luò)壓力。大語言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量
    發(fā)表于 03-25 17:35

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚了來自全國的300多位客戶和伙伴,共同探討
    的頭像 發(fā)表于 03-24 14:46 ?435次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    。通過綜合考慮帶寬、距離和成本等因素,可提高數(shù)據(jù)中心整體效率并實現(xiàn)未來網(wǎng)絡(luò)基礎(chǔ)設(shè)施的升級和擴展。如需了解更多定制化布線方案和專業(yè)建議,請訪問飛速(FS),探索全面的布線產(chǎn)品和解決方案。
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設(shè)計

    日前舉辦的英偉達(dá) GTC 2025 開發(fā)者大會匯聚了眾多行業(yè)精英,共同探討人工智能的未來。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預(yù)測,未來將有 1 萬億美元用于 AI 驅(qū)動的
    的頭像 發(fā)表于 03-21 15:43 ?415次閱讀

    數(shù)據(jù)中心發(fā)展與改造

    全球多數(shù)數(shù)據(jù)中心基礎(chǔ)設(shè)施已超六年,能耗高而效率低。隨著AI的發(fā)展,企業(yè)正致力于整合與提升能效的現(xiàn)代化改造。同時數(shù)據(jù)中心呈現(xiàn)規(guī)模化、高密化、綠色化發(fā)展趨勢。19821800313 一、目
    的頭像 發(fā)表于 02-28 16:50 ?361次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展與改造

    華為發(fā)布2025數(shù)據(jù)中心能源十大趨勢

    今日,華為舉辦2025數(shù)據(jù)中心能源十大趨勢發(fā)布會,華為數(shù)據(jù)中心能源領(lǐng)域總裁堯權(quán)全面解讀數(shù)據(jù)中心能源十大趨勢,為
    的頭像 發(fā)表于 01-14 10:24 ?454次閱讀

    全球視野 領(lǐng)未來,施耐德電氣助力數(shù)據(jù)中心把握智算機遇

    領(lǐng)域?qū)<壹靶袠I(yè)合作伙伴,深入探討AI重塑未來之際,數(shù)據(jù)中心面臨的新挑戰(zhàn)、技術(shù)革新與未來發(fā)展趨勢,并分享了施耐德電氣賦能
    的頭像 發(fā)表于 11-21 15:50 ?827次閱讀
    全球視野 <b class='flag-5'>算</b>領(lǐng)<b class='flag-5'>未來</b>,施耐德電氣助力<b class='flag-5'>數(shù)據(jù)中心</b>把握智算機遇

    當(dāng)今數(shù)據(jù)中心新技術(shù)趨勢

    當(dāng)今數(shù)據(jù)中心的新技術(shù)趨勢正以前所未有的速度推動著行業(yè)的變革與創(chuàng)新。隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的快速發(fā)展,數(shù)據(jù)中心作為信息技術(shù)的核心基礎(chǔ)設(shè)施,正面臨著前所未有的機遇與挑戰(zhàn)。 一、
    的頭像 發(fā)表于 10-24 15:15 ?930次閱讀

    簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽?b class='flag-5'>AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?765次閱讀

    怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

    數(shù)據(jù)中心配電系統(tǒng)
    安科瑞王金晶
    發(fā)布于 :2024年08月29日 14:51:36

    數(shù)據(jù)中心使用智能負(fù)載組是個好主意#負(fù)載 #負(fù)載組

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月19日 07:43:30

    混合冷卻在數(shù)據(jù)中心中仍將是必不可少的#混合冷卻

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月06日 06:58:06

    AI時代,我們需要怎樣的數(shù)據(jù)中心AI重新定義數(shù)據(jù)中心

    超過60%的中國企業(yè)計劃在未來12至24個月內(nèi)部署生成式人工智能。AI、模型的構(gòu)建,將顛覆數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)、運維和運營。一個全新的數(shù)據(jù)中心智能化時代已經(jīng)拉開序幕。
    發(fā)表于 07-16 11:33 ?1063次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數(shù)據(jù)中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數(shù)據(jù)中心</b>
    主站蜘蛛池模板: 激情五月综合婷婷 | 男女视频在线播放 | 欧美影欧美影院免费观看视频 | 国产片一区二区三区 | 77788色淫网站女女免费视频 | 天天爽夜爽免费精品视频 | 四虎影院在线免费播放 | 天天干天天操天天透 | 国产精品久久久福利 | 久久久久久久国产精品影院 | 日本bt | 91大神大战丝袜美女在线观看 | 色v在线| 亚洲天堂手机在线 | 九九热在线视频观看这里只有精品 | 久久99综合 | 国产乱码一区二区三区四川人 | aaaaaaaaa在线观看 | 黄色毛片儿| 视色4se在线视频播放 | 夜恋秀场欧美成人影院 | 最近最新中文字幕6页 | 国产日本特黄特色大片免费视频 | 久草cm| 四虎在线精品 | 夜夜天天 | 亚洲区免费 | 久久免费99精品久久久久久 | 日本动漫免费看 | 四虎永久在线精品免费影视 | 天天操人人射 | 国产欧美精品午夜在线播放 | 中文字幕在线色 | 午夜乩伦 | 黄色精品视频 | 天天躁夜夜躁狠狠躁2024 | 亚洲国产精品综合久久2007 | 成人丁香婷婷 | 亚洲午夜顶级嘿嘿嘿影院 | 一区二区三区四区五区 | 日本三级香港三级人妇 m |