在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

萬卡集群解決大模型訓(xùn)算力需求,建設(shè)面臨哪些挑戰(zhàn)

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2024-06-02 06:18 ? 次閱讀



電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)萬卡集群是指由一萬張及以上的加速卡(包括GPU、TPU及其他專用AI加速芯片)組成的高性能計(jì)算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過程。這種集群的構(gòu)建旨在解決大模型訓(xùn)練對(duì)算力需求的巨大增長(zhǎng)問題,尤其是現(xiàn)在模型參數(shù)量從百億級(jí)、千億級(jí)邁向萬億級(jí)。

國(guó)內(nèi)外企業(yè)積極構(gòu)建萬卡集群

目前,在國(guó)際上,包括微軟、Google、Meta等AI領(lǐng)域的巨頭,都已落子超萬卡集群的項(xiàng)目部署。如Meta于2022年推出了擁有16000張算卡的超級(jí)集群中心;Google于2023年推出了一個(gè)擁有2.6萬張算卡的Compute Engine A3;而持有OpenAI的微軟更是傳出正在進(jìn)行百萬規(guī)模算卡集群的籌建。

不只是國(guó)際廠商,國(guó)內(nèi)廠商也在此前大量采購(gòu)GPU推進(jìn)萬卡集群建設(shè)。尤其在今年以來,三大運(yùn)營(yíng)商也相繼公布了對(duì)超萬卡集群的部署。

近日,在中國(guó)移動(dòng)算力網(wǎng)絡(luò)大會(huì)上,中國(guó)移動(dòng)副總經(jīng)理高同慶宣布,今年將商用哈爾濱、呼和浩特、貴陽的三個(gè)萬卡集群,總規(guī)模近6萬張GPU卡,充分滿足大模型集中訓(xùn)練的需求。

今年1月,中國(guó)電信宣布將在上海規(guī)劃建設(shè)1.5萬張卡規(guī)模的算力集群,其總算力超4500P,這也將是國(guó)內(nèi)首個(gè)超大規(guī)模國(guó)產(chǎn)算力液冷集群。中國(guó)聯(lián)通表示,在今年內(nèi)將在上海臨港國(guó)際云數(shù)據(jù)中心,建成中國(guó)聯(lián)通首個(gè)萬卡集群。

除了運(yùn)營(yíng)商之外,2023年,螞蟻集團(tuán)宣布已建成萬卡異構(gòu)算力集群。此外,包括字節(jié)跳動(dòng)、阿里、百度、華為及科大訊飛等在內(nèi)的互聯(lián)網(wǎng)和AI頭部企業(yè)均在發(fā)力萬卡集群的建設(shè)。

另外,今年5月20日,網(wǎng)宿科技與航錦科技正式簽署戰(zhàn)略合作協(xié)議,雙方圍繞NVIDIA最新一代萬卡集群(L20 cluster AIDC)項(xiàng)目建立戰(zhàn)略合作關(guān)系,共同開展智算中心建設(shè)、相關(guān)技術(shù)研發(fā)、市場(chǎng)拓展等工作,旨在打造高效、智能、綠色的算力基礎(chǔ)設(shè)施,承載千行百業(yè)的大模型訓(xùn)練及推理需求。

網(wǎng)宿科技是全球領(lǐng)先的信息基礎(chǔ)設(shè)施平臺(tái)服務(wù)提供商,專注于邊緣計(jì)算、云分發(fā)、云安全、云計(jì)算、云服務(wù)及綠色數(shù)據(jù)中心業(yè)務(wù)。航錦科技是由武漢市國(guó)資委控股的上市企業(yè),控股子公司超擎數(shù)智作為AI算力和網(wǎng)絡(luò)整體解決方案提供商,是NVIDIA Compute(GPU)、Networking(網(wǎng)絡(luò))的雙Elite精英級(jí)合作伙伴。

構(gòu)建萬卡集群面臨的挑戰(zhàn)

萬卡集群的建設(shè)和維護(hù)面臨諸多挑戰(zhàn),首先是GPU的供應(yīng),由于全球超萬卡集群的建設(shè)都處于起步階段,部署模式都以英偉達(dá)GPU及配套設(shè)備為主。目前國(guó)內(nèi)在獲得英偉達(dá)旗艦高性能GPU方面受限,同時(shí),國(guó)產(chǎn)AI芯片相比于英偉達(dá)GPU在性能上存在一定差距。

其次,在大模型場(chǎng)景下,算力需要大規(guī)模集中式訓(xùn)練,單個(gè)GPU無法完全容納整個(gè)模型訓(xùn)練,需要采用分布式訓(xùn)練。這會(huì)帶來GPU之間互聯(lián)帶寬受限或AI服務(wù)器之間網(wǎng)絡(luò)互聯(lián)帶寬有限的問題。此外,卡數(shù)量增多后,過熱、故障也會(huì)一定比例出現(xiàn),模型訓(xùn)練成本會(huì)增加。

當(dāng)然,目前各企業(yè)正在積極解決這些問題。如越來越多國(guó)產(chǎn)的AI芯片已經(jīng)開始在集群的建設(shè)中得到使用,包括華為、海光、寒武紀(jì)、摩爾線程等公司。

如為了支撐千卡乃至超萬卡的大規(guī)模算力集群,摩爾線程于2023年推出了首個(gè)國(guó)內(nèi)產(chǎn)千卡千億模型訓(xùn)練平臺(tái)——夸娥智算集群,該模型深度參與中國(guó)移動(dòng)大模型訓(xùn)練與推理環(huán)節(jié),可以為大模型訓(xùn)練提供穩(wěn)定、高效、高兼容的算力支撐。

摩爾線程相關(guān)負(fù)責(zé)人此前談到,百卡或更小規(guī)模都是實(shí)驗(yàn)性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎(chǔ)模型的算力需求,這也是推出夸娥智算集群的目標(biāo)設(shè)定。

另外,浪潮信息董事長(zhǎng)彭震日前談到,芯片算力并非是AI發(fā)展不起來的直接原因,更多的其實(shí)是系統(tǒng)問題。他認(rèn)為,對(duì)于服務(wù)器廠商而言,當(dāng)前已經(jīng)不能再局限于提供單一硬件產(chǎn)品,而是要綜合性解決方案,這些解決方案可能包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、安全等方面。

浪潮信息希望從算力層提供一個(gè)平臺(tái),支撐多元算力入駐。對(duì)于芯片企業(yè)而言,只需要專注在芯片本身而不需要研究互聯(lián)帶寬問題。

據(jù)了解,目前不少服務(wù)器廠商也在學(xué)習(xí)英偉達(dá)的NVlink,NVlink提供一種高效可擴(kuò)展的芯片通信間協(xié)議,允許所有GPU同時(shí)全速實(shí)時(shí)通信,就好像整個(gè)系統(tǒng)是單個(gè)GPU一樣。在今年4月的GTC大會(huì)上,英偉達(dá)還宣布NVlink更新到第五代,包括可擴(kuò)展至576個(gè)GPU,能夠解決萬億參數(shù)混合專家模型通信瓶頸。

新華三集團(tuán)高級(jí)副總裁、云與計(jì)算存儲(chǔ)產(chǎn)品線總裁徐潤(rùn)安此前也談到算力互聯(lián)。在他看來,過去,大家的目標(biāo)可能是做更強(qiáng)算力的單顆芯片,現(xiàn)在會(huì)從另一個(gè)角度努力,怎樣將芯片做成更大集群,同時(shí)使得集群的通信效果更高,集群的處理能力更強(qiáng)。

新華三希望做更加開放的平臺(tái),做上游GPU廠商合作伙伴的最佳選擇,利用自身網(wǎng)絡(luò)優(yōu)勢(shì),對(duì)網(wǎng)絡(luò)通信的理解,幫助更多GPU廠商,將算力互聯(lián)互通實(shí)現(xiàn)得更好。新華三提供的科學(xué)計(jì)算算力調(diào)度平臺(tái)傲飛3.0,實(shí)現(xiàn)了跨集群統(tǒng)一管理,將訓(xùn)練任務(wù)進(jìn)行切分,將合適的子任務(wù)放在合適的近端或遠(yuǎn)端模塊集群實(shí)現(xiàn)。

寫在最后

當(dāng)前,萬卡集群式應(yīng)對(duì)大模型背景下算力需求的重要解決方案之一,對(duì)于推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用具有重要意義。可以看到,國(guó)內(nèi)外都在積極推進(jìn)萬卡集群的建設(shè)。然而,在國(guó)內(nèi),萬卡集群的建設(shè)并不容易,首先是AI芯片性能及軟件生態(tài)存在差距,其次是萬卡集群建設(shè)存在芯片間、卡之間、集群間的互聯(lián)問題,這些都還需要持續(xù)去解決。











聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1087

    瀏覽量

    15313
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2896

    瀏覽量

    3626
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    國(guó)產(chǎn)千GPU集群完成大模型訓(xùn)練測(cè)試,極具高兼容性和穩(wěn)定性

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)隨著人工智能技術(shù)的快速發(fā)展,對(duì)于計(jì)算能力的需求日益增長(zhǎng)。特別是在大模型訓(xùn)練方面,對(duì)需求更是呈現(xiàn)指數(shù)級(jí)增長(zhǎng)
    的頭像 發(fā)表于 06-11 07:50 ?3775次閱讀
    國(guó)產(chǎn)千<b class='flag-5'>卡</b>GPU<b class='flag-5'>集群</b>完成大<b class='flag-5'>模型</b>訓(xùn)練測(cè)試,極具高兼容性和穩(wěn)定性

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    類型和功耗選項(xiàng),是數(shù)據(jù)中心向800G帶寬擴(kuò)展的理想選擇。 市場(chǎng)前景廣闊: 隨著AI需求的不斷增長(zhǎng),尤其是在超大規(guī)模數(shù)據(jù)中心和AI集群建設(shè)
    發(fā)表于 03-25 12:00

    破局:科通技術(shù)以&quot;AI大模型+AI芯片&quot;重構(gòu)智底座

    “科通技術(shù)”)推出的“DeepSeek+AI芯片”全場(chǎng)景方案,在云AI領(lǐng)域取得重大突破。除了GPU的總量,云AI的一大挑戰(zhàn)來源于GPU集群的數(shù)據(jù)互聯(lián)效率。某大型互聯(lián)網(wǎng)集團(tuán)為解決云A
    的頭像 發(fā)表于 03-17 11:14 ?328次閱讀

    昆侖芯P800集群成功點(diǎn)亮,將進(jìn)一步點(diǎn)亮3集群

    的。而24年9月升級(jí)的百度百舸AI異構(gòu)計(jì)算平臺(tái)4.0,圍繞落地大模型全旅程的需求,在集群創(chuàng)建、開發(fā)實(shí)驗(yàn)、
    發(fā)表于 02-05 17:58 ?352次閱讀
    昆侖芯P800<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>成功點(diǎn)亮,將進(jìn)一步點(diǎn)亮3<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>

    弘信電子旗下安聯(lián)通加入集群服務(wù)推進(jìn)方陣

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“信通院”)在北京召開“集群服務(wù)推進(jìn)方陣”首次工作部署會(huì)議。弘信電子集團(tuán)旗下子公司安聯(lián)通受邀出席,展現(xiàn)了其在智
    的頭像 發(fā)表于 01-16 11:18 ?570次閱讀

    國(guó)產(chǎn)智集群黑馬!曦源一號(hào)SADA集群綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    近日,加佳科技曦源一號(hào)SADA集群項(xiàng)目一期順利通過工信部中國(guó)軟件評(píng)測(cè)中心權(quán)威評(píng)測(cè)認(rèn)證。本次測(cè)試涵蓋了項(xiàng)目一期已上線的1024張沐曦高性能GPU加速
    的頭像 發(fā)表于 12-25 11:16 ?655次閱讀
    國(guó)產(chǎn)智<b class='flag-5'>算</b><b class='flag-5'>集群</b>黑馬!曦源一號(hào)SADA<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    星凡星啟,全面助力集群建設(shè)

    ,同時(shí)地面建設(shè)100個(gè)地基訓(xùn)推一體化節(jié)點(diǎn),建成后總算預(yù)計(jì)將達(dá)到80000P。“星算計(jì)劃”打造的地面
    的頭像 發(fā)表于 12-10 11:36 ?753次閱讀
    星凡星啟,全面助力<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b><b class='flag-5'>建設(shè)</b>

    模型時(shí)代的需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能,是一個(gè)極為重要的問題,帶著這個(gè)極為重要的問
    發(fā)表于 08-20 09:04

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評(píng)測(cè)資格! 書籍介紹 大模型是近年來引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對(duì)其需求設(shè)計(jì)的及基礎(chǔ)架
    發(fā)表于 08-16 18:33

    億鑄科技談大芯片面臨的技術(shù)挑戰(zhàn)和解決策略

    隨著人工智能技術(shù)的飛速發(fā)展,已成為推動(dòng)產(chǎn)業(yè)變革的關(guān)鍵力量,但大模型的快速發(fā)展,參數(shù)的爆發(fā),對(duì)于
    的頭像 發(fā)表于 08-07 10:03 ?1046次閱讀

    從千集群卡到集群,燧原科技打造更好的AI底座

    :WAIC 2024)上,不僅有國(guó)內(nèi)各大模型廠商同場(chǎng)競(jìng)技,也有豐富的基礎(chǔ)設(shè)施展示,其中包括專注人工智能領(lǐng)域云端產(chǎn)品的燧原科技。 ?
    的頭像 發(fā)表于 07-07 09:45 ?2668次閱讀
    從千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>卡到<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>,燧原科技打造更好的AI<b class='flag-5'>算</b><b class='flag-5'>力</b>底座

    摩爾線程與無問芯穹宣布完成基于GPU千集群的3B規(guī)模大模型實(shí)訓(xùn)

    摩爾線程聯(lián)合無問芯穹宣布,雙方已在本周正式完成基于國(guó)產(chǎn)全功能GPU千集群的3B規(guī)模大模型實(shí)訓(xùn)
    的頭像 發(fā)表于 05-27 10:44 ?644次閱讀
    摩爾線程與無問芯穹宣布完成基于GPU千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>的3B規(guī)模大<b class='flag-5'>模型</b>實(shí)<b class='flag-5'>訓(xùn)</b>

    摩爾線程張建中:以國(guó)產(chǎn)助力數(shù)智世界,滿足大模型需求

    摩爾線程創(chuàng)始人兼CEO張建中在會(huì)上透露,為了滿足國(guó)內(nèi)對(duì)AI的迫切需求,他們正在積極尋求與國(guó)內(nèi)頂尖科研機(jī)構(gòu)的深度合作,共同推動(dòng)更大規(guī)模的AI智
    的頭像 發(fā)表于 05-10 16:36 ?1178次閱讀

    中國(guó)移動(dòng)將商用三個(gè)自主可控集群

    中國(guó)移動(dòng)在近日舉辦的2024年網(wǎng)絡(luò)大會(huì)上宣布了重要計(jì)劃。據(jù)中國(guó)移動(dòng)副總經(jīng)理高同慶透露,公司今年將正式商用三個(gè)具有完全自主控制權(quán)的集群
    的頭像 發(fā)表于 05-06 10:21 ?744次閱讀

    北京:規(guī)劃建設(shè)支撐萬億級(jí)參數(shù)大模型訓(xùn)練需求的超大規(guī)模智集群

    ”局面,集中建設(shè)一批智單一大集群,到2025年,本市智供給規(guī)模達(dá)到45EFLOPS,2025-2027年根據(jù)人工智能大模型發(fā)展需要和國(guó)家
    的頭像 發(fā)表于 04-29 08:26 ?433次閱讀
    北京:規(guī)劃<b class='flag-5'>建設(shè)</b>支撐萬億級(jí)參數(shù)大<b class='flag-5'>模型</b>訓(xùn)練<b class='flag-5'>需求</b>的超大規(guī)模智<b class='flag-5'>算</b><b class='flag-5'>集群</b>
    主站蜘蛛池模板: 禁网站在线观看免费视频 | 欧美视频小说 | 国产成人永久免费视频 | 去毛片 | 国产色司机在线视频免费观看 | 日本一区二区高清免费不卡 | 最黄毛片 | 成人免费看黄页网址大全 | 成年人的毛片 | sss欧美华人整片在线观看 | 国产毛片精品 | 一级毛片aa | 婷婷久久综合九色综合98 | 亚洲男同tv | 精品卡1卡2卡三卡免费视频 | 天堂网视频在线 | 亚洲αv久久久噜噜噜噜噜 亚洲аv电影天堂网 | 色伊伊| 小雪被撑暴黑人黑人与亚洲女人 | 57pao成人永久免费视频 | 色综合久久中文综合网 | 日韩欧美理论 | 99久久久精品 | 午夜在线看片 | 成人黄色三级 | 老湿司午夜爽爽影院榴莲视频 | 中文在线资源链接天堂 | 国产精品美女一级在线观看 | 1024毛片 | 在线好吊色视频98gao | 伊人精品久久久大香线蕉99 | 亚洲 欧美 丝袜 制服 在线 | 国产精品任我爽爆在线播放6080 | 你懂得网址在线观看 | 性欧美高清久久久久久久 | 中文字幕天堂在线 | 精品久久久久久久免费加勒比 | 欧美黄色一级网站 | 国产高清一级在线观看 | 天天插日日干 | 色五婷婷|