在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于無損數據中心的AI訓練網絡均衡技術實踐

華為數據通信 ? 來源:華為數據通信 ? 作者:華為數據通信 ? 2022-08-03 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2022年7月,在山東濟南舉行的2022中國算力大會上,紫金山實驗室研究員高新平作了“基于無損數據中心AI訓練網絡均衡技術實踐”的主題演講。

紫金山實驗室是江蘇省和南京市共同推進建設的重大科技創新平臺。紫金山實驗室面向網絡通信與安全領域國家重大戰略需求,以引領全球信息科技發展方向、解決行業重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎性研究,力圖突破關鍵核心技術,開展重大示范應用,促進成果在國家經濟建設中落地。紫金山實驗室力圖成為國家科技創新的重要力量,建成具有世界一流水平的戰略科技創新基地。

紫金山實驗室與華為依托紫金山實驗室無損數據中心展開面向AI訓練場景的網絡均衡技術的聯合創新,解決AI集群中網絡負載不均而導致的AI訓練任務性能下降的問題。

高新平研究員指出AI訓練使用的集合通信算法,當前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運行時通信流量都呈現出了共同的特征:周期性、流數量少、長連接,并行任務間有強實時同步性要求,通信效率取決于最慢的節點。同時,AI訓練時,各節點之間傳輸的數據量大。以上這些流量特性使計算集群網絡容易出現負載不均導致AI訓練任務性能下降的問題。

現有網絡均衡的主流技術大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負載分擔均衡。逐流ECMP均衡技術,是當前最為常用的負載均衡算法,適用于流鏈接較多場景,它優勢在于無亂序,劣勢在于流數量較少時,例如AI訓練場景下,存在HASH沖突問題,網絡均衡效果不佳。基于子流flowlet均衡技術,它依賴于子流之間的時間間隔GAP值的正確配置來實現均衡,但全局路徑級時延信息不可知、無法配置,且存在接收端側亂序的問題。逐包的負載分擔均衡技術,理論均衡度最好,但實際在接收端側存在大量報文亂序問題,現實中幾乎無使用案例。

發表“基于無損數據中心的AI訓練網絡均衡技術實踐”主題演講

在紫金山實驗室無損數據中心AI訓練集群中驗證了華為創新的網絡均衡技術NSLB(Network Service Load Balance)。基于華為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉發路徑,避免負載不均,提升AI訓練效率。

Ring算法場景,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓練集性能最高提升113.41%;

Ring算法場景,同時運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓練集性能最高提升57.29%;

Tree算法場景下,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓練集性能最高提升6.50%;

Tree算法場景下,運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓練集性能最高提升15.81%。

未來,紫金山實驗將與華為在無損數據中心網絡領域就網絡新拓撲、DCN高性能互聯等方向展開持續的聯合創新,推動無損數據中心網絡在低時延、高吞吐等方向進一步的發展,為高算力提供強有力的底座。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    16

    文章

    5196

    瀏覽量

    73400
  • AI
    AI
    +關注

    關注

    88

    文章

    34917

    瀏覽量

    278078
  • 網絡通信
    +關注

    關注

    4

    文章

    825

    瀏覽量

    30880

原文標題:2022中國算力大會 | 基于無損數據中心的AI訓練網絡均衡技術實踐

文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    智能路徑調度:AI驅動負載均衡的異常路徑治理實踐

    AI驅動的數據中心網絡環境中,傳統的“盡力而為”和“無差別均分”負載均衡策略已力不從心。基于路徑綜合質量的動態WCMP機制,通過實時感知路徑狀態、果斷剔除異常、智能調度“健康”資源,
    的頭像 發表于 07-03 16:26 ?393次閱讀
    智能路徑調度:<b class='flag-5'>AI</b>驅動負載<b class='flag-5'>均衡</b>的異常路徑治理<b class='flag-5'>實踐</b>

    中型數據中心中的差分晶體振蕩器應用與匹配方案

    同步模塊等。 2. 高校/科研機構智能計算中心 應用背景: 服務于AI訓練、大數據建模與圖像處理的科研計算平臺,要求高速網絡與大容量
    發表于 07-01 16:33

    數據中心和通信網絡有什么區別

    數據中心和通信網絡在功能定位、技術架構、應用場景等方面存在顯著區別,以下是詳細對比: 一、功能定位 數據中心 核心功能:作為存儲、處理和管理海量數據
    的頭像 發表于 06-12 09:57 ?178次閱讀
    <b class='flag-5'>數據中心</b>和通信<b class='flag-5'>網絡</b>有什么區別

    華為面向亞太地區發布全新星河AI數據中心網絡方案

    在華為數據通信創新峰會2025亞太站期間,以“星河AI數據中心網絡,賦AI時代新動能”為主題的分論壇上,華為面向亞太地區發布全新升級的星河
    的頭像 發表于 06-11 11:11 ?486次閱讀

    華為面向中東中亞地區發布全新星河AI數據中心網絡

    近日,在華為數據通信創新峰會2025中東中亞站期間,以“星河AI數據中心網絡,賦AI時代新動能”為主題的分論壇上,華為面向中東中亞地區發布全
    的頭像 發表于 05-21 15:49 ?286次閱讀

    是德科技推出AI數據中心構建器以驗證和優化網絡架構和主機設計

    : KEYS )推出Keysight AI (KAI)數據中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協議對AI訓練性能的影響。KAI
    的頭像 發表于 04-10 08:50 ?263次閱讀

    是德科技推出AI數據中心構建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)數據中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協議對AI訓練性能的影響。KAI
    的頭像 發表于 04-07 11:06 ?480次閱讀

    適用于數據中心AI時代的800G網絡

    隨著人工智能(AI技術的迅猛發展,數據中心面臨著前所未有的計算和網絡壓力。從大語言模型(LLM)訓練到生成式
    發表于 03-25 17:35

    華為攜手中控技術打造全國數據中心網絡創新示范項目

    華為中國合作伙伴大會2025期間,華為與中控技術股份有限公司(以下簡稱“中控技術”)聯合發布星河AI數據中心網絡優秀
    的頭像 發表于 03-24 14:51 ?489次閱讀

    華為全新升級星河AI數據中心網絡

    在華為中國合作伙伴大會2025期間,以 “星河AI數據中心網絡,賦AI時代新動能”為主題的數據中心網絡
    的頭像 發表于 03-24 14:46 ?446次閱讀

    優化800G數據中心:高速線纜、有源光纜和光纖跳線解決方案

    隨著技術的飛速發展,數據中心正在從100G和400G演進到800G時代,對高速數據傳輸的需求與日俱增。因此,選擇高效且可靠的布線解決方案對于800G數據中心至關重要。本文將深入探討80
    發表于 03-24 14:20

    Cadence顛覆AI數據中心設計

    ,當今新型數據中心AI 工廠)的建設正面臨著如何處理其巨大的功耗和散熱問題的嚴峻挑戰,數字孿生技術在這場變革中扮演著至關重要的角色。
    的頭像 發表于 03-21 15:43 ?425次閱讀

    NIDA發布《智算數據中心網絡建設技術要求》

    Alliance,以下簡稱 “NIDA”)攜手中國信息通信研究院等9家組織成員共同發布了《智算數據中心網絡建設技術要求》(以下簡稱 “技術要求”)。該
    的頭像 發表于 12-04 11:13 ?826次閱讀

    Meta AI數據中心網絡用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創新。在當今世界,越來越多的數據中心基礎設施致力于支持新興的AI技術,開放硬件在協助分解方面發揮著重要作用。通過將傳統數據中心
    的頭像 發表于 11-25 10:05 ?1366次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數據中心</b><b class='flag-5'>網絡</b>用了哪家的芯片

    簡述數據中心網絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數據中心作為AI計算的重要基礎設施,其網絡架構與連接技術的發展變得尤為關鍵。
    的頭像 發表于 10-22 16:23 ?797次閱讀
    主站蜘蛛池模板: 天天插天天爽 | 色视频在线播放 | 欧美成人a | 欧美成年性色mmm | 四虎黄色网址 | 躁天天躁中文字幕在线 | 亚洲日本中文字幕天天更新 | 国产毛片农村妇女系列 | 天堂中文在线观看 | 色综合天天综合网站中国 | 伊人小婷婷色香综合缴缴情 | 久久深夜福利 | 激情五月激情综合色区 | 在线播放 你懂的 | www视频在线观看天堂 | 亚洲三级在线看 | 久久综合中文字幕 | 日本三级香港三级人妇网站 | 日本bt| 天天爱天天干天天 | 国产成人毛片亚洲精品不卡 | 激情春色网 | 日本三级香港三级人妇 m | 亚洲成人黄色 | 久久天天躁夜夜躁狠狠躁2015 | 色噜噜狠狠成人影院 | 日本高清一区二区三区不卡免费 | 国产高清色视频免费看的网址 | 1024国产看片在线观看 | 天天插天天 | 一区二区不卡视频 | 亚洲综合色一区 | 中文字幕一区二区三区四区五区人 | 99久久亚洲国产高清观看 | 男女一级大黄 | 亚洲成av人片在线观看无码 | 中国特黄毛片 | 免费观看在线永久免费xx视频 | 四虎最新紧急更新地址 | 亚洲天堂社区 | 99久久亚洲国产高清观看 |