在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

浪潮信息積極構建面向生成式AI的綠色開放加速智算平臺

浪潮AIHPC ? 來源:浪潮AIHPC ? 2023-09-20 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當前,“百模大戰”帶來了算力需求的爆發,AI芯片產業也迎來巨大機遇,“創新架構+開源生態”正在激發多元AI算力產品百花齊放。面對新的產業機會,AI算力產業鏈亟需通過上下游協作共同把握機遇。

日前,在開放計算中國峰會OCP China Day 2023上,浪潮信息AI&HPC產品線高級產品經理Stephen Zhang就《開放加速規范AI服務器設計指南》進行了專題報告演講,分享了AIGC時代的算力需求趨勢與開放加速計算發展之道。他指出,從系統層面進行產業鏈協同創新成為后摩爾定律時代破解AIGC算力挑戰的必經之路。當前,開放加速計算生態已經在此方面取得了豐富有益的成果,多元的AI算力產品正在加速落地,促進AI算力產業蓬勃發展。

大模型時代的算力需求及趨勢

自ChatGPT發布以來,大家可以明顯地感受到全社會對于生成式人工智能技術的廣泛關注,ChatGPT出圈之后帶來了更多參與者,模型的數量和模型參數量不斷激增。據不完全統計,我們國家的大模型數量已經超過110個,這就帶來了對于AI算力需求的劇增。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png針對大模型發展帶來的嚴峻算力挑戰,我們進行了大量的需求分析和趨勢判斷。從AI服務器算力及功耗隨時間變化的趨勢來看,要解決大模型的算力短缺問題,最直接的方式是提高單機的算力。從2016年到現在,AI服務器單機算力增長近100倍,功耗從4千瓦增長到12千瓦,下一代AI服務器的功耗繼續增長到18千瓦乃至20千瓦以上。AI服務器的系統架構供電、散熱方式,以及數據中心基礎設施建設模式,將難以滿足未來高功耗AI服務器的部署需求。

其次,大模型參數量增長對GPU數量的需求也隨之增加,需要更大的顯存容量承載。2021年,一個千億規模的大模型需要3,000 GB顯存容量空間承載,換算過來需要將近40張80G的GPU才能放得下這個模型,包括權重參數、梯度數據、優化值數據和激活值數據。今天,很多大模型的參數量已經超過了萬億規模,顯存容量將會達到30,000GB,需要將近400塊80G顯存的GPU才能承載,這意味著需要更大規模的算力平臺才能進行如此規模大模型的訓練。

更大規模的平臺會帶來另外一個問題,即卡與卡之間、不同的節點之間的更多通信,大模型的訓練需要融合多種并行策略,對卡間P2P互聯帶寬以及跨節點互聯帶寬提出了更高的要求。

以2457億參數的“源1.0”大模型訓練的工程實踐為例,“源1.0”訓練共有1800億Token,顯存容量需求7.4TB,訓練過程中融合了張量并行、流水線并行、數據并行三種策略。單節點張量并行通信頻次達到每秒82.4次,節點內通信帶寬最低需求達到194GB/s。計算節點內會開展流水線并行,跨節點通信帶寬達到26.8GB/s,至少需要300Gbps通信帶寬才能滿足流水線并行訓練的帶寬需求。在訓練“源1.0”過程中,實際用到兩張200Gbps網卡進行跨節點通信,數據并行通信頻次低但數據量大,帶寬需求至少要達到8.8GB/s,單機400Gbps的帶寬可以滿足。

隨著模型參數量進一步增加以及GPU算力的成倍增加,未來需要更高的互聯帶寬才能滿足更大規模模型的訓練需求。

開放加速計算 為超大規模深度神經網絡而生

面向AIGC大模型訓練的計算系統需要具備三個主要特征,一是大算力,二是高互聯,三是強擴展,傳統的PCIe CEM形態的加速卡很難滿足三個特征需求,因此越來越多的芯片廠商都開發了非PCIe形態的加速卡。

開放計算組織OCP在2019年發布了專門面向大模型訓練的加速計算系統架構,核心是UBB和OAM標準,特點是大算力。Mezz扣卡形態的加速器具備更高的散熱和互聯能力,可以承載具有更高算力的芯片。同時,它有非常強的跨節點擴展能力,可以很輕易地擴展到千卡、萬卡級的平臺,支撐大模型的訓練。這個架構是天然適用于超大規模深度神經網絡訓練的計算架構。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png但是,在OAM產業落地過程中,很多廠商所開發的加速卡依然存在硬件接口不統一、互聯協議不統一,同時軟件生態互不兼容,帶來了新型AI加速卡系統適配周期長、定制投入成本高的落地難題,導致算力供給和算力需求之間的剪刀差不斷加大,行業亟需更加開放的算力平臺,以及更加多元的算力支撐大模型的訓練。

對此,浪潮信息開展了大量工作,包括技術上的預研和對產業生態的貢獻。2019年開始,浪潮信息牽頭主導了OAM標準的制定,發布了首款開放加速基板UBB,同時開發了全球首款開放加速參考系統MX1,并協同業界領先的芯片廠商一起完成了OAM形態加速卡的適配,證明了這條技術路線的可行性。為了推動符合OAM開放加速規范的系統產業化落地,浪潮信息開發了第一款“ALL IN ONE” OAM服務器產品,把CPU和OAM加速卡集成到一臺19英寸機箱中,實現數據中心級的快速部署,并在眾多客戶的智算中心落地應用。

此后,OAM 芯片的算力和功耗在不斷提升,同時數據中心對于綠色節能的要求也越來越高。對此,我們開發了第一款液冷OAM服務器,可以實現8顆OAM加速器和兩顆高功耗的CPU的液冷散熱,整個液冷散熱覆蓋率超過90%,基于這款產品構建的液冷OAM智算中心解決方案,千卡平臺穩定運行狀態下PUE值小于1.1。而浪潮信息剛剛發布的新一代的OAM服務器NF5698G7,基于全PCIe Gen5鏈路,H2D互聯能力提升4倍,為新一代OAM研發提供了更加先進的部署平臺。

通過平臺架構設計和算力算法協同設計解決能耗問題

僅僅提供算力平臺是不夠的,目前數據中心面臨著巨大的能耗挑戰,尤其是面向大模型訓練的AI服務器,單機功耗輕易超過6-7千瓦。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png一個公式可以快速計算訓練一個大模型所需要的整體耗電量(E):分子用6倍模型參數量和訓練過程中所用到的Token數量表征大模型訓練所需要的算力當量,分母用加速卡的數量還有單張加速卡的算力性能表征智算基礎設施所能夠提供的整體算力性能,二者相除的結果代表的是訓練大模型所需要的時間,乘以Ecluster指標(大模型訓練平臺每日耗電量)即可得到整體耗電量。那么,在選定模型并且有確定卡數和規模的情況下,只有通過優化單卡算力值,或者降低單個平臺的耗電量,才能優化大模型訓練所需的整體耗電量。

針對這兩個參數的優化,我們對不同大模型訓練平臺網絡架構設計下,平臺功耗和相應的大模型訓練整體功耗進行了對比研究。以單機2張網卡(NIC)組網方案和單機8張網卡(NIC)組網方案為例,雖然不同網卡數量帶來的單機功耗影響并不顯著,然而放到整個計算平臺層面,網卡數量增加導致交換機數量增加,總功耗會有顯著差異,8網卡方案總功耗可達2000多千瓦,2網卡方案只有1600多千瓦,2張網卡方案可以節省功耗18%。

因此,面向實際應用需求,通過精細化地計算大模型訓練所需要的網絡帶寬,可以在不影響性能的前提下,顯著地優化總功耗。“源”大模型訓練過程當中,僅僅使用了兩張200G的IB卡就完成2457億參數模型的訓練,這是我們發現的第一個優化訓練平臺總功耗的技術路徑。

第二,提高單卡算力利用率以實現提效節能,也是非常重要的一個命題。經我們測試,采用算法和算力架構協同設計的方法,基于算力基礎設施的技術特點,深度優化模型的參數結構和訓練策略,可以用更短的時間完成同等規模模型的訓練。以GPT-3模型的訓練為例,模型訓練時間可以從15天優化為12天,總耗電量節省達到33%。

以上兩點可以說明,應用導向的架構設計,以及算力和算法的協同設計,能夠實現更高效的大模型訓練,最終加速節能降碳目標的實現。

綠色開放加速平臺,賦力大模型高效釋放算力

基于上述在開放計算、高效計算的技術、產品和方法的創新和研究,浪潮信息正在積極構建面向生成式AI的綠色開放加速智算平臺。

去年協同合作伙伴發布的液冷開放加速智算中心解決方案,首先具有非常高的算力性能;其次,可以實現千芯級大規模擴展,支撐超千億規模模型訓練;同時,先進液冷技術使整個平臺的PUE大幅優化。

同時,浪潮信息也在積極構建全棧開放加速智算能力,除了提供底層的AI計算平臺,上層有AI資源平臺,能夠在資源管理層通過統一接口實現對于30余種多元算力芯片的統一的調度和管理。再往上是AI算法平臺,提供開源的深度學習算法框架、大模型以及開放的數據集。在此之上是算力服務,包括算力、模型數據、交付、運維等多種服務模式。最上層是擁有4000多家合作伙伴的元腦生態,浪潮信息和生態合作伙伴共同開展開放加速計算方案的設計,并成功地推向產業落地。

基于開放加速規范的AI計算平臺目前已經適配20多種業界主流的大模型,包括大家非常熟悉的GPT系列、LLaMA、Chat GLM、“源”,同時還支持多類擴散模型適配。

“助百芯,智千模” 加速多元算力落地

在AIGC技術和產業快速發展過程中,雖然業界已經制定了開放加速計算相關規范,但產業落地還存在一些問題。比如,開放計算系統定制化程度高,規范覆蓋的領域不足,包括多元算力芯片的系統適配、管理和調度,以及深度學習環境的部署等等。

在OAM規范基礎上,日前《開放加速規范AI服務器設計指南》發布,基于當前AIGC產業背景下客戶的痛點,定義了開放加速服務器設計的原則,包括應用導向、多元開放、綠色高效、統籌設計。同時對服務器設計方法進行深化和細化,包括從節點層到平臺層的多維協同設計方案。方案充分考量適配和研發過程中遇到的問題,進一步細化了節點到平臺的設計參數,最終目的是提高多元算力芯片的開發和適配、部署效率。

由于面向AIGC訓練的服務器具有非常多的高功耗芯片以及高互聯帶寬設計,穩定性問題嚴峻,需要更加全面的測試保證系統穩定性,減少斷點的發生和對大模型訓練效率的影響。因此,《指南》提供了從結構、散熱、壓力、穩定性、軟件兼容性等全面系統的測試指導。

最后,多元算力要推向產業應用,最關鍵的是性能,包括芯片性能、互聯性能、模型性能以及虛擬化性能。《指南》基于前期積累的Benchmark調優經驗,提出了性能測評和調優標準及方法,幫助合作伙伴更快、更好地將他們最新的芯片產品推向應用落地,提高算力的可用性。最終目標是推動整個AI算力產業的創新和發展,協同產業鏈上下游合作伙伴推動整個開放加速生態,共同應對AIGC時代的算力挑戰。

審核編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52355

    瀏覽量

    438743
  • 服務器
    +關注

    關注

    13

    文章

    9753

    瀏覽量

    87575
  • 浪潮
    +關注

    關注

    1

    文章

    475

    瀏覽量

    24605
  • AI
    AI
    +關注

    關注

    88

    文章

    34781

    瀏覽量

    277142
  • 大模型
    +關注

    關注

    2

    文章

    3086

    瀏覽量

    3972

原文標題:開放加速規范AI服務器 解決大模型時代的多元AI算力挑戰

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    飛利信與浪潮信息達成戰略合作

    近日,2025年浪潮信息北京ISP戰略伙伴簽約授牌儀式成功舉辦。浪潮信息與北京飛利信電子技術有限公司等22家戰略合作伙伴達成簽約,其中將面向北京人工智能應用大市場,在產品技術共創、行業場景深化及區域
    的頭像 發表于 06-24 17:37 ?410次閱讀

    筑基"AI+人才"培養,浪潮信息攜手元腦伙伴拓爾思推出智慧教育新平臺

    北京2025年3月22日?/美通社/ -- 近期,元腦生態伙伴拓爾思信息技術股份有限公司(以下簡稱:拓爾思)攜手浪潮信息,聯合為高校AI人才培養推出"AI創新培養綜合服務
    的頭像 發表于 03-27 16:56 ?306次閱讀
    筑基&quot;<b class='flag-5'>AI</b>+人才&quot;培養,<b class='flag-5'>浪潮信息</b>攜手元腦伙伴拓爾思推出智慧教育新<b class='flag-5'>平臺</b>

    浪潮信息與智源研究院攜手共建大模型多元力生態

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰略合作協議,雙方將緊密合作,共同構建大模型多元力開源創新生態。 此次合作旨在提升大模型創新研發的力效率,降低大模型應用開發的
    的頭像 發表于 12-31 11:49 ?572次閱讀

    浪潮信息與智源研究院達成戰略合作協議

    正式接入浪潮信息的元腦企智EPAI企業大模型開發平臺,助力企業實現更快速、更廣泛、更高效的多元力適配與使用。
    的頭像 發表于 12-26 10:25 ?547次閱讀

    借助浪潮信息元腦企智EPAI高效創建大模型RAG

    能力,提高生成質量和可靠性。但企業構建知識檢索系統并非易事,通常面臨開發門檻高、生成內容差等難題。而借助浪潮信息元腦企智EPAI企業大模型開發平臺
    的頭像 發表于 12-19 14:32 ?693次閱讀
    借助<b class='flag-5'>浪潮信息</b>元腦企智EPAI高效創建大模型RAG

    浪潮信息AI存儲性能測試的領先之道

    MLCommons,一個致力于推動全球 AI系統發展的頂級工程聯盟,匯聚了包括谷歌、斯坦福大學在內的眾多頂尖企業和研究機構。作為該聯盟的創始成員之一,浪潮信息自2020年起便積極參與其中,共同探索
    的頭像 發表于 10-29 16:30 ?620次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>AI</b>存儲性能測試的領先之道

    浪潮信息:元腦企智EPAI助力金融大模型快速落地

    浪潮信息AI力底座建設、大模型開發領域積累的成熟、成功經驗工具化,助力金融機構又快、又穩地部署生成
    的頭像 發表于 09-20 16:07 ?671次閱讀
    <b class='flag-5'>浪潮信息</b>:元腦企智EPAI助力金融大模型快速落地

    浪潮信息趙帥:開放計算創新 應對Scaling Law挑戰

    Scaling Law帶來的AI基礎設施Scale up和Scale out的挑戰,數據中心需要以開放創新加速算力系統、管理和基礎設施的全向Scale進程,推動AI產業的創新發展。 ?
    的頭像 發表于 08-15 16:02 ?488次閱讀
    <b class='flag-5'>浪潮信息</b>趙帥:<b class='flag-5'>開放</b>計算創新 應對Scaling Law挑戰

    IBM助力圖靈新智構建全能AI平臺

    和watsonx.governance,以及 IBM 企業級 AI 數字助理軟件 watsonx Assistant 和 AI 文檔理解與分析軟件 Watson Discovery, 構建全能的
    的頭像 發表于 08-02 14:53 ?1014次閱讀

    浪潮信息與能投天府云合作打造42kW智風冷力倉

    在數字化轉型浪潮的推動下,力作為新型生產力,正以前所未有的速度重塑著各行各業的發展格局。近日,四川省天府云數據科技有限責任公司(以下簡稱“能投天府云”)攜手浪潮信息,共同推出了國內首款具有里程碑
    的頭像 發表于 07-17 15:23 ?941次閱讀

    浪潮信息攜手天府云數據科技推出了42kW智風冷力倉

    在當今數字化轉型的浪潮中,力作為推動數字經濟高質量發展的核心引擎,正以前所未有的速度進化。近日,浪潮信息與四川省天府云數據科技有限責任公司攜手,在國內率先推出了42kW智風冷
    的頭像 發表于 07-15 16:18 ?892次閱讀

    浪潮信息攜全棧智產品和方案亮相WAIC 2024

    7月4日,2024世界人工智能大會(WAIC2024)在上海開幕。大會聚焦大模型、力、機器人、自動駕駛等重點領域,吸引眾多國內外知名人工智能企業參會。作為全球領先的IT基礎設施供應商,浪潮信息參加
    的頭像 發表于 07-05 18:04 ?1832次閱讀

    浪潮信息引領數據編排新紀元,加速釋放數據潛能

    在2024年數據基礎設施技術峰會的璀璨舞臺上,浪潮信息分布存儲產品線架構師Lance Sun博士以其深厚的行業洞察與前瞻視角,發表了題為“高效數據編排,加速釋放數據潛能”的精彩演講,深刻剖析了當前數據時代,尤其是AIGC(人工
    的頭像 發表于 07-03 15:30 ?667次閱讀

    浪潮信息推出AIGC存儲解決方案

    近日,在科技創新的浪潮中,浪潮信息成功舉辦了“元腦中國行”全國巡展的杭州站活動,此次盛會不僅匯聚了業界的精英與目光,更見證了浪潮信息在AIGC(人工智能生成內容)領域的一次重大突破。會
    的頭像 發表于 07-03 11:16 ?1108次閱讀

    浪潮信息推出基于新一代分布存儲平臺AS13000G7的AIGC存儲解決方案

    6月28日,浪潮信息“元腦中國行”全國巡展杭州站順利舉行。會上,浪潮信息重磅推出基于新一代分布存儲平臺AS13000G7的AIGC存儲解決方案。通過加持EPAI/AIStation的
    的頭像 發表于 07-01 19:00 ?2007次閱讀
    <b class='flag-5'>浪潮信息</b>推出基于新一代分布<b class='flag-5'>式</b>存儲<b class='flag-5'>平臺</b>AS13000G7的AIGC存儲解決方案
    主站蜘蛛池模板: 国产午夜视频在线观看 | 亚洲免费观看在线视频 | 99在线国产 | 国产小视频在线免费观看 | 成人免费观看一区二区 | jinv在线视频 | 免费公开视频人人人人人人人 | 天堂最新版在线www在线 | 色综合久久丁香婷婷 | 成人午夜网站 | 一区二区三区亚洲 | 在线五月婷婷 | 婷五月综合 | 成年人www | 在线免费观看视频你懂的 | 黄色网欧美 | 美女张开腿让男人桶爽 | 情趣店上班h系列小说 | 最近在线视频免费观看2019 | 91网站在线看 | 国产小视频免费 | 亚洲人成电影院在线观看 | 一级片一级片一级片 | 狠狠色丁香久久综合五月 | 成人黄色一级片 | 久久久免费精品 | 特黄一级 | 国产在线播放你懂的 | 免费观看a毛片一区二区不卡 | 欧美成人性高清观看 | 色在线视频网站 | 高清午夜线观看免费 | 欧洲国产精品精华液 | 免费一级毛片清高播放 | 久精品在线观看 | 人人干人人爽 | 天天操天天干天天操 | 欧美黄色免费网址 | 一级做a爰片久久毛片毛片 一级做a爰片久久毛片美女图片 | bt天堂资源| 色综合久久网女同蕾丝边 |