在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Yuan2.0千億大模型在通用服務器NF8260G7上的推理部署

浪潮AIHPC ? 來源:浪潮AIHPC ? 2024-07-30 14:26 ? 次閱讀

巨量模型的智能生產力正在逐步滲透到各行各業,但它們的部署和運行通常需要專用的AI加速卡,能否在CPU上運行千億大模型,對千行百業智能化轉型的深化與普惠至關重要。

日前,浪潮信息研發工程師基于2U4路旗艦通用服務器NF8260G7,通過張量并行、模型壓縮量化等技術,解決了通用服務器的CPU計算資源不足、內存帶寬瓶頸、缺乏大規模并行計算環境等問題,在業內首次實現服務器僅依靠4顆CPU即可運行千億參數“源2.0”大模型。該方案建設成本更低,首次投入可節約80%以上建設成本,且通用服務器功耗更低,運維更便捷,能夠有效降低客戶TCO

大模型推理的硬件需求:內存與帶寬的雙重考驗

當前,大模型的推理計算面臨多方面的挑戰,制約了大模型服務成本的降低和應用落地。

首先是對內存容量的需求。大模型的推理過程中,需要將全部的模型權重參數、計算過程中的KV Cache等數據存放在內存中,一般需要占用相當于模型參數量2-3倍的內存空間。隨著業界LLM的網絡架構從GPT架構走向MOE架構,主流開源模型的尺寸越來越大,千億及以上參數的模型已經成為主流,運行一個千億大模型(100B),則需要200-300GB的顯存空間。

其次是對計算和內存讀寫帶寬的需求。大模型的推理主要分為預填充和解碼兩個階段。預填充階段把Prompt一次性輸入給模型進行計算,對顯存的需求更大;解碼階段,每次推理僅生成1個token,計算訪存較低,對內存帶寬的需求更大。因此,千億大模型的實時推理,計算設備需要具備較高的計算能力,以及較高的存儲單元到計算單元的數據搬運效率。

NF8260G7作為一款采用高密度設計的2U4路服務器,支持16TB大內存容量,配置了4顆具有AMX(高級矩陣擴展)的AI加速功能的英特爾至強處理器,內存帶寬極限值為1200GB/s。盡管NF8260G7服務器可以輕松滿足千億大模型推理的內存需求,甚至于萬億參數的MOE架構大模型推理的內存需求。但是,按照BF16的精度計算,千億參數大模型運行時延要小于100ms,內存與計算單元之間的通信帶寬至少要在2TB/s以上。因此,要在NF8260G7上實現千億大模型的高效運行,僅靠硬件升級還遠遠不夠,硬件資源與軟件算法協同優化至關重要。

a278d444-4e23-11ef-b8af-92fbcf53809c.png張量并行+NF4量化,實現千億模型極致優化

Yuan2.0-102B是浪潮信息發布的新一代基礎語言大模型,參數量為1026億,通過提出全新的局部注意力過濾增強機制(LFA:Localized Filtering-based Attention),有效提升了自然語言的關聯語義理解能力。

a2872c60-4e23-11ef-b8af-92fbcf53809c.png

為了盡可能提升Yuan2.0-102B模型在NF8260G7服務器上的推理計算效率,浪潮信息算法工程師采用了張量并行(tensor parallel)策略。該策略改變了傳統CPU服務器串行運行的模式,把Yuan2.0-102B模型中的注意力層和前饋層的矩陣計算分別拆分到多個處理器,實現同時使用4顆CPU進行計算加速。然而,張量并行對模型參數的切分粒度較細,要求CPU在每次張量計算后進行數據同步,增加了對CPU間通信帶寬的需求。在傳統的使用多個基于PCIe互聯的AI芯片進行張量并行時,通信占比往往會高達50%,也就是AI芯片有50%的時間都在等待數據傳輸,極大影響了推理效率。

NF8260G7服務器的4顆CPU通過全鏈路UPI(Ultra Path Interconnect)總線互連,該設計帶來了兩個優勢:首先,全鏈路UPI互連允許任意兩個CPU之間直接進行數據傳輸,減少了通信延遲;其次,全鏈路UPI互連提供了高傳輸速率,高達16GT/s(Giga Transfers per second),遠高于PCIe的通信帶寬,保障了4顆處理器間高效的數據傳輸,從而支持張量并行策略下的數據同步需求。

a2a59240-4e23-11ef-b8af-92fbcf53809c.png

UPI總線互連示意圖

為了進一步提升Yuan2.0-102B模型在NF8260G7服務器上的推理效率,浪潮信息算法工程師還采用了NF4量化技術,來進一步提升推理的解碼效率,從而達到實時推理的解碼需求。NF4(4位NormalFloat)是一種分位數量化方法,適合于正態分布的數據。它通過確保量化區間內輸入張量的值數量相等,來實現對數據的最優量化。由于大型語言模型(LLM)的權重通常呈現零中心的正態分布,NF4量化技術可以通過調整標準差來適配量化數據類型的范圍,從而獲得比傳統的4位整數或4位浮點數量化(這些量化方法的數據間隔通常是平均分布或指數分布的)更高的精度。

a2bfbfee-4e23-11ef-b8af-92fbcf53809c.jpg

INT4數據類型與NF4數據類型對比

為了進一步壓縮Yuan2.0-102B模型的權重參數,浪潮信息算法工程師采用了嵌套量化(Double Quant)技術,這是在NF4量化基礎上進行的二次量化。NF4量化后,由于會產生大量的scale參數,如果使用32位浮點數(FP32)存儲,會占用大量的內存空間。若以64個參數作為一個量化塊(block size=64)來計算,對于一個千億參數的大模型,僅存儲scale參數就需要額外的6GB內存:

(100B/64) * 4 = 6GB

為了減少內存占用,浪潮信息工程師通過將這些scale參數量化到8位浮點數(FP8),可以顯著減少所需的存儲空間。在采用256為量化塊大小(block size=256)的情況下,存儲所有scale參數所需的額外空間僅為1.57GB:

(100B/64/256)* 4 + (100B/64) * 1 = 1.57GB

通過嵌套量化,模型的每個權重參數最終僅占用4字節的內存空間,這比原始的FP32存儲方式減少了大量的內存占用,從內存到CPU的數據搬運效率提高了4倍。這樣的優化顯著減輕了內存帶寬對Yuan2.0-102B模型推理解碼效率的限制,從而進一步提升了模型的推理性能。

高算效,低成本

通過在NF8260G7服務器上應用張量并行和NF4量化技術,浪潮信息工程師成功實現了千億大模型Yuan2.0-102B的實時推理,根據性能分析(profiling)的結果,可以清晰地看到模型中不同部分的計算時間分布:線性層運行時間占比50%,卷積運行時間占比20%,聚合通信時間占比20%,其它計算占比10%。在整個推理過程中,計算時間占比達到了80%,和此前相比,計算時間占比提升30%,大幅提升了算力利用率。

a278d444-4e23-11ef-b8af-92fbcf53809c.png

a2e7796c-4e23-11ef-b8af-92fbcf53809c.png

Yuan2.0-102B模型推理性能分析(profiling)結果圖

浪潮信息基于通用服務器NF8260G7的軟硬件協同創新,為千億參數AI大模型在通用服務器的推理部署,提供了性能更強,成本更經濟的選擇,讓AI大模型應用可以與云、大數據、數據庫等應用能夠實現更緊密的融合,從而充分釋放人工智能在千行百業中的創新活力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10995

    瀏覽量

    214844
  • 服務器
    +關注

    關注

    12

    文章

    9554

    瀏覽量

    86839
  • 浪潮
    +關注

    關注

    1

    文章

    474

    瀏覽量

    24279
  • 大模型
    +關注

    關注

    2

    文章

    2891

    瀏覽量

    3620

原文標題:服務器僅靠4顆CPU運行千億大模型的“算法秘籍”

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OPC服務器開發淺談 — 服務器模型

    這里主要討論的是OPC Data Access 2.0服務器的開發,掌握了這個最常用的OPC服務器開發之后,對其它類型的OPC服務器,如A
    發表于 07-02 08:29

    用tflite接口調用tensorflow模型進行推理

    摘要本文為系列博客tensorflow模型部署系列的一部分,用于實現通用模型部署。本文主要實現用tflite接口調用tensorflow
    發表于 12-22 06:51

    通過Cortex來非常方便的部署PyTorch模型

    產中使用 PyTorch 意味著什么?根據生產環境的不同,在生產環境中運行機器學習可能意味著不同的事情。一般來說,在生產中有兩類機器學習的設計模式:通過推理服務器提供一個預測 API 。這是
    發表于 11-01 15:25

    浪潮AI服務器NF5488A5的實測數據分享,單機最大推理路數提升88%

    近日,GTC China元腦生態技術論壇,中科極限元、趨動科技、睿沿科技等元腦生態伙伴分享了多個場景下浪潮AI服務器NF5488A5的實測數據,結果表明浪潮
    的頭像 發表于 12-24 15:25 ?2668次閱讀
    浪潮AI<b class='flag-5'>服務器</b><b class='flag-5'>NF</b>5488A5的實測數據分享,單機最大<b class='flag-5'>推理</b>路數提升88%

    使用MIG和Kubernetes部署Triton推理服務器

      NVIDIA Triton 推理服務器是一款開源人工智能模型服務軟件,可簡化在生產中大規模部署經過培訓的人工智能
    的頭像 發表于 04-07 09:54 ?3563次閱讀

    騰訊云TI平臺利用NVIDIA Triton推理服務器構造不同AI應用場景需求

    騰訊云 TI 平臺 TI-ONE 利用 NVIDIA Triton 推理服務器構造高性能推理服務部署平臺,使用戶能夠非常便捷地部署包括 TN
    的頭像 發表于 09-05 15:33 ?2203次閱讀

    如何使用NVIDIA Triton 推理服務器來運行推理管道

    使用集成模型 NVIDIA Triton 推理服務器為 ML 模型管道提供
    的頭像 發表于 07-05 16:30 ?1584次閱讀
    如何使用NVIDIA Triton <b class='flag-5'>推理</b><b class='flag-5'>服務器</b>來運行<b class='flag-5'>推理</b>管道

    浪潮信息聯合英特爾發布新一代AI服務器NF5698G7

    浪潮信息聯合英特爾發布面向生成式AI領域創新開發的新一代AI服務器NF5698G7。該AI服務器支持8顆OAM高速互聯的Gaudi2加速,具備高性能、高擴展、高能效和開放生態等優點,
    的頭像 發表于 07-13 09:43 ?906次閱讀

    浪潮信息NF5468服務器LLaMA訓練性能

    浪潮信息宣布旗下NF5468系列AI服務器率先支持英偉達最新推出的L40S GPU,可為人工智能大模型訓練和推理、元宇宙及圖形視頻處理等應用提供強大算力。實際測試表明,搭載8顆NVID
    的頭像 發表于 09-22 11:16 ?2587次閱讀

    浪潮信息NF5468系列AI服務器率先支持英偉達最新推出的L40S GPU

    浪潮信息宣布旗下NF5468系列AI服務器率先支持英偉達最新推出的L40S GPU,可為人工智能大模型訓練和推理、元宇宙及圖形視頻處理等應用提供強大算力。實際測試表明,搭載8顆NVID
    的頭像 發表于 09-22 11:20 ?2998次閱讀

    2.0適配FastChat框架,企業快速本地化部署模型對話平臺

    北京2024年2月28日?/美通社/ -- 近日,浪潮信息Yuan2.0模型與FastChat框架完成全面適配,推出"企業快速本地化部署模型對話平臺"方案。該方案主要面向金融、法律
    的頭像 發表于 02-29 09:57 ?1058次閱讀
    源<b class='flag-5'>2.0</b>適配FastChat框架,企業快速本地化<b class='flag-5'>部署</b>大<b class='flag-5'>模型</b>對話平臺

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    近日,摩爾線程智能科技(北京)有限責任公司在其官方渠道發布了一則重要消息,宣布公司已經成功實現了對DeepSeek蒸餾模型推理服務部署。這一技術突破,標志著摩爾線程
    的頭像 發表于 02-06 13:49 ?602次閱讀

    浪潮信息發布元腦R1推理服務器

    近日,浪潮信息正式推出了其創新的元腦R1推理服務器。這款服務器通過系統的創新與軟硬件的協同優化,實現了對DeepSeek R1 671B模型的單機
    的頭像 發表于 02-17 10:32 ?529次閱讀

    昇騰推理服務器+DeepSeek大模型 技術培訓圖為科技成功舉辦

    2月17日,華為政企業務團隊受邀蒞臨圖為科技深圳總部,并成功舉辦了一場聚焦于《昇騰推理服務器+DeepSeek大模型》的專業知識培訓。 此次培訓活動不僅深化了雙方的技術交流,更標志著昇騰AI
    的頭像 發表于 02-26 17:38 ?413次閱讀
    昇騰<b class='flag-5'>推理</b><b class='flag-5'>服務器</b>+DeepSeek大<b class='flag-5'>模型</b> 技術培訓<b class='flag-5'>在</b>圖為科技成功舉辦

    如何在RAKsmart服務器實現企業AI模型部署

    AI模型的訓練與部署需要強大的算力支持、穩定的網絡環境和專業的技術管理。RAKsmart作為全球領先的服務器托管與云計算服務提供商,已成為企業部署
    的頭像 發表于 03-27 09:46 ?166次閱讀
    主站蜘蛛池模板: 一级片在线免费 | 天天操天天干天天射 | 成人网中文字幕色 | 午夜黄色在线观看 | 伊人91在线 | 色成网 | 日本一区二区三区免费看 | 一区二区三区高清 | 亚洲综合色一区二区三区小说 | 国产一区国产二区国产三区 | 99青草| 日本xx69 | 青青热久久国产久精品秒播 | 日韩在线视频免费观看 | www.夜夜操.com | 亚洲欧美一区二区三区四区 | 69日本xxⅹxxxxx19 | 三级免费观看 | q2002韩国理论 | 免费人成网址在线观看国内 | 欧美系列在线观看 | 一区二区三区四区五区 | 久久99精品久久久久久野外 | 狠狠色噜噜狠狠狠狠 | 免费国产综合视频在线看 | 男人午夜免费视频 | 在线www天堂资源网 在线播放 你懂的 | 丁香啪啪天堂激情婷婷 | 欧美性色生活片天天看99 | 日产精品卡二卡三卡四卡乱码视频 | 天堂电影在线 | 亚洲伊人久久网 | 黄网站播放 | 日本a级精品一区二区三区 日本a级特黄三级三级三级 | 综合免费一区二区三区 | 一日本道加勒比高清一二三 | 五月花综合 | 在线亚洲日产一区二区 | 免费精品 | 日本一区免费观看 | 精品亚洲综合在线第一区 |