在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于英特爾至強可擴展處理器的浪潮信息服務器AI訓推一體化方案

英特爾中國 ? 來源:英特爾中國 ? 2024-05-11 09:27 ? 次閱讀

概 述

大模型已經成為新一輪數字化轉型的重要驅動力,為了降低對算力與語料資源的要求,加快大模型在實際應用的部署,目前企業普遍在開源/商用大模型中,加入少量語料對模型進行預訓練,以構建面向具體場景的微調版大模型,并在實際業務中進行模型推理,這種方式在經濟性與靈活性方面通常更具優勢。對于輕量級的人工智能 (AI) 場景而言,找到一個既經濟又靈活的AI微調和推理解決方案顯得尤為重要。

浪潮信息和英特爾緊密合作,結合在硬件和軟件開發方面的技術優勢,推出了基于英特爾至強可擴展處理器的浪潮信息服務器AI訓推一體化方案。該AI訓推一體化方案支持計算機視覺模型的推理工作,同時還支持大語言模型 (LLM) 的微調和推理工作,并可以用于支持其他通用業務。這一方案具備高性能、高性價比、高靈活性等優勢,可以充分滿足用戶構建輕量級AI微調與推理系統的需求。

挑戰

在AI模型尤其是大模型微調及推理過程中,用戶普遍面臨著以下性能挑戰:

如何滿足AI微調及推理對于算力的要求

在AI模型微調和推理過程中,特別是在大語言模型微調中,對算力的需求尤其突出。這既包括硬件提供的算力支持,也包括向量化指令集和矩陣計算指令集的支持。

如何滿足模型微調對于內存規模的需求

在模型訓練和微調中,需要存儲中間激活值、梯度信息,以及用于優化器(如Adam、AdamW等)參數更新的信息,這就需要龐大的內存作為支撐。模型微調實踐表明,Batch size設定不能太小(通常需要大于16),避免Batch size過小造成不穩定的優化器梯度下降。同時,訓練過程中會產生大量的中間激活值,所需的內存遠遠超過模型本身的大小。但是,傳統訓練方案(雙路服務器,一機兩卡/一機四卡/一機八卡)由于顯存數量有限,難以滿足模型微調的顯存需求。

如何提供充足的內存帶寬

AI推理任務對內存帶寬有著高度需求,因此,AI訓推服務器需要提供足夠大的內存帶寬與內存訪問速度,傳統的雙路服務器在內存帶寬與訪問速度方面難以支撐模型的高效推理。

如何實現便捷擴展

為了提升服務器的算力、內存規模和帶寬,模型訓練和推理通常需要將多個 CPU socket高效鏈接起來。而采用以太網作為連接方式將面臨速度慢、不穩定、多顆CPU socket的擴展性能差等問題。 除了性能挑戰之外,用戶還希望能夠盡可能地降低模型微調、推理平臺的構建與運營成本,提升平臺的靈活性,從而進一步推動AI任務的普及和發展。

基于英特至強可擴展處理器的浪潮信息服務器AI訓推一體化方案

浪潮信息服務器AI訓推一體化方案的硬件基礎是基于第四代英特爾至強可擴展處理器的浪潮信息四路服務器。該服務器能夠充分發揮第四代英特爾至強可擴展處理器強大的計算性能,并借助英特爾高級矩陣擴展(英特爾AMX)和 IntelExtension for PyTorch (IPEX) 進一步加速大模型微調和推理任務,幫助用戶攻克AI應用中的各項挑戰。

5f0c915a-0ed6-11ef-a297-92fbcf53809c.png

1. 浪潮信息服務器AI訓推一體化方案架構

浪潮信息四路服務器

為了支持在單臺浪潮信息四路服務器上,實現復雜的計算機視覺模型和大語言模型的微調及推理任務,浪潮信息服務器AI訓推一體化方案推薦采用英特爾至強金牌處理器或以上的型號。這不僅可以為高負荷情況下的任務提供額外的性能提升,還能支持在多線程處理能力上取得優秀表現。 該方案推薦搭配DDR5內存。DDR5內存提供了比前代更高的帶寬,特別適合處理內存密集型的應用任務。當處理大規模數據和復雜的計算任務時,DDR5能確保系統運行的流暢性。同時,方案建議按照每個內存通道1個DIMM (1DPC) 的配置,將內存擴展至2TB以上,以滿足同時對高帶寬和高內存容量的需求。這一配置不僅可以優化系統的運行效率,還能在處理大型數據集時,提供足夠的內存支持,從而確保微調任務以及推理任務的順暢執行。

5f25369c-0ed6-11ef-a297-92fbcf53809c.png

2-1. NF8260M7(2U4路)服務器

5f3eee98-0ed6-11ef-a297-92fbcf53809c.png

2-2. NF8480M7(4U4路)服務器

四代英特爾至強擴展處理器提供強大AI算力支持

第四代英特爾至強可擴展處理器通過創新架構增加了每個時鐘周期的指令,每個插槽多達60個核心,支持8通道DDR5內存,有效提升了內存帶寬與速度,并通過PCIe 5.0(80個通道)實現了更高的PCIe帶寬提升。第四代英特爾至強可擴展處理器提供了出色性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在AI、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統相結合,第四代英特爾至強可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。

第四代英特爾至強可擴展處理器內置了創新的英特爾AMX加速引擎。英特爾AMX針對廣泛的硬件和軟件優化,通過提供矩陣類型的運算,顯著增加了人工智能應用程序的每時鐘指令數 (IPC),可為AI工作負載中的訓練和推理上提供顯著的性能提升。在實際AI推理負載中,英特爾AMX能夠加速模型微調、提升模型的首包推理速度并降低延遲。英特爾AVX-512指令集能夠加速在KV Cache模式下的第二個及以上的token推理。

5f5d2034-0ed6-11ef-a297-92fbcf53809c.png

3. 英特爾至強可擴展處理器為數據中心提供多種優勢

英特爾豐富軟件生態助力加速AI部署,釋放算力潛能

除了在硬件領域取得顯著進展之外,英特爾在人工智能領域亦構建了一個強大且全面的軟件生態系統,提供了包含 IntelExtension for PyToch和英特爾oneDNN在內的豐富軟件,能夠幫助用戶充分利用英特爾硬件的強大性能,提高計算效率和運行速度。

IntelExtension for PyTorch是一種開源擴展,可優化英特爾處理器上的深度學習性能。許多優化最終將包含在未來的PyTorch主線版本中,但該擴展允許PyTorch用戶更快地獲得最新功能和優化。IntelExtension for Pytorch充分利用了英特爾AVX- 512、矢量神經網絡指令 (VNNI) 和英特爾AMX,將最新的性能優化應用于英特爾硬件平臺。這些優化既包括對PyTorch操作符、Graph和Runtime的改進,也包括特定于使用場景的自定義操作符和優化器的添加。用戶可以通過簡易的Python API,只需對原始代碼做出微小更改即可在英特爾硬件平臺應用最新性能優化。

英特爾oneAPI Deep Neural Network Library (oneDNN) 是英特爾在軟件優化領域的又一亮點。英特爾oneDNN是一個開源性能庫,專為深度學習應用設計,支持廣泛的深度學習框架和應用。該庫提供了高級性能優化的深度學習原語,專門優化了用于英特爾架構的深度學習操作,包括英特爾至強處理器和 英特爾集成顯卡。通過oneDNN,開發者可以輕松地在英特爾硬件上實現高效的深度學習模型推理和訓練,而無需深入了解底層硬件細節。英特爾oneDNN已經被融合到多個開源平臺中,包括PyTorch和TensorFlow等。

5f7e25d6-0ed6-11ef-a297-92fbcf53809c.png
4. IntelExtension for PyTorch框架 5e89d86e-0ed6-11ef-a297-92fbcf53809c.gif

測 試 驗 證

在上述軟硬件基礎上,浪潮信息與英特爾合作,從多個方面入手,優化了AI模型微調及推理性能。

采用英特爾AMX加速器和IntelExtension for PyTorch加速模型微調

得益于對IntelExtension for PyTorch的支持,以及強大的運算能力和超大內存,浪潮信息四路服務器在微調方面表現出強大的性能。浪潮信息四路服務器采用分布式數據并行 + LoRA (Low-Rank Adaptation) 微調以減少通信開銷,其具備的大內存有利于支持更大的batch size,從而提高訓練的收斂效果,改善模型質量。目前,單臺浪潮信息四路服務器能夠支持高達30B模型的微調。

模型微調的測試數據如圖5顯示,當采用alpaca數據集(6.5M tokens,數據集大小24.2MB)時,單臺四路服務器可以在72分鐘的時間內完成Llama-2-7B微調 (batch size = 16);可以在362分鐘的時間內完成Llama-30B模型的微調 (batch size = 16),穩定支持非梯度累積模式下高達64的batch size1。

5fb896c6-0ed6-11ef-a297-92fbcf53809c.png

5. Llama-2-7B/13B/30B模型的微調時間

采用英特爾AMX加速器和張量并行加速大語言模型推理

浪潮信息四路服務器采用了英特爾UPI全拓撲連接方式, 張量并行推理方案下等同于有效地擴展了內存帶寬。這一優勢與英特爾AMX加速器一起,使得服務器最終在推理7/13B參數級別的模型時表現出高度的可擴展性。

測試數據如圖6-1和圖6-2所示,在7B和13B規模的模型中,模型推理的延遲可以低至20毫秒左右2,能夠滿足實際業務對于推理性能的要求。

5fcf0848-0ed6-11ef-a297-92fbcf53809c.png

6-1. 不同batch size下Llama-2-7B推理延遲測試

5fe4ebb8-0ed6-11ef-a297-92fbcf53809c.png

6-2. 不同batch size下Llama-2-13B推理延遲測試

采用英特爾AMX加速器和IntelExtension for PyTorch提升視覺模型推理性能

在非大語言模型的通用AI負載中,一般矩陣乘法(General Matrix Multiplication, GEMM) 往往消耗最多時間,推理訓練都受算力限制。浪潮信息四路服務器在為基于CNN的視覺模型推理帶來更強算力的同時,利用英特爾高級矩陣擴展(AMX) 加速矩陣乘法運算。如圖7所示,對于經典的視覺模型ResNet50,在推理階段,單顆處理器吞吐量最高可以達到2942.57FPS。同時,該解決方案可以支持高并發,在單臺四路配置時可以達到11322.08 FPS的吞吐量3。

600aa45c-0ed6-11ef-a297-92fbcf53809c.png

7. 浪潮信息四路服務器 ResNet50推理性能 5e89d86e-0ed6-11ef-a297-92fbcf53809c.gif

收 益

基于英特爾至強可擴展處理器的浪潮信息服務器AI訓推一體化方案能夠為用戶AI任務帶來以下收益:

滿足中小規模的模型對于微調及推理的算力需求:通過硬件構建與軟件優化,該AI訓推一體化方案提供了強大的模型微調與推理算力支持,在7B和13B規模的模型中,模型推理的延遲可以低至20毫秒左右,在基于CNN的視覺模型推理中,單臺四路服務器上可以達到11322.08FPS的吞吐量4。

更高的適用性、擴展性:該AI訓推一體化方案可以靈活地支持計算機視覺模型推理、大語言模型的微調和推理,以及其它通用業務,并實現更高的擴展性。

更高的性價比與投資回報:對比專用的AI服務器方案,該AI訓推一體化方案具備高性價比、高可及性等優勢,可助力用戶獲得更高的投資回報。

展 望

智能化成為業務關鍵驅動力的今天,用戶急切希望搭建自己的AI訓練與推理計算平臺,以便能夠躋身人工智能熱潮之中,探索和擴展他們的AI業務領域。以英特爾至強可擴展處理器為基礎的浪潮信息服務器AI訓推一體化方案憑借在性價比與靈活性等方面的優勢,有望成為推動AI微調與推理的關鍵基礎設施。

展望AI技術的未來發展,其不僅將創造更多的業務形態,而且為企業創造了巨大的商業潛力和發展機遇。浪潮和英特爾雙方將在技術探索、產品升級、應用推廣等多個層面深度協作,推動AI在更多應用場景的創新以及普及,助力AI的應用與發展。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19661

    瀏覽量

    232508
  • 以太網
    +關注

    關注

    40

    文章

    5532

    瀏覽量

    173885
  • DDR5
    +關注

    關注

    1

    文章

    437

    瀏覽量

    24565
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13645
  • AI大模型
    +關注

    關注

    0

    文章

    354

    瀏覽量

    456

原文標題:浪潮信息基于至強? 可擴展處理器推出 AI 服務器訓推一體化方案

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    部署成本顯著降低!英特爾助陣高效AI算力一體方案

    3月27日,英特爾舉辦了名為“‘至’繪未來,銳炫來襲”的創新解決方案研討會,與生態伙伴共同分享最新AI算力一體方案。該
    的頭像 發表于 03-29 16:29 ?862次閱讀
    部署成本顯著降低!<b class='flag-5'>英特爾</b>助陣高效<b class='flag-5'>AI</b>算力<b class='flag-5'>一體</b>機<b class='flag-5'>方案</b>

    英特爾至強6處理器助力數據中心整合升級

    繼去年9月重磅推出英特爾 至強 6900性能核處理器后,英特爾步擴充至強6產品家族,于近期發
    的頭像 發表于 03-13 17:36 ?674次閱讀

    英特爾至強6再新品!打造最強AI“機頭引擎”

    的產品矩陣,很好地滿足市場的多樣需求;另方面,憑借卓越的 AI 性能提升,英特爾為數據中心提供了性能強勁的機頭節點 CPU,助力企業在數字時代的
    的頭像 發表于 03-13 14:57 ?195次閱讀

    英特爾展示基于至強6處理器的基礎網絡設施

    ; 與5G核心網解決方案合作伙伴的深度合作,加快了英特爾至強6能效核處理器在整個生態系統中的應用; 基于5G核心網工作負載的獨立驗證確認了英特爾
    的頭像 發表于 03-08 09:24 ?371次閱讀

    HPE攜手英特爾至強6,打造新服務器性能巔峰

    近日,慧與科技(HPE)推出了八款全新HPE ProLiant Compute Gen12服務器,標志著新代企業級服務器領域的新標桿正式誕生。這系列
    的頭像 發表于 02-18 10:38 ?297次閱讀

    英特爾發布全新企業AI一體化方案

    近日,英特爾正式推出了全新的企業AI一體化方案。該方案英特爾
    的頭像 發表于 12-03 11:20 ?442次閱讀

    英特爾發布全新企業AI一體化解決方案

    近日,英特爾正式推出了其全新的企業AI一體化解決方案,這一方案旨在為企業提供更加開放、擴展且高
    的頭像 發表于 12-02 10:48 ?757次閱讀

    英特爾?至強?擴展處理器助力智慧醫療的數字轉型

    在現代醫療行業,人工智能(AI)、物聯網(IoT)和5G網絡等前沿技術正在重新定義醫療服務的提供方式。英特爾?至強?
    發表于 09-29 11:13 ?6234次閱讀
    <b class='flag-5'>英特爾</b>?<b class='flag-5'>至強</b>?<b class='flag-5'>可</b><b class='flag-5'>擴展</b><b class='flag-5'>處理器</b>助力智慧醫療的數字<b class='flag-5'>化</b>轉型

    英特爾發布至強6處理器產品

    以“綠色向新,釋放新質生產力”為主題的英特爾至強6能效核處理器新品發布會在北京舉行。會上,英特爾重磅推出首款配備能效核的英特爾
    的頭像 發表于 09-23 15:48 ?541次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    。 中國電子技術標準研究院賽西實驗室依據國家標準《人工智能服務器系統性能測試規范》(征求意見稿)相關要求,使用AISBench?2.0測試工具,完成了第五代英特爾至強
    的頭像 發表于 09-06 15:33 ?588次閱讀
    開箱即用,AISBench測試展示<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b><b class='flag-5'>處理器</b>的卓越推理性能

    浪潮信息分布式存儲AS13000完成英特爾至強6能效核處理器適配

    近日,浪潮信息分布式存儲AS13000完成英特爾至強6能效核處理器適配,實現每瓦性能提升2.3倍,以更高的效率、更優的成本滿足海量多態數據的存儲需求,充分釋放數據價值。
    的頭像 發表于 06-19 10:05 ?1103次閱讀
    <b class='flag-5'>浪潮信息</b>分布式存儲AS13000完成<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>6能效核<b class='flag-5'>處理器</b>適配

    浪潮信息元腦服務器升級:攜手英特爾至強6處理器引領行業新紀元

    在科技飛速發展的今天,處理器作為計算機系統的核心部件,其性能的提升直接關系到各行各業計算能力的飛躍。6月6日,英特爾公司再次引領行業風潮,在全球范圍內正式發布了備受矚目的英特爾至強6
    的頭像 發表于 06-11 14:24 ?832次閱讀

    浪潮信息元腦?服務器率先支持英特爾?至強?6處理器

    北京2024年6月7日?/美通社/ -- 6月6日,英特爾在全球范圍內發布了英特爾?至強?6處理器浪潮信息
    的頭像 發表于 06-07 15:36 ?538次閱讀
    <b class='flag-5'>浪潮信息</b>元腦?<b class='flag-5'>服務器</b>率先支持<b class='flag-5'>英特爾</b>?<b class='flag-5'>至強</b>?6<b class='flag-5'>處理器</b>

    重磅!英特爾發布intel3制程至強6能效核處理器,賦能數據中心能效升級

    、橫向擴展工作負載帶來性能與能效的雙重提升,同時攜手金山云、浪潮信息、南大通用,以及記憶科技等多家生態合作伙伴,分享基于該處理器的端到端創新解決方案,及其在諸多領域的實踐成果與應用價值
    的頭像 發表于 06-07 10:38 ?5796次閱讀
    重磅!<b class='flag-5'>英特爾</b>發布intel3制程<b class='flag-5'>至強</b>6能效核<b class='flag-5'>處理器</b>,賦能數據中心能效升級

    寧暢B5000 G5多節點服務器采用第五代英特爾至強擴展處理器

    “基于第五代英特爾 至強 擴展處理器的寧暢B5000 G5多節點服務器,可以在滿足大量
    的頭像 發表于 05-27 11:46 ?1050次閱讀
    寧暢B5000 G5多節點<b class='flag-5'>服務器</b>采用第五代<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b><b class='flag-5'>可</b><b class='flag-5'>擴展</b><b class='flag-5'>處理器</b>
    主站蜘蛛池模板: 爱爱天堂 | 亚洲人成网站色在线观看 | 99久久伊人| 日本免费一区二区老鸭窝 | 性色综合 | 国产午夜三区视频在线 | www网站在线观看 | 亚洲丝袜一区二区 | 国产一区国产二区国产三区 | 午夜影院0606 | 人操人爱| 中文字幕第十页 | 国产亚洲精品免费 | 日本口工禁漫画无遮挡全彩 | 精品国产你懂的在线观看 | 狼人射综合| 一级片免费在线 | 黄色大片播放 | 欧美色图亚洲激情 | 亚洲网站在线看 | 性喷潮久久久久久久久 | 高清一区二区三区四区五区 | 蝌蚪自拍网二区 | 日本成人免费观看 | 天天色天天搞 | 亚洲一区高清 | 国产午夜精品理论片在线 | 日本不卡一区二区三区视频 | 久久99热久久精品23 | 2021久久精品99精品久久 | 被公侵犯肉体中文字幕一区二区 | www.五月婷 | 性欧美性free| 又粗又硬又爽又黄毛片 | 欧美拍拍| 免费看片免费播放 | 欧美簧片 | 香蕉视频色版在线观看 | 9久热久re爱免费精品视频 | 操美女的视频网站 | 农村女人的一级毛片 |