在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm技術助力Google Axion處理器加速AI工作負載推理

Arm社區 ? 來源:Arm社區 ? 2025-02-14 14:11 ? 次閱讀

作者:Arm 基礎設施事業部高級產品經理 Ashok Bhat

由 Arm Neoverse V2 平臺賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機,為基于 CPU人工智能 (AI) 推理和通用云工作負載實現了顯著的性能飛躍。

Axion CPU 延續了 Google Cloud 的定制芯片計劃,旨在提高工作負載性能和能效,標志著在重塑 AI 云計算格局方向上的重大進步。Google 選擇 Arm Neoverse 平臺是因為它具備高性能、高能效和創新靈活性,而且有著強大的軟件生態系統和廣泛的行業應用,可確保與現有應用的輕松集成。

Neoverse V2 平臺引入了新的硬件擴展,例如 SVE/SVE2、BF16 和 i8mm,與上代 Neoverse N1 相比,顯著增強了機器學習性能。這些擴展增強了向量處理、BFloat16 運算和整數矩陣乘法,使得基于 Neoverse V2 的 CPU 每周期執行的 MAC 運算次數比 N1 提高最多四倍。

從生成式 AI 到計算機視覺:加快 AI 工作負載推理速度并提升性能

立足于開源為原則的 AI 具備眾多領先的開源項目。近年來,Arm 一直與合作伙伴開展密切合作,以提高這些開源項目的性能。在許多情況下,我們會利用 Arm Kleidi 技術來提高 Neoverse 平臺上的性能,Kleidi 技術可通過 Arm Compute Library 和 KleidiAI 庫訪問。

大語言模型

由 Meta 開發的 Llama 模型包含一系列先進的大語言模型 (LLM),專為各種生成任務而設計,模型大小從 10 億到 4,050 億個參數不等。這些模型針對性能進行了優化,并可針對特定應用進行微調,因而在自然語言處理任務中用途廣泛。

Llama.cpp 是一個 C++ 實現方案,可以在不同的硬件平臺上實現這些模型的高效推理。它支持 Q4_0 量化方案,可將模型權重減少為 4 位整數。

為了展示基于 Arm 架構的服務器 CPU 在 LLM 推理方面的能力,Arm 軟件團隊和 Arm 合作伙伴對 llama.cpp 中的 int4 內核進行了優化,以利用這些新的指令。具體來說,我們增加了三種新的量化格式:為僅支持 Neon 的設備添加了 Q4_0_4_4,為支持 SVE/SVE2 和 i8mm 的設備添加了 Q4_0_4_8,為支持 SVE 256 位的設備添加了 Q4_0_8_8。

因此,與當前的 x86 架構實例相比,基于 Axion 的虛擬機在提示詞處理和詞元 (token) 生成方面的性能高出兩倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我們在所有實例上運行了 Llama 3.1 8B 模型,并對每個實例使用了推薦的 4 位量化方案。Axion 的數據是在 c4a-standard-48 實例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的數據是在 t2a-standard-48 實例上使用 Q4_0_4_4 生成的。x86 架構的數據是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有實例中,線程數始終設置為 48。

BERT

在 C4A 虛擬機上運行 BERT 取得了顯著的速度提升,大幅減少了延遲并提高了吞吐量。此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf BERT 模型,并測量第 90 百分位的延遲。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不僅限于 LLM,還可應用于圖像識別模型,例如 ResNet-50 就能受益于此硬件的先進特性。BF16 和 i8mm 指令集成后,實現了更高的精度和更快的訓練速度,展現了 Axion 相較基于 x86 架構實例的性能優勢。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一個領先的機器學習算法庫,用于解決回歸、分類和排序問題,與 Google Cloud 上類似的 x86 架構實例相比,在 Axion 上訓練和預測所需的時間減少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

結論

從上述結果,可以發現基于 Axion 的虛擬機在性能方面超越了上一代基于 Neoverse N1 的虛擬機和 Google Cloud 上其他的 x86 架構替代方案。Google Cloud C4A 虛擬機能夠處理從 XGBoost 等傳統機器學習任務到 Llama 等生成式 AI 應用的各類工作負載,是AI 推理的理想之選。

Arm 資源:助力云遷移

為了提升 Google Axion 的使用體驗,Arm 匯集了各種資源:

[1] 通過 Arm Learning Paths 遷移到 Axion:依照詳細的指南和最佳實踐,簡化向 Axion 實例的遷移。

[2] Arm Software Ecosystem Dashboard:獲取有關 Arm 的最新軟件支持信息

[3] Arm 開發者中心:無論是剛接觸 Arm 平臺,還是正在尋找開發高性能軟件解決方案的資源,Arm 開發者中心應有盡有,可以幫助開發者構建更卓越的軟件,為數十億設備提供豐富的體驗。歡迎開發者在 Arm 不斷壯大的全球開發者社區中,下載內容、交流學習和討論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9184

    瀏覽量

    369667
  • 計算機
    +關注

    關注

    19

    文章

    7553

    瀏覽量

    88777
  • AI
    AI
    +關注

    關注

    87

    文章

    31841

    瀏覽量

    270625
  • Neoverse
    +關注

    關注

    0

    文章

    10

    瀏覽量

    4636

原文標題:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作負載推理

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術Arm 正在努力優化 PyTorch,以
    的頭像 發表于 12-03 17:05 ?965次閱讀
    <b class='flag-5'>Arm</b> KleidiAI<b class='flag-5'>助力</b>提升PyTorch上LLM<b class='flag-5'>推理</b>性能

    Google AI技術助力中國品牌出海增長

    人工智能的技術創新與突破正在給各行各業帶來全新的變革與機遇。在數字營銷領域,AI 也為整個營銷流程開啟了全新的可能。從全新的沉浸式廣告體驗到效果出色的廣告素材,Google AI 正在
    的頭像 發表于 10-16 11:08 ?573次閱讀

    英特爾?至強?可擴展處理器助力智慧醫療的數字化轉型

    醫療機構實現數據的收集、分析和輔助決策,從而提升醫療服務質量與效率。 ? 這一處理器內置的AI加速器顯著提升了AI推理性能,特別是在
    發表于 09-29 11:13 ?6160次閱讀
    英特爾?至強?可擴展<b class='flag-5'>處理器</b><b class='flag-5'>助力</b>智慧醫療的數字化轉型

    AMD助力HyperAccel開發全新AI推理服務

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲
    的頭像 發表于 09-18 09:37 ?521次閱讀
    AMD<b class='flag-5'>助力</b>HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務<b class='flag-5'>器</b>

    ARM處理器工作模式和特點

    ARM處理器具有多種工作模式,這些模式根據處理器執行的任務和當前的狀態進行劃分。常見的ARM處理器
    的頭像 發表于 09-10 11:22 ?1477次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈
    的頭像 發表于 05-27 11:50 ?614次閱讀
    英特爾<b class='flag-5'>助力</b>京東云用CPU<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構建數智化供應鏈

    谷歌自主研發:Google Axion處理器亮相

    谷歌 Axion 處理器不僅是谷歌對定制芯片投資的最新成果,也是眾多定制芯片中的一環。自2015年以來,谷歌已經陸續推出了五代張量處理單元(TPU)、視頻編碼單元 (VCU)、以及用于移動設備的 Tensor 芯片等產品。
    發表于 04-20 09:52 ?476次閱讀

    臺積電:AI服務處理器預計翻番,拉動收入增長?

    臺積電將 AI 服務處理器嚴格限定為用于 AI 訓練與推理的 GPU、CPU 及 AI
    的頭像 發表于 04-19 15:04 ?422次閱讀

    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制,搭載適用于AI/ML工作負載的神經網絡協同處理器

    全新Balletto?系列無線MCU基于Alif Semiconductor先進的MCU架構,該架構具有DSP加速和專用NPU,可快速且低功耗地執行AI/ML工作負載 ? 中國,北京
    發表于 04-18 17:51 ?723次閱讀
    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制<b class='flag-5'>器</b>,搭載適用于<b class='flag-5'>AI</b>/ML<b class='flag-5'>工作</b><b class='flag-5'>負載</b>的神經網絡協同<b class='flag-5'>處理器</b>

    Google Cloud推出基于Arm Neoverse V2定制Google Axion處理器

    Arm Neoverse 平臺已成為云服務提供商優化其從芯片到軟件全棧的心儀之選。近日,Google Cloud 推出了基于 Arm Neoverse V2 打造的定制 Google
    的頭像 發表于 04-16 14:30 ?737次閱讀

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構,性能提升四倍

    電子發燒友網報道(文/黃晶晶)在嵌入式領域,邊緣與端側AI推理需求不斷增長,Arm既有Helium 技術使 CPU 能夠執行更多計算密集型的 AI
    的頭像 發表于 04-16 09:10 ?4762次閱讀
    <b class='flag-5'>Arm</b>推動生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構,性能提升四倍

    谷歌推出基于ARM的數據中心AI芯片Axion,性能比x86高50%

    谷歌公布了新款數據中心人工智能(AI)芯片的細節,宣布了一款基于ARM的中央處理器(CPU)Axion
    的頭像 發表于 04-15 16:17 ?1120次閱讀

    谷歌發布Axion新款數據中心AI芯片,性能超越x86及云端

    谷歌預計將通過Google Cloud提供Axion AI芯片給客戶。谷歌強調這款基于ARM的CPU產品具有優越的性能表現,甚至超越了傳統的x86芯片及云端通用
    的頭像 發表于 04-10 16:32 ?961次閱讀

    AMD EPYC處理器AI推理能力究竟有多強?

    如今,AMD EPYC處理器已經成為最常被選擇用于AI推理的服務平臺,尤其是第四代Genoa EPYC 9004系列,執行AI
    發表于 03-15 09:47 ?584次閱讀

    使用NVIDIA Triton推理服務加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?647次閱讀
    主站蜘蛛池模板: 女的扒开尿口让男人桶 | 日本免费黄色小视频 | 三级完整在线观看高清视频 | 国产小视频免费在线观看 | 天堂bt种子资源地址在线 | 精品在线视频一区 | 在线观看视频一区二区三区 | 天天做天天爰夜夜爽 | 午夜在线播放视频在线观看视频 | 欧美性video精品 | 久久91精品牛牛 | 久久综合社区 | 啪啪免费视频网站 | 爱爱免费视频 | 黄色在线免费看 | 一区二区在线免费观看 | 天天操天天干天天摸 | 天天操网 | 最新黄色免费网站 | bt 另类 专区 欧美 制服 | 亚洲色图17p| 亚洲 欧美 视频 | 男人的天堂欧美 | 四虎影在线永久免费观看 | 成人激情综合网 | 欧美高清激情毛片 | 午夜影视在线 | 色网址在线 | 色视频免费版高清在线观看 | 免费看男女做好爽好硬视频 | 狠狠干免费视频 | 亚洲va久久久噜噜噜久久狠狠 | 亚洲区在线播放 | 亚洲一区二区在线免费观看 | 亚洲男同tv | 激情网网站| 狠狠干天天色 | 涩涩高清无乱码在线观看 | brazzers在线播放 | 视频免费在线 | 欧美性a欧美在线 |