在近日深圳召開的以 “讓我們攜手重塑未來” 為主題的“Arm Tech Symposia年度技術大會”上,Arm 終端事業部產品管理副總裁 James McNiven 蒞臨現場發表了熱情洋溢的講話,并透露了Arm立下的一個小目標:到2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備。這個1000億目標可以實現嗎?

James McNiven 強調Arm一直深耕算力技術的發展,Arm在算力的探索最早可以從ARMv7 架構(Cortex-A 系列)中引入的NEON 開始,NEON 是 ARM 處理器架構中的一個高級 SIMD(Single Instruction Multiple Data,單指令多數據)指令集擴展,主要用于加速多媒體和信號處理任務,如圖像處理、音頻解碼、視頻編解碼、以及機器學習推理等工作負載。

NEON 的設計目標是提供高能效的向量化計算能力,使嵌入式設備能夠高效處理復雜的多媒體任務,同時保持較低功耗。到2011年Arm發布ARMv8架構,NEON 進一步優化,用于提升多媒體和信號處理任務的性能,如圖像處理、音頻處理、以及 DSP 算法加速。ARMv8 是首個全面支持 64 位運算的架構。NEON 指令的寄存器擴展為 32 個 128 位寄存器,適配 64 位數據路徑。在 ARMv8 NEON 中,支持更多整數和浮點操作,使得音頻解碼和視頻編解碼的效率顯著提升。在ARMv8.1-A架構上面向 HPC(高性能計算)和 AI 加速的需求,Arm首次引入 了SVE(Scalable Vector Extension),這是 NEON 之后的一個重要向量擴展。可擴展向量長度支持 128 位到 2048 位的動態向量長度,適應不同算力需求。SVE 針對矩陣運算、機器學習和科學計算進行了優化,特別適合向量密集型任務。
此外,它還提高了計算資源的可移植性,從移動設備到云端計算均有支持。隨著 AI 和機器學習任務對計算需求的增長,2021 年發布的ARMv9 架構加強了向量處理能力,引入 MVE 和 SVE2,MVE(Helium)針對 Cortex-M 系列的向量擴展,優化了嵌入式低功耗設備的算力,適用于物聯網、邊緣計算中需要高能效的工作負載。SVE2在 SVE 的基礎上增強了對 AI 和 DSP 的支持。新增支持 bit-manipulation 和矩陣運算的指令集,專為 AI 推理和 5G 基站設計。這一時期,ARM 的算力架構不僅限于 CPU,還整合了 GPU 計算加速,如 Mali 系列和最新的 Immortalis 系列,逐漸融合 CPU 和 GPU 算力。與 NEON/SVE 協同工作,GPU 負責并行計算任務,而 CPU 處理串行任務。隨著AI 和機器學習的崛起,ARM 針對數據中心推出了 Neoverse 系列(如 Neoverse N2 和 V2),引入增強的矩陣運算能力。它專為推理加速設計,如在邊緣計算和云服務中運行 AI 模型。在新架構中加入對 INT8 和 BF16 的高效支持,顯著提升推理性能。James McNiven 強調Armv9 作為 Arm 最新的技術架構,推出伊始便是為支撐 AI 計算而設計,并持續迭代更新,通過 SVE、SVE2、SME 等關鍵技術,Arm 以架構創新和強大的軟硬件協同能力不斷優化移動端 AI 體驗,賦能開發者實現卓越的 AI 性能。

在會后的媒體采訪中,James表示要把握 AI 的發展機遇。Arm 通過采用系統級設計思維,專注硬件與軟件協同優化,面向不同應用市場推出計算子系統 (CSS),擴展底層技術并鞏固 AI 計算需求。與此同時,Arm 持續投資創新軟件技術,為全球 2,000 萬開發者提供從云到端的高效、易用、無縫開發體驗。此外,Arm 還通過包括全面設計 (Arm Total Design) 在內的眾多生態項目,協助合作伙伴加速產品上市進程。

據介紹,目前全球有超過 2,000 萬名軟件開發者在基于 Arm 架構的設備上構建應用,軟件話題也成為本次年度技術大會的焦點之一。Arm 在軟件方面的持續投入已取得顯著成效,正建立起全球最大的 AI 開發者社區。本屆大會首度舉辦的開發者工作坊收獲了參與者的熱烈響應,圍繞 Windows on Arm 原生應用、安卓系統上的 LLM 推理、生成式 AI 加速等開發者最為關注的主題,工作坊為開發者提供了直觀的技術體驗,激發開發者創新潛力的同時,也為相關應用開發增添了新的動力。

筆者注意到現場工程師對ARM 的 ONELab有濃厚的興趣,據ARM介紹ONELab是 ARM 針對開發者和企業推出的一個端到端 AI 開發與優化平臺,其目標是幫助開發者快速、高效地開發、優化和部署 AI 應用程序,尤其是在 ARM 架構上運行的設備中。據介紹,ONELab 的核心在于提供一套集成工具鏈和開發環境,專注于 AI 應用的優化與部署,它可以提供跨平臺開發支持,涵蓋移動端(如智能手機)、嵌入式設備(如 IoT 設備)和數據中心(如 ARM Neoverse 服務器)。
支持主流的深度學習框架,如 TensorFlow、PyTorch 和 ONNX,通過兼容性的 API,開發者可以無縫遷移現有的 AI 模型。它針對 ARM 設備中的 CPU(Cortex 系列)、GPU(Mali 系列)和 NPU(神經網絡處理單元) 進行優化。它還可以自動調用底層硬件加速特性,例如 NEON SIMD、SVE2 向量擴展,以及 Mali GPU 的并行計算能力。在多核環境下分配計算任務,它可使模型能夠在 CPU、GPU 和 NPU 之間高效運行。提供任務調度機制,針對不同類型的計算任務(如卷積、矩陣運算)動態分配資源。ONELab 主要專注于以下幾個領域的 AI 應用開發:
1、邊緣 AI:物聯網設備:通過 Cortex-M 系列低功耗 CPU 和 Helium 向量擴展(MVE)加速嵌入式推理。實時分析:在攝像頭、傳感器等設備中,實現實時的視覺和語音識別。
2、移動設備:智能手機:通過 Mali GPU 和 CPU 的協作優化,提供高效的圖像分類、增強現實(AR)和語音助手功能,優化設備端的 AI 模型性能,同時降低功耗。
3 數據中心和高性能計算:云端推理:結合 Neoverse 平臺,為 AI 推理任務提供高吞吐量和低延遲的解決方案。HPC(高性能計算):支持在超級計算機或集群中部署 AI 應用,面向深度學習訓練和科學計算。
4、自動駕駛與工業:自動駕駛:優化感知算法和決策系統,利用 ARM 平臺實現實時推理。工業自動化:為機器人和工業設備中的邊緣推理提供算力支持。未來,在提升算力方面Arm的SVE3 可能會加入對更復雜的 AI 和 HPC 工作負載的支持。此外,向量計算擴展將繼續優化能效比,為移動和服務器市場服務。而隨著 AI 和機器學習的重要性增加,ARM 可能推出更多帶有 TPU 類特性的專用單元,進一步縮小與競爭對手(如 NVIDIA 和 Intel)的差距,成為多領域算力需求的重要支柱。James表示Arm 通過將 IP 與開源軟件和工具乃至廣泛的行業領先生態系統相結合,讓全球 2,000 萬開發者都能夠使用 Arm 計算平臺作為 AI 創新基礎。有了生態伙伴的大力支持因此Arm 敢大膽地預測到 2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備。
-
處理器
+關注
關注
68文章
19706瀏覽量
232705 -
ARM
+關注
關注
134文章
9265瀏覽量
373220 -
AI
+關注
關注
87文章
33442瀏覽量
273985
發布評論請先 登錄
相關推薦
Arm亮相2025年游戲開發者大會
2025年全球個人智能音頻市場出貨量將增至5.33億臺
2025年全球半導體市場將增至7050億美元
電子發燒友社區2025年春節放假通知!
Arm預測2025年芯片設計發展趨勢
Arm 技術預測:2025 年及未來的技術趨勢

Arm架構PC市場前景堪憂,2025年出貨量預測僅占13%
OpenAI公布2025年發展目標
OpenAI公布2025年目標,AGI位列首位
Arm 年度技術大會: 預計2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備

評論