電子發燒友網報道(文/黃晶晶)當下,快速發展的 AI 正不斷賦予邊緣設備越來越先進的智能性,使邊緣設備勝任越來越重要的任務。為應對邊緣側持續增長的 AI 需求,Arm 近日發布以全新基于 Armv9 架構的超高能效 CPU——Arm Cortex-A320 以及對 Transformer 網絡具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣AI 計算平臺,可支持運行超 10 億參數的端側 AI 模型。
全新超高能效 Arm Cortex-A320 CPU 引領邊緣 AI 變革
據 Arm 物聯網事業部業務拓展副總裁馬健分享,此次全新推出的 Cortex-A320 是 Arm 首個基于 Armv9 架構的超高能效 CPU,為物聯網應用專門優化,將徹底變革邊緣 AI。在ML性能方面,Cortex-A320 相較于前代超高能效 CPU (Cortex-A35) 提升了高達 10 倍的 ML 計算能力。其能效較 Cortex-A520(Arm 的高能效 Armv9.2 CPU)提升了 50%,進一步降低了功耗。在標量計算性能方面,Cortex-A320 的性能比前代 Cortex-A35 提高了 30%,帶來了更強的通用計算能力。
馬健指出,隨著對支持更大規模、多模態 AI 模型的硬件需求不斷增長,系統的內存需求也在迅速提升。因此,具備更高內存訪問性能的系統變得尤為必要,以滿足更復雜的應用場景。相比 Cortex-M,Cortex-A 處理器支持更大的可尋址內存空間,并能夠更靈活地管理多層次內存訪問延遲。
同時,隨著邊緣 AI 負載變得越來越復雜,對更強大、更靈活的操作系統進行系統管理的需求也在增加。而傳統的 Cortex-M 一般只能跑實時操作系統,但功能豐富的操作系統可以使得設備管理更加靈活。
Cortex-A320 具備支持多種操作系統的能力,無論是如 FreeRTOS 和 Zephyr 的實時操作系統 (RTOS),還是如 Linux 和 Android 的功能豐富的操作系統,都能提供高效支持。與此同時,憑借 Arm的 A處理器架構優勢,Cortex-A320 可開箱即用地支持 Linux,并且能夠輕松移植安卓及其他現有的功能豐富的操作系統。此外,Cortex-A320 最高可支持四核共享集群,可根據不同需求靈活擴展,滿足各種應用場景的需求。
Cortex-A320 還為現有的物聯網領域的 Cortex-A 產品提供了靈活的升級路徑。無論是從 Cortex-A35 遷移,還是從全球出貨量最高的基于 Armv8 架構的 Cortex-A 處理器 Cortex-A53 升級,Cortex-A320 都提供了理想的 Armv9 遷移方案,并帶來了眾多優勢,包括更先進的安全性、廣泛的 Armv9 軟件生態的支持,以及更高的計算性能。
此外,隨著邊緣應用場景日趨復雜,以及設備端軟件及數據價值日益凸顯,安全性問題比以往任何時候都更為關鍵,Cortex-A320 充分利用了 Armv9 增強的安全性和AI 計算特性。在安全性方面,Secure EL2 增強了 TrustZone 內部的隔離性,支持更安全地運行軟件容器。指針驗證/分支目標識別 (PACBTI)可有效緩解跳轉和返回編程中的指針安全隱患。內存標記擴展 (MTE)通過內存標記機制,使黑客更難利用漏洞進行攻擊,提高整體系統安全性。
AI 計算能力增強方面,Armv9 具有增強的 Neon 和可伸縮向量擴展 (SVE2) 技術,提供更高效的 ML 計算能力。其還支持例如 BFloat16 等新數據類型,提高 AI 計算的精度和能效。不僅如此,新增的矩陣乘法指令能夠優化 AI 和 ML 計算性能,加速神經網絡推理和訓練任務。
Cortex-A320 與 Ethos-U85 深度配合,相得益彰
Arm Cortex-A320 CPU 和 Ethos-U85 NPU 是此次發布的邊緣 AI 計算平臺的兩大核心。該平臺具備強大的計算能力,比去年的基于 Cortex-M85 搭配 Ethos-U85 的平臺提升了8倍的 ML 計算性能,帶來了顯著的 AI 計算能力突破。
該邊緣 AI 計算平臺并不是 CPU 和 AI 加速器的簡單堆疊,而是實現了深度配合,讓 CPU 和 NPU 相得益彰。馬健指出,去年 Arm 推出的集成了 Cortex-M85 和 Ethos-U85 的 Arm Corstone 物聯網參考設計平臺,顯著提升了端側 Transformer 網絡的執行效率。隨著此次邊緣 AI 計算平臺的發布,Ethos-U85 驅動程序已經完成更新,使得 Cortex-A320 能夠直接驅動 Ethos-U85,無需額外搭載 Cortex-M。
Cortex-A320 可以為 Ethos-U85 提供更高的內存容量與帶寬,讓大模型在 Ethos-U85 上的執行如虎添翼;任何開發者們不希望在 Ethos-U85 上運行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更靈活有效地在 CPU 上執行。例如,在連續圖像檢測任務中,通常會優先在 AI 加速器上運行,以提高能效。而對于單張圖像的處理,在 CPU 上執行可能更高效。這使智能物聯網與消費類電子生態系統能夠在正確的時間,并在合適的地方運行最適合的工作負載。
將 Arm Kleidi 擴展到物聯網
邊緣 AI 普及面臨的最主要障礙之一是軟件開發和部署的復雜性,這正是 Armv9 邊緣 AI 計算平臺軟件生態系統發揮優勢的關鍵所在。去年,Arm 推出了 Kleidi 軟件庫,并將其引入了智能手機和服務器市場,它包含優化 AI 負載在 Arm CPU 上執行的 KleidiAI 和加速機器視覺的 KleidiCV。如今,Arm 將 Kleidi 擴展到了物聯網領域,以加速 AI 性能表現。
KleidiAI 是一套專為 AI 框架開發者設計的計算內核,讓開發者可以無縫地在 Arm CPU 上獲取最佳性能,適用于各類設備。它支持如 Neon 和 SVE2 等 Armv9 架構的關鍵特性,大幅提升了 AI 的計算效率。此外,KleidiAI 已經集成到多個主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通過 XNNPACK)它可以加速 Meta Llama 3 和 Phi-3 等主流AI 大模型,進一步釋放 AI 計算性能。
更好地支持 Deepseek 等深度模型優化
談及對AI推理應用模型的支持,馬健表示:“在百模爭霸的時代,模型的架構還在不斷地改變,一些新的數據可以讓模型變得更聰明或者有一些推理功能。深度的優化也已經開始熱火朝天地進行起來了,DeepSeek 就是個非常好的例子。Deepseek 的 R1 模型已達到了 15 億參數,跑在 Arm 全新的邊緣 AI 計算平臺上,理論上是綽綽有余的。”
此外,馬健還表示,模型的大小有時候并不與 AI 加速器的 TOPS 直接相關,而是更多受到內存帶寬和內存容量的限制。Arm 有一系列的 Cortex-A 處理器,從超高的性能到超高的能效。這一系列處理器可以有不同的內存配置。不同的內存配置可以適配不同大小的參數規模。
在AI時代,最重要的是更加貼近市場和應用,從整體上來思考產業發展的趨勢和需求。Arm Cortex CPU 選擇豐富,能夠全面滿足邊緣 AI 應用場景的需求,比如 Cortex-X925 適用于非常高端的機器人領域,而Cortex- A320用在對能效有極致追求的邊緣應用。此外,NPU 方面在不久的未來也將會有AI新產品加入。
由此可以看到,Arm 早已在邊緣側進行了前瞻性布局。此次發布的 Arm 邊緣 AI 計算平臺能高效執行復雜的 AI 任務,同時保證系統的安全性、可靠性和數據完整性。在 AI 推理時代,Arm 將繼續引領行業發展。
-
ARM
+關注
關注
134文章
9328瀏覽量
375645
發布評論請先 登錄
Arm 公司面向移動端市場的 ?Arm Lumex? 深度解讀
物聯網工程師為什么要學Linux?
Nordic nRF54 系列芯片:開啟 AI 與物聯網新時代?
Banana Pi 發布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發
搶先試用此芯Armv9 AI PC開發套件瑞莎“星睿O6”

Arm Cortex-A320 CPU助力嵌入式設備實現高能效AI計算

評論