在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm Cortex-A320 CPU助力嵌入式設(shè)備實(shí)現(xiàn)高能效AI計(jì)算

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-02-27 17:17 ? 次閱讀

作者:Arm 物聯(lián)網(wǎng)事業(yè)部產(chǎn)品管理總監(jiān) Tim Menasveta

Arm Cortex-A320 是目前最小型的 Armv9-A 架構(gòu) CPU。得益于該處理器的推出,開(kāi)發(fā)者現(xiàn)在能有更多選擇決定如何處理物聯(lián)網(wǎng)邊緣人工智能 (AI) 工作負(fù)載。然而,面對(duì)多樣化的選擇,要確定適合特定 AI 應(yīng)用的處理器,系統(tǒng)開(kāi)發(fā)者需要通過(guò)比較基于 Arm Cortex-A、Arm Cortex-M 和 Arm Ethos-U NPU 的設(shè)備及其可能的搭配進(jìn)行決策。除了成本的考量,開(kāi)發(fā)者還需了解各款處理器具備的 AI 功能,以及自身的項(xiàng)目可以通過(guò)何種軟件開(kāi)發(fā)流程實(shí)現(xiàn)簡(jiǎn)化。

嵌入式設(shè)備中實(shí)現(xiàn)高能效 AI 計(jì)算

近年來(lái),嵌入式設(shè)備中的 AI 計(jì)算效率突飛猛進(jìn)。Arm 的 M 和 A 處理器架構(gòu)的提升使得每單位能耗的機(jī)器學(xué)習(xí) (ML) 推理性能呈數(shù)倍增長(zhǎng)。特別是在 M 處理器架構(gòu)上,基于 Armv8.1-M 架構(gòu)的 Cortex-M52、Cortex-M55 和 Cortex-M85 CPU 集成了可編程的 Helium 向量擴(kuò)展,從而解鎖了在微控制器級(jí)設(shè)備上實(shí)現(xiàn)新 AI 用例的能力。此外,得益于可伸縮向量擴(kuò)展 (SVE2) 的引入,基于 Armv9 架構(gòu)的 Cortex-A 處理器(如最新推出的 Cortex-A320)相較其前代產(chǎn)品進(jìn)一步提升了 AI 性能。而 Ethos-U 系列 NPU 的最新一代產(chǎn)品 Ethos-U85,尤其在處理 Transformer 網(wǎng)絡(luò)時(shí),表現(xiàn)更為高效。

如何選擇合適的硬件?

每種架構(gòu)在不同方面各有優(yōu)勢(shì)。在考慮哪款硬件最適合時(shí),原始性能應(yīng)與設(shè)計(jì)靈活性相權(quán)衡。此外,還需要將包括 CI/CD 要求在內(nèi)的軟件開(kāi)發(fā)流程納入考量。

性能

滿足所需的 AI 處理性能至關(guān)重要。Cortex-A 處理器本就是一款面向多種應(yīng)用的可編程處理器,集成了 Neon/SVE2 向量引擎,旨在加速神經(jīng)網(wǎng)絡(luò)和各種向量化代碼,并能原生支持多種數(shù)據(jù)類(lèi)型。而帶有 Helium 向量引擎的 Cortex-M 處理器具備相同特性,且更適用于成本和能耗相對(duì)有限的目標(biāo)用例。相比之下,包含 Ethos-U85 在內(nèi)的 Ethos-U NPU 則專為處理神經(jīng)網(wǎng)絡(luò)算子而設(shè)計(jì),尤其還具備了量化的 8 位整數(shù)數(shù)據(jù)權(quán)重的能力,對(duì)于可以映射到這些 NPU 硬件的網(wǎng)絡(luò)算子,其任務(wù)表現(xiàn)十分高效。

基于 Armv9 架構(gòu)的最新一代 Cortex-A CPU 支持 BF16 等廣泛的數(shù)據(jù)類(lèi)型。此外,引入的新矩陣乘法指令顯著提高了神經(jīng)網(wǎng)絡(luò)的處理性能。關(guān)于如何通過(guò) SVE2 實(shí)現(xiàn)矩陣乘法的詳細(xì)解釋,推薦閱讀《Neon、SVE 和 SME 實(shí)現(xiàn)矩陣-矩陣乘法的比較》。

Cortex-M55 是首款集成 Helium 向量技術(shù)的 Cortex-M 處理器,此后推出的 Cortex-M85 也集成了這一技術(shù)。兩者都實(shí)現(xiàn)了雙節(jié)拍 (dual-beat) Helium 配置,每個(gè)時(shí)鐘周期可執(zhí)行多達(dá)八次的 8 位整數(shù)乘積累加運(yùn)算 (MAC) 操作。此外,Helium 還原生支持 FP16、FP32 等其他數(shù)據(jù)類(lèi)型。

最后,在具有量化數(shù)據(jù)類(lèi)型的模型上,具體來(lái)說(shuō)是 INT8 權(quán)重,以及 INT8 或 INT16 激活數(shù)據(jù),Ethos-U NPU 可以非常高效地處理神經(jīng)網(wǎng)絡(luò)。這種設(shè)計(jì)雖會(huì)限制其適用的數(shù)據(jù)類(lèi)型,但可提高 NPU 的執(zhí)行效率。

評(píng)估處理器在實(shí)際 AI 工作負(fù)載中性能的方法之一,是分析其每種數(shù)據(jù)類(lèi)型和每個(gè)時(shí)鐘周期的理論 MAC 執(zhí)行能力。由于神經(jīng)網(wǎng)絡(luò)處理使用大型數(shù)據(jù)集,因此內(nèi)存訪問(wèn)性能是另一大關(guān)鍵因素。不過(guò)在本例中,我們著重于處理器密集 (processor-bound) 性能,而非內(nèi)存密集 (memory-bound) 性能。

神經(jīng)網(wǎng)絡(luò)處理速率通常受限于底層硬件的 MAC 操作速率。雖然實(shí)際的網(wǎng)絡(luò)處理性能因網(wǎng)絡(luò)結(jié)構(gòu)而異,但下表所示的的理論 MAC 處理速率提供了硬件能力的指標(biāo)。

921337dc-f4ba-11ef-9310-92fbcf53809c.png

軟件

另外一個(gè)考慮的因素是每個(gè)硬件方案的軟件支持。Arm 為包括 Cortex-A、Cortex-M 和 Ethos-U 等在內(nèi)的各類(lèi) AI 硬件解決方案提供全面的開(kāi)源運(yùn)行時(shí)支持軟件。Arm 為各種 ML 框架和運(yùn)行時(shí)提供硬件加速支持,包括 PyTorch、ExecuTorch、Llama.cpp、TensorFlow 和 LiteRT(通過(guò) XNNPACK)。任何 ML 框架都可通過(guò)優(yōu)化,進(jìn)而充分利用 Arm 的 AI 特性。在 Arm 處理器上執(zhí)行的運(yùn)行時(shí)可利用 CMSIS-NN(針對(duì) Cortex-M/Helium)和 Arm Compute Library 或 Arm KleidiAI(針對(duì) Neon/SVE2 中的 INT8 和 BF16)等軟件加速庫(kù)。Vela 編譯器是一個(gè)通過(guò)優(yōu)化模型來(lái)實(shí)現(xiàn)高效部署的離線工具,可在 Ethos-U 上進(jìn)一步調(diào)優(yōu)可執(zhí)行二進(jìn)制文件,從而實(shí)現(xiàn)更卓越的硬件性能。

何時(shí)使用 Ethos-U?

一些具有明確定義的 AI 工作負(fù)載的邊緣 AI 用例可以通過(guò)將神經(jīng)網(wǎng)絡(luò)處理卸載到專用 NPU 上,從而釋放主處理器的計(jì)算密集型任務(wù),并由此獲益。如前所述,Ethos-U NPU 在處理具有量化的 8 位整數(shù)權(quán)重的神經(jīng)網(wǎng)絡(luò)時(shí)非常高效。Transformer 網(wǎng)絡(luò)特別適合在 Ethos-U85 上運(yùn)行。然而,Ethos-U85 NPU 需由一個(gè)主處理器(可以是 Cortex-M 或 Cortex-A)進(jìn)行驅(qū)動(dòng)。

主處理器與 Ethos-U 間可以有多種配置方式。Ethos-U 可由像 Cortex-M55 等啟用 Helium 的 Cortex-M 處理器驅(qū)動(dòng)使用。目前市面上已有這種系統(tǒng)級(jí)芯片 (SoC) 配置的示例。近期,在小語(yǔ)言模型 (SLM) 上運(yùn)行生成式 AI 工作負(fù)載愈發(fā)受到業(yè)界關(guān)注。Ethos-U 與啟用 Helium 的 Cortex-M 處理器相結(jié)合,是此類(lèi)用例的上佳之選。

此外,還有基于 Cortex-A 處理器的 SoC 集成了基于 Cortex-M 核心的 ML 島與 Ethos-U。這類(lèi) SoC 通常適合運(yùn)行 Linux 等功能豐富的操作系統(tǒng),并支持更大、更靈活的內(nèi)存系統(tǒng)。Cortex-M CPU 擁有 32 位可尋址內(nèi)存地址空間,能實(shí)現(xiàn)直接內(nèi)存地址映射,而像 Cortex-A320 等更新款的 Cortex-A 處理器則具有 40 位內(nèi)存可尋址空間,還可以通過(guò)內(nèi)存管理單元 (MMU) 的虛擬內(nèi)存尋址。

隨著大語(yǔ)言模型 (LLM) 的執(zhí)行逐漸轉(zhuǎn)向邊緣 AI 設(shè)備,擁有更大和更靈活的內(nèi)存系統(tǒng)可以簡(jiǎn)化較大參數(shù)規(guī)模(例如大于 10 億參數(shù)的 LLM)模型的執(zhí)行。Cortex-M 和 Ethos-U85 的組合很適合于越來(lái)越受到歡迎的小語(yǔ)言模型。Cortex-M 處理器具有 4GB 的尋址空間,并保留了其中一些空間用于系統(tǒng)功能。隨著 LLM 模型規(guī)模的增長(zhǎng),具有更大和更靈活內(nèi)存的 Cortex-A 系統(tǒng)將變得至關(guān)重要。

Arm 近期又宣布了另一種配置方式,稱為“直接驅(qū)動(dòng) (direct drive)”,即 Cortex-A 處理器直接驅(qū)動(dòng) Ethos-U NPU。這種配置無(wú)需專門(mén)的 Cortex-M 作為“驅(qū)動(dòng)”處理器。Ethos-U85 的 Linux 驅(qū)動(dòng)程序可在 Cortex-A 主控制器上運(yùn)行。

9242db86-f4ba-11ef-9310-92fbcf53809c.png

利用 Cortex-A320滿足邊緣設(shè)備的生成式 AI 需求

邊緣 AI 系統(tǒng)開(kāi)發(fā)者現(xiàn)在有更多的選擇來(lái)優(yōu)化物聯(lián)網(wǎng)中最靠近邊緣側(cè)的 AI。無(wú)論選擇 Cortex-M、Cortex-A 還是 Ethos-U 加速系統(tǒng),每種選擇都可滿足不同的需求。Cortex-A320 處理器能夠直接驅(qū)動(dòng) Ethos-U85,這讓設(shè)計(jì)人員獲得了更多的靈活性。作為 Arm 最小型、最高能效的 Armv9-A 處理器,Cortex-A320 在提高邊緣側(cè) AI 能效的同時(shí),適應(yīng)嵌入式系統(tǒng)中生成式 AI 演進(jìn)的需求。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19500

    瀏覽量

    231627
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9200

    瀏覽量

    370415
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32143

    瀏覽量

    271056
  • 嵌入式設(shè)備
    +關(guān)注

    關(guān)注

    0

    文章

    113

    瀏覽量

    17092

原文標(biāo)題:如何為 AI 應(yīng)用選擇合適的 Arm 邊緣 AI 解決方案?

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計(jì)算框架

    `Tengine 是OPEN AI LAB 為嵌入式設(shè)備開(kāi)發(fā)的一個(gè)輕量級(jí)、高性能并且模塊化的引擎。基于ARM平臺(tái)高效的計(jì)算庫(kù)
    發(fā)表于 08-13 15:58

    嵌入式ARM的體系與內(nèi)核

    嵌入式系統(tǒng)已經(jīng)廣泛地應(yīng)用到當(dāng)今各個(gè)領(lǐng)域,小到掌上的數(shù)字產(chǎn)品,大到汽車(chē)、航天飛機(jī)。除了我們能聯(lián)想到的單片機(jī)外,還有ARM等其他嵌入式系統(tǒng)應(yīng)用的也越來(lái)越廣泛。特點(diǎn):由8位處理向32位過(guò)渡,由單核向多核
    發(fā)表于 05-18 14:36

    嵌入式AI平臺(tái)有哪些?

    11.2.2 修剪神經(jīng)網(wǎng)絡(luò) 21.2.3 嵌入式終端優(yōu)化 21.3 GPU 21.4 ARM 31.5 FPGA結(jié)構(gòu)的并行計(jì)算 41.5.1 介紹 41.5.2 流水線計(jì)算 41.5
    發(fā)表于 10-27 06:45

    ARM推出全新超高能Cortex-A32處理器,擴(kuò)大嵌入式與物聯(lián)網(wǎng)產(chǎn)品陣容

     2016年2月24日,北京訊——ARM針對(duì)下一代嵌入式產(chǎn)品推出ARM? Cortex?-A32,為超
    發(fā)表于 02-24 09:37 ?1349次閱讀

    嵌入式也多核_淺析ARM_Cortex A9 MP Core多核處理器

    嵌入式也多核_淺析ARM_Cortex A9 MP Core多核處理器
    發(fā)表于 09-25 09:30 ?11次下載

    基于ARM Cortex_A8的嵌入式Linux開(kāi)發(fā)的平臺(tái)構(gòu)建

    基于ARM Cortex_A8的嵌入式Linux開(kāi)發(fā)的平臺(tái)構(gòu)建
    發(fā)表于 09-25 13:45 ?15次下載
    基于<b class='flag-5'>ARM</b> <b class='flag-5'>Cortex_A</b>8的<b class='flag-5'>嵌入式</b>Linux開(kāi)發(fā)的平臺(tái)構(gòu)建

    ARM仿真器與嵌入式系統(tǒng)設(shè)計(jì)講解

    嵌入式系統(tǒng),有些嵌入式系統(tǒng)還包含操作系統(tǒng), 但大多數(shù)嵌入式系統(tǒng)都是是由單個(gè)程序實(shí)現(xiàn)整個(gè)控制邏輯。 所謂ARM仿真器,即用于調(diào)試基于
    發(fā)表于 10-18 13:24 ?1次下載

    arm_cortex_m3_嵌入式_交大_PPT

    arm_cortex_m3_嵌入式_交大_PPT
    發(fā)表于 10-26 09:36 ?21次下載
    <b class='flag-5'>arm_cortex</b>_m3_<b class='flag-5'>嵌入式</b>_交大_PPT

    幾種基本嵌入式處理器的介紹和應(yīng)用概述包括Sitara,ARM,Cortex

    本文的主要內(nèi)容介紹的是幾種常見(jiàn)的基本嵌入式處理器的介紹和應(yīng)用概述包括Sitara? ARM? Cortex?-A8 & ARM9?等
    發(fā)表于 04-24 11:20 ?11次下載
    幾種基本<b class='flag-5'>嵌入式</b>處理器的介紹和應(yīng)用概述包括Sitara,<b class='flag-5'>ARM</b>,<b class='flag-5'>Cortex</b>等

    使用ARM核設(shè)計(jì)實(shí)現(xiàn)嵌入式CPU的AHB接口說(shuō)明

    本文分析了基于芯核的嵌入式CPU 設(shè)計(jì)的特點(diǎn),提出了設(shè)計(jì)基于ARM 核的嵌入式CPU內(nèi)AHB 接口存在的空洞問(wèn)題。結(jié)合體系的設(shè)計(jì),給出了通過(guò)
    發(fā)表于 10-18 16:13 ?3次下載
    使用<b class='flag-5'>ARM</b>核設(shè)計(jì)<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>嵌入式</b><b class='flag-5'>CPU</b>的AHB接口說(shuō)明

    arm嵌入式主板的優(yōu)缺點(diǎn)

    嵌入式主板是嵌入設(shè)備里面做控制、數(shù)據(jù)處理使用的CPU板 ,常見(jiàn)的有兩類(lèi),即基于X86的嵌入式主板和基于RISC的
    發(fā)表于 07-17 11:17 ?6922次閱讀

    Arm發(fā)布新的Cortex-A78C CPU,預(yù)計(jì)將為移動(dòng)設(shè)備供電

    Arm于去年五月宣布了將為下一代移動(dòng)和嵌入式處理器提供動(dòng)力的技術(shù)。其中包括Cortex-A78 CPU和匹配的Mali-G78 GPU。這些可能主要用于移動(dòng)
    的頭像 發(fā)表于 11-05 15:41 ?1895次閱讀

    ARM_Cortex-A8嵌入式原理與系統(tǒng)設(shè)計(jì).pdf

    ARM_Cortex-A8嵌入式原理與系統(tǒng)設(shè)計(jì).pdf
    發(fā)表于 02-08 15:07 ?12次下載

    ARM Cortex-A53嵌入式開(kāi)發(fā)平臺(tái)Android手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《ARM Cortex-A53嵌入式開(kāi)發(fā)平臺(tái)Android手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 04-28 15:10 ?0次下載

    詳解Arm Cortex-A320 CPU的特性

    Arm Cortex-A320 CPU 的推出具有重要的里程碑意義。作為首個(gè)基于 Armv9 架構(gòu)的超高能
    的頭像 發(fā)表于 02-27 17:13 ?194次閱讀
    主站蜘蛛池模板: 91啪在线视频 | 久久精品综合 | 欧美爱爱网址 | 亚洲四虎影院 | 亚色网站 | 日日爱视频 | 欧美一级高清片欧美国产欧美 | 丁香欧美 | 国内精品久久久久影院免费 | 上海一级毛片 | 玖玖爱在线播放 | 老色皮 | 午夜爱爱网站 | 伊人最新网址 | 一二三区乱码一区二区三区码 | 三级在线观看视频网站 | 大蕉久久伊人中文字幕 | 有码日韩 | 男女爱爱免费视频 | 在线观看一二三区 | 西西人体44rt高清午夜 | 伊人久久综合成人亚洲 | 嫩草影院www| 欧美猛交喷潮在线播放 | 性xxxxbbbb免费播放视频 | 婷婷丁香综合 | 377p亚洲欧洲日本大胆色噜噜 | 午夜想想爱午夜剧场 | 九九国产在线 | 亚洲一区二区在线 | 午夜影院7cdy| 人操人摸 | 四虎影院在线看 | 一级特黄aa毛片免费观看 | 国产精品五月天 | 小雪被老外黑人撑破了视频 | 色秀视频免费高清网站 | 午夜国产精品理论片久久影院 | 一区二区三区国模大胆 | 欧美zoozzooz在线观看 | 中文字幕不卡在线播放 |