機器學習（ML）推理主要計算之存內計算芯片

01. 介紹

摘要：存內計算（CiM）已成為一種極具吸引力的解決方案，用于緩解馮-諾依曼體系結構中高昂的數據搬運成本。CiM 可以在內存中執行大規模并行通用矩陣乘法（GEMM）運算，這是機器學習（ML）推理中的主要計算。

然而，將存儲器重新用于計算提出了以下關鍵問題：1）使用哪種類型的 CiM：鑒于模擬和數字的 CiM 種類繁多，需要從系統角度確定它們的適用性。2）何時使用 CiM：ML 推理包括具有各種內存和計算要求的工作負載，因此很難確定 CiM 何時比標準處理內核更有優勢。3）在哪里集成 CiM：。每個內存級別具有不同的帶寬和容量，這會影響到集成CiM帶來的數據傳輸和局部性優勢。

在本文中，我們將探討如何回答這些有關 CiM 集成用于 ML 推理加速的問題。我們使用 Timeloop-Accelergy ［1］、［2］對 CiM 原型（包括模擬和數字基本運算單元）進行早期系統級評估。我們將 CiM 集成到類似 Nvidia A100 的基線架構中的不同級別的高速緩沖存儲器，并為各種 ML 工作負載定制數據流。我們的實驗展示了CiM 體系架構提高了能效，在具有INT-8 精度的情況下，實現了能效比既定基線架構低 0.12 倍，在具有權重交錯和重復的情況下，實現了高達 4 倍的性能提升。所提出的工作有助于深入了解應使用哪種類型的 CiM，何時以及在緩存層次結構中的哪個位置最優地集成它以加速GEMM運算。

機器學習（ML）應用已經在汽車、醫療保健、金融和技術等各個領域變得無處不在。這導致對高性能、高能效 ML 硬件解決方案的需求不斷增加。

矩陣-向量乘法和通用矩陣-矩陣乘法（稱為 GEMM）是卷積網絡和transformers網絡等 ML 工作負載的核心［3］、［4］。

由于此類計算是數據密集型，它們會產生很高的能耗成本，尤其是在諸如中央處理器（CPU）和圖形處理器（GPU）等馮-諾依曼架構的計算處理器。而造成這種高能耗成本的原因是，在此類架構中，計算處理單元與存儲單元分離，導致處理單元與存儲器之間的存儲器訪問和數據移動成本高昂，這就是通常所說的 “存儲墻 ”或 “馮-諾依曼瓶頸”。

圖 1. 概覽圖顯示，要實現最佳的 ML 推理加速，需要了解各種 CiM 類型（What）、GEMM 形狀（When）和內存級別（Where）的不同特性。

［5］。為解決這一問題，人們提出了存內計算（CiM）范式，通過在內存中直接執行計算，以降低昂貴的數據移動成本，并提供高能效比解決方案［6］，［7］。

將 CiM 集成到跨存儲器層級的方法有很多：從 CMOS 片上高速緩沖存儲器到 DRAM 或閃存［8］-［10］。在這項工作中，我們重點關注在片上存儲子系統中添加 CiM，因為這不需要激進極端的技術變革。雖然將 CiM 集成到緩存中的研究已經展開［11］-［13］，但在系統層面對不同類型的 CiM 基元（或設計）的有效性，尤其是對 ML 推理的有效性進行全面評估的研究仍有待進行。我們的工作探索了在 GPU 的流式多處理器（SM）中將 CiM 集成到不同高速緩存級別、寄存器文件（RF）和共享內存（SMem）的好處（圖 1）。GPU 由數百個 SM 組成，這些 SM 通過大型交叉條互連并通過L2級存儲連接到 DRAM ［14］。為了在存儲器子系統中有效利用 CiM，需要確定 CiM 的最佳類型、何時使用以及在何處使用，以便進行 ML 推理。

什么類型的 CiM：根據計算類型，CiM 大致可分為模擬和數字計算兩種［15］-［21］。模擬 CiM 在存儲器陣列內的模擬/混合信號域中執行乘法和累加（MAC）運算操作。為了實現不同 CiM 塊之間的通信，需要使用數模轉換器（DAC）和模數轉換器（ADC）之類的外圍電路，以減少模擬噪聲對計算的影響。ADC 通常具有較高的面積、延遲和能耗成本，從而增加了整體模擬 CiM 的開銷。相比之下，數字 CiM 通過執行比特逐位與/異或以及乘法運算，在數字域中執行所有計算。為了計算最終的 MAC 輸出，需要執行多逐位操作，這可能會增加數字 CiM 的計算延遲。此外，存儲器單元的類型（SRAM-6T/8T）、一次啟用的字線或位線的數量以及存儲器陣列中權重的映射方案等設計選擇，也使得確定系統中最有效的 CiM 基本運算單元變得越來越具有挑戰性。

何時使用 CiM：ML 模型由各種 GEMM 的形狀和大小組成。GEMM （M × N × K）計算可視為將大小為 M × K 的輸入矩陣與大小為 K × N 的權重矩陣相乘，得到大小為 M × N 的輸出矩陣［22］。通過計算算術運算（浮點運算或 FLOPs）與內存訪問（字節數）的比率，算術強度或數據復用可以了解 GEMM 計算對內存的依賴程度。圖 2 顯示了 GEMM 性能與算術運算強度之間的屋頂線表示。該圖表明并非所有的 GEMM 都需要 GPU 的全部功能，從而導致 SM 利用率不足。當采用 CiM 進行 GEMM 計算時，它有可能保持與標準計算范式相當的性能。2） GEMM 對計算和內存的要求范圍很廣。因此，目前還不清楚 CiM 在能耗和性能方面的優勢何時會高于基線。

在何處集成CiM：由于 GEMM 具有規則的數據訪問模式，并提供較高的時間局部性和空間局部性，因此矩陣以塊或更小的tile為單位從主存儲器獲取到高速緩存中［23］。通常情況下，GPU 會優化其內存層次結構，以高效地重復使用tile數據，并在 SM 的子核中的數百個張量核上并行執行 GEMM 操作。基于 CiM 的硬件設計也能通過在內存陣列內啟用多列和多行以及利用多個內存陣列的并行性來執行并行矩陣乘法。然而，每個內存層級在帶寬和存儲容量方面都有所不同（表五），這影響了數據復用機會以及重新利用 CiM 功能時的計算并行性。因此，找到一個能很好地利用局部性并提供最高 CIM 效益的內存級至關重要。

我們的方法為了充分利用和評估 CiM 相對于通用處理器的優勢，我們考慮了一系列工作負載規格、內存級別和 CiM 特性。隨后，針對給定規格選擇最優數據流對于實現盡可能高的性能和能效非常重要。最優數據流通過在給定硬件資源上高效調度和分配 GEMM，減少內存訪問次數，從而影響數據復用。GEMM 的算法數據復用可以用 MAC 運算次數除以矩陣總大小來計算。但需要注意的是，觀察到的數據復用是由數據流決定的，因為它取決于存儲器訪問的實際次數。

在類似 Nvidia-A100 的基線架構中，分析評估基于 SRAM 的RF和 SMem 級模擬和數字 CiM 基元。

通過為給定的 CiM 架構和 GEMM 形狀找到最優數據流，優化 CiM 帶來的性能和能效提升。

從能耗/性能的角度詳細解答各種 GEMM 形狀的 CiM 的類型、時間和位置的選擇。

本文其余部分安排如下：第二節將我們的工作與過去的其他研究區分開來。

下一節（III）介紹了這項工作的相關背景。第四節詳細介紹了用于實驗的 CiM 基本計算單元集。

下一節（V）重點介紹了主要收獲、結果和討論，最后一節是結論。

02. 相關工作

雖然已有研究考慮了 CPU 中的緩存內計算，但還沒有研究將 GPU 內存重新用于計算。例如，Duality 高速緩存［11］架構重新利用了服務器級至強處理器的末級高速緩存來加速數據并行應用。他們還擴展了系統堆棧，開發了類似于 CUDA 的單指令多線程（SIMT）編程模型，用于在緩存中執行浮點和整數算術運算。MLIMP ［12］通過為多層內存處理系統開發并發任務調度程序，擴展了圖形神經網絡的二元緩存（Duality Cache）概念。他們提出了基于內存類型（位串行存儲 SRAM/憶阻器ReRAM/動態存儲器 DRAM）的任務調度和內存分配算法。另一方面，這項工作的重點是分析將 GPU 不同層次的內存重新用于 ML 推理的好處。我們之所以考慮 GPU，是因為 GPU 在加速 GEMM（推理任務的核心計算）方面具有廣泛的優勢。此外，GPU 是可編程加速器，同樣的編程模型有可能重新用于集成 CiM 的 GPU。

Livia ［13］還研究了修改 CPU 中的高速緩沖存儲器，以盡量減少不規則數據訪問的整體數據搬運。它提出了一種系統架構，可在存儲器層次結構的不同位置動態調度任務和數據。相比之下，我們的重點是關注高度規則的工作負載（GEMM），并確定 CiM 基本計算單元提供的并行性是否能與高速緩存層次結構提供的局部性優勢相匹配。

To-Pim-or-Not［25］是第一個提出如何以及何時在不同應用中使用存內處理（PIM）問題的工作。它側重于開發一個軟件框架，以確定何時以及如何有效地將計算卸載到 PIM，同時分析性能優勢和卸載成本之間的權衡。然而，這項工作的范圍僅限于新興的通用 DDR 存儲系統，從而造成了對基于 SRAM 的 CIM 基本計算單元的理解上的空白。我們的工作通過考慮在GPGPU 的高速緩存層次結構中的運用 CiM基本計算單元，從而填補了這一空白。最近另一項關于內存中模擬與數字計算基準測試的工作［26］，基于固定的模擬 CiM 和數字 CiM 設計（稱為模板），開發了一種量化能耗模型。然而，CiMMacros基本運算單元在外圍電路方面差異很大，使用模板限制了 CiM Macro基本運算單元的設計選擇。此外，它也未提及在具有可配置數據流選項的系統中的 CiM 延遲或性能評估。我們利用 Timeloop 模型［1］方法對不同 CiM 基本運算單元的系統進行分析評估。Timeloop 考慮了具有算術單元和內存層次結構的通用架構模板。

03. 背景

A.GEMM 在 ML 工作負載中的重要性

機器學習工作負載由各種神經網絡組成，從卷積、全連接到Transformer和推薦模型。矩陣-向量乘法和矩陣-矩陣乘法是這些神經網絡計算的核心［3］，［4］。在本文中，我們將此類乘法統稱為通用矩陣-矩陣乘法或GEMM（M×N×K）。M、N 和 K 用來表示矩陣的維數（圖 1），其中 K 是約簡維數。

通過使用 im2col 將輸入和權重特征圖的卷積操作轉換為矩陣-矩陣乘法，可以將卷積神經網絡（CNN）作為 GEMMs來實現［22］。im2col 或圖像-列轉換將三維卷積操作轉換為 GEMM （M，N，K），其中K代表輸入和權重之間 MAC 操作的約簡維度，M 代表此類約簡或卷積的總數，N則根據輸出通道的數量決定。與其他層相比，CNN的初始層通常具有更大的輸入特征圖，適用于較大的數據集，如ImageNet。最后一層是分類器，本質上是全連接（FC）層。它由矩陣向量乘法組成，可以看作是GEMM的一種特例。同樣，Transformer網絡模型根據初始層的輸入嵌入計算查詢矩陣（WQ）、鍵矩陣（WK）和值矩陣（WV），可視化為相同形狀的 GEMM。此外，Transformer網絡模型由其他 GEMMs 組成，如logit（QKT）、注意力（QKTV）和輸出（WO）計算，然后是FC層。另一方面，推薦模型采用多層感知器（MLP），從稠密特征池和用戶偏好中預測項目［27］，基本上由 FC 層組成。表I列出了 GEMM 的形狀，代表了各種ML工作負載的形狀和大小。

B.基于 SRAM 的存內計算基本計算單元

與邏輯運算相比，內存訪問的成本較高［28］，因此很多人提出在片上 SRAM 中執行計算［29］。這些 CiM Macros的設計方式可以基于模擬或數字以各種方式設計。另一個關鍵因素是所使用的 SRAM 單元類型。這些單元的晶體管數量各不相同，常見的有 6T ［20］、8T ［17］和 10T ［30］單元。此外，CiM Macros的輸入數據存儲或應用于 CiM 計算的方式也各不相同。例如，輸入可以存儲在 CiM Macros本身，也可以從外部緩沖器應用到 CiM Macros。

在數字CiM中，乘法和累加運算是通過位串行邏輯門在數字域中進行的。這種邏輯單元通常置于 CiM macro的外圍電路中［15］、［18］、［19］。數字 CiM macro的計算并行程度通常取決于macro中添加的邏輯資源量。然而，在數字 CiM 設計中添加更多邏輯電路會導致顯著的晶圓面積開銷［18］，從而影響性能/能耗-面積的權衡。另一方面，模擬CiMmacro通過字線輸入比特來執行 MAC 運算，同時將權重值存儲在CiM macro中［16］，［17］。輸出生成為位線上的模擬電壓或電流，其需要通過模數轉換器（ADC）將其轉換為數字信號，以實現macro之間的通信魯棒性。值得注意的是，模數轉換器是模擬CiMmacro的主要面積/延遲/能耗的瓶頸［31］。已有的技術試圖通過更窄的輸出精度或新穎的ADC電路設計來攤銷 ADC 的成本，以獲得更好的能效/性能［16］、［17］。值得一提的是，數字 CiM 可與最先進的晶圓制造技術工藝節點相兼容匹配［19］，而模擬 CiM 則不可以，在這種先進的技術節點上，ADC會出現明顯的噪聲［32］。

如前所述，CiMMacros包括各種 SRAM 單元類型。CiM Macros通常采用 8T（Transistor）單元，因為它們具有解耦的讀寫端口，可將讀取干擾問題降至最低［15］，且噪聲容限高于 6T 單元。基于 8T 的 CiM 可同時支持多條字線，從而實現更多并行 MAC 操作并提高能效。另一方面，6T 單元由于結構緊湊面積小，已成為常規SRAM 設計的技術標準。。從而為了減少 8T 單元的面積開銷，人們提出了基于 6T 的 CiM設計。為了避免基于 6T 的 CiM macro的讀取干擾問題，目前提出了幾種電路技術［16］、［18］、［20］。例如，為了執行基于 6T 的模擬 CiM，［16］、［20］在共享相同位線的一組 6T 單元中添加了一個本地計算單元塊。在一列中有多個組，其中不同組中的兩個單元不共享同一位線。需要注意的是，在計算過程中，每個本地計算單元塊只激活一個 6T 單元，以避免讀取干擾。除了基于 6T 和 8T 的 CiM之外，一些報道過的macro還采用了其他單元類型（如 10T ［30］），它們可以在單元內執行更復雜的計算（如脈沖神經網絡的內存內加法和膜電位更新），但同時會導致更大的面積開銷。

CiMmacro的輸入方式也各不相同。輸入數據可以在計算之前存儲在 CiM macro中［15］，也可以在 CiM運行過程中從外部緩沖區流進macro［17］。輸入存儲/數據流會對相應的 CiM macro產生不同的映射/數據流約束，從而導致不同的最優數據變化。

此外，在這些研究中還出現了不同的輸入/輸出精度，這給比較帶來了挑戰。為了進行公平比較，我們在這項工作中將輸入/輸出精度固定為 8 位整數。值得一提的是，不同的CiMmacro由于其獨特的計算性質，可能會在macro級別上強加某些數據流［15］，［16］。

C.高速緩存層次結構中的數據流優化

GEMM 由于其規則的數據訪問模式而表現出很高的空間和時間局部性。為了利用這種局部性，GPU 通過分片（或分塊）輸出矩陣和并行執行分片計算來實現 GEMM ［23］。對于給定的數據流，循環因子解釋了這種分片的大小，而循環順序（數據流循環表示中的 M、N、K 順序）決定了在給定存儲器級別上分片的復用。算術強度或數據復用可以計算為運算次數除以從存儲器中提取的矩陣的總大小：：

假設每個矩陣從主存儲器訪問一次，其中 BP 為位精度。

存儲器訪問的次數取決于矩陣如何被劃分成片以及不同矩陣維度的獲取順序，這稱為數據流。因此，觀察到的數據復用可能與算法上的數據復用不同。

GEMMs 的性能受到其算法運算強度和硬件資源的限制。算術強度低的 GEMM 受存儲器帶寬的限制，而算術強度高的 GEMM 則受峰值性能的限制。cuDNN 和 cuBLAS 等軟件庫可用于決定tile大小，以便在給定 GEMM 形狀下實現盡可能高的性能。tile越大，數據復用率越高。數據復用的增加可降低帶寬要求，提高效率。然而，選擇較大的tile可能會減少可并行運行tile的數量。這種減少有可能導致性能降低。

鑒于在 GPU 上優化 GEMM 的實現是為了獲得最佳性能，因此為 CiM 集成架構實現最優數據流也很重要。在探索數據流搜索空間和選擇最優數據流方面有多項研究。SCNN ［33］是最早為深度神經網絡（DNN）引入數據流優化的著作之一。他們提出了一種輸入固定數據流，即輸入激活保持靜態，允許其乘以每個輸出通道所需的所有濾波器權重。此外，Timeloop ［1］提出了一種低成本映射器和模型，用于探索 DNN 和 GEMM 的數據流搜索空間。它將輸入問題的大小建模為嵌套循環，從而可以評估數據復用的機會，并在不同架構和工作負載之間進行高效映射。Maestro ［34］是另一種工具，它提出了一種分析成本模型，利用以數據為中心的方法評估數據流中的成本效益權衡。ZigZag ［35］也通過將搜索范圍擴大到不均衡調度機會來探索 DNN 加速器的設計空間。

04. CiM 架構構建

為了估算不同 CiM 基本計算單元的能耗和性能，所有評估都使用 TimeloopAccelergy 框架［1］。我們選擇 Timeloop/Accelergy 基礎架構是因為：1.它是一種快速分析模型，在研究項目中廣泛用于早期設計估算；2.它提供了一種映射器，可為給定架構選擇最佳數據流；3.它是一種靈活的工具，過去曾用于模擬 CiM 的建模［36］。

該框架將架構、約束、映射配置和能耗表文件作為輸入。為了進行評估，我們創建了單獨的架構模板文件，用于在RF和 SMem 層面集成 CiM（圖 1）。如圖 3 所示，這樣的架構模板將運算單元塊在存儲器級別替換為重新設計使用的CiM 的模塊。這種 CiM 集成存儲器級由多個 CiM 陣列（MeshX、MeshY）組成，取決于存儲器的大小和容量。每個 CiM 陣列是一個 CiM 單元網絡，一次可計算一個 MAC。CiM 單元的數量取決于陣列中同時開啟的行數（Rp）和列數（Cp）。因此，所有 CiM 單元都可以并行執行 MAC 運算。由于 CiM 陣列中的所有列/行通常不會同時打開，因此 CiM 陣列的這種順序性以時間循環因子（n）的形式體現（參見圖 6）。這種 “并行輸出-順序輸入 ”模板方法（圖 3）可同時捕捉模擬和數字信號。圖 3）同時捕捉了基于模擬和數字的 CiM 類型。表 II 詳細列出了 CiM 架構模板中使用的參數。

圖 3. 用于在 Timeloop 中表示 CiM 基本計算單元的架構模板文件框圖。內存級被重新組合為計算級，表現為多個 CiM 陣列的網絡。每個 CiM 陣列由可并行操作的單個 CiM 單元組成，每個 CiM 單元一次計算一個乘法累加（MAC）運算。CiM 單元的存儲空間可能只包含權重，也可能包含權重和輸入，具體取決于 CiM 基本計算單元的原始映射約束。

根據原始 CiM 硅原型測得的性能數據，向 Accelergy 提供了 CiM 能耗表。由于原型在電源電壓和技術方面存在差異，因此根據已完成的縮放工作［37］，對能耗數據進行了縮放，以匹配 1V 電源的 32nm 技術。在 Timeloop 架構模板中假設頻率為 1GHz，通過計算周期的延遲來捕捉 CiM 基本計算單元工作頻率的差異。下一節將介紹如何調整約束配置，以獲得每個輸入規格的最優數據流。

05. 演進

A.實驗設置

1） Cim 基本計算單元：我們為模擬/混合信號和數字CiM選擇了兩種最先進的基于 SRAM 的基元，如圖 4 所示。這些基本計算單元涵蓋了一系列不同的參數，詳見表 III 和下文說明。

如圖4（a）所示，Analog-1 ［16］ CiM基本計算單元由4個存儲體組成，每個存儲體有4個128x64 SRAM6T單元塊。它采用轉置映射技術，向多個列提供輸入。這種配置產生256個（4×64） CiM單元，每個單元有128b （16×8b）存儲空間。每個單元可以在9個周期內執行8b-8b MAC操作，同時處理2bit個輸入并激活8行權重位。然而，由于每個組共享的ADC數量有限，因此該基本計算單元的時間循環因子設置為16。

圖 4（b）所示的模擬-2［17］基本計算單元采用可重新配置的 ADC 設計，有 8 個陣列，每個陣列（64×64）存儲不同的權重位，每個計算周期有 4 個 ADC 輸出。這種設計產生了 256 （64×4）CiM 單元，每個單元能在144個周期內執行 8b-8b MAC，包括位串行延遲和從65納米到 32 納米的縮放調整。每個CiM單元包含 8×（64÷4）個權重位，由于ADC的限制，這些權重位需要按順序依次計算。這種基元的單次計算能耗較低，但由于其可重新配置的特性，面積開銷較大。

圖 4（c）所示的 Digital-1 ［18］采用全數字設計，將輸入輸送到每一行，并使用加法器樹在每一列執行 MAC 運算。這里每個 CiM 單元通過組合存儲在 8 列中的權重比特來計算1個8b-8b MAC。加法器樹的減少產生了面積開銷，但導致 18 個周期的計算延遲。

圖4（d）中的Digital-2［15］基本計算單元顯示了輸入和權重都映射到同一列的設計。這種配置允許每個CiM單元（包括單列）執行大約10個8b-8b MAC操作。然而，每個操作都需要233個周期，這歸因于過程中涉及的多個加法。盡管面積開銷很小，但由于在列中分配一些數組位以減少輸出，因此計算并行性受到限制。

2） GEMM形狀：我們從ResNet50［38］與ImageNet［39］、序列長度等于1024的 BERT-medium［40］和DLRM［27］等常用ML模型中提取了各種GEMM形狀。我們根據表 IV 所列的 GEMM 形狀的獨特屬性對其進行了剪枝，以涵蓋不同的權重大小、形狀和計算性質。如圖 2 所示，計算密集型 GEMM 位于屋頂線表示的平頂下方。它們的數據復用率較高，這意味著每次內存訪問的計算次數較多。另一方面，內存密集型GEMM位于帶寬受限的屋頂線下方，以內存訪問而非計算為主。表中計算密集度較低的GEMM技術上屬于計算密集型區域。不過，它們的數據復用程度中等，形狀偏斜。

3）基準：我們假設采用單個SM基準架構，與最新GPU（Nvidia A100）的規格一致，詳見表 V。所有實驗都是在INT-8精度、權重固定數據流和等面積約束下使用Timeloop/Accelergy 框架進行的。之所以選擇 INT-8，是因為它在 ML 推理任務中是可接受的精度［41］、［42］。等面積假定，通過調整容量，CiM 整合后的內存級面積保持不變。由于A100由108個SM組成，我們大約假設1個SM架構的總HBM帶寬為10%。

B.數據流的影響

在本小節中，我們將簡要討論在寄存器文件RF中集成了CiM的兩種GEMM形狀，以強調不同的基本計算單元如何利用數據復用的機會。通過為每個基本計算單元設置約束文件，使用timelloop映射器找到最優數據流。圖5顯示了CiM級別的樣本數據流，其中在約束文件中根據CiM類型設置了突出顯示的參數。為了最大限度地提高性能，我們設置了映射的約束，以便在CiM單元中并行完成最大的計算，即使用權重交錯。其他優先級是最大化映射權重的輸入數據復用，并在有利的情況下允許權重重復。

當權重（N × K）矩陣較小，且 M 明顯超過 N 和 K 時（圖 5（a）中為 Gemm-3136 × 64 × 64），權重可以與CiM 集成在寄存器文件 RF存儲器。這里，每個CiM基本計算單元由4096個CiM單元組成。基線已經在DRAM上實現了最高的數據重用（≈63，見表I），并可以跨CiM基礎計算單元進行維護。然而，CiM 可以通過重復使用存儲在 SMem 中的整個輸入tile（M×K），更好地利用寄存器 RF及的輸入數據重復利用率（≈3112）。這就降低了 CiM 的內存訪問次數，從而將總能耗降低了 0.50 倍-0.67 倍。就吞吐量而言，CiM 的吞吐量受到了嚴重的影響，僅為基線吞吐量的 1%-22%。高計算周期 CiM 基本計算單元的計算周期比基線高 1 個周期，這直接影響了最終吞吐量，即使使用權重交錯映射也是如此。因此，在等容量限制條件下，由于并行性有限，不可能達到基線吞吐量。

如圖 5（b） Gemm-3136x64x64 所示，在等面積限制下，CiM 的吞吐量損失可以部分抵消。這些限制允許在每個基本計算單元的面積開銷允許的范圍內擁有盡可能多的 CiM 單元，從而擴展到 4096 個 CiM 單元以上。尤其是Digital-1 基本計算單元，通過復制權重，其吞吐量達到了基線吞吐量的 77%。由于寫入 SRAM 單元比訪問 DRAM 消耗更少的能量，因此權重復制能以最小的能量成本提高吞吐量［6］。需要注意的是，重復的次數受 CiM 單元數量和向 CiM 單元廣播輸入的上層存儲器容量的限制。

當權重矩陣過大而無法放入內存（圖 5（c）Gemm-512x1024x512）且 M ≈ K 時，與基線相比，CiM 基元可利用 DRAM 中更高的數據復用率。這就減少了最后一級訪問，節省了更多能耗（是基線的 0.36-0.57 倍）。在吞吐量方面，較小的輸入矩陣（M×K）減少了對共享內存容量的限制。這意味著所有 M 個維度都可以存儲在 SMem 中，用于映射 K 個維度，因此，如果有足夠的 CiM 單元，就可以進行更多的權重復制。Digital-1 利用這一機會實現高于基線的吞吐量。Analog-2 和Digital-2 的吞吐量最低，因為它們的性能受到高計算延遲的限制。此外，面積開銷和映射限制也限制了它們的吞吐量。Analog-2 的面積開銷較大，限制了同一面積內可容納的 CiM 單元數量。Digital-2 有一個固有的面積開銷，這是由于在同一列中映射輸入和部分輸出位的限制造成的，這進一步限制了可以并行操作的 CiM 單元的數量。

基于同樣的思路，我們確保所有工作負載都以最佳方式映射，并在接下來的小節中討論不同 GEMM 形狀、CiM 類型和存儲器級別的結果，以深入了解 “什么”、“何時 ”和 “何地 ”的問題。

C.性能結果

圖 7（a）和圖 7（c）分別比較了在寄存器文件 RF和 SMem 級集成 CiM 時觀察到的性能。

What：比較不同的CiM基本計算單元，Analog-1具有較小的計算延遲（9個周期）的其顯示的性能范圍為基線吞吐量的22%到100%。另一方面，Digital-1（計算延遲為 18 個周期）的吞吐量可高達基線吞吐量的 450%，總體上接近基線吞吐量，但某些 GEMM 除外（在 “何時 ”一節中討論）。這意味著，在 CiM 設計中，對于吞吐量而言，利用全行和全列并行性的能力比實現盡可能低的延遲更為重要。不過，也不能完全忽視延遲，正如Analog-2 和Digital-2 基本計算單元的較低性能所描述的，計算延遲分別高達 144 和 233 個周期。

When：與其他 GEMM 形狀相比，具有較大權重矩陣的計算約束/密集層（Layer6、Layer18、Layer46、GemmV、FC1 和 FC2）在使用 CiM 基本計算單元時性能最高（在寄存器文件RF級重新使用時，最低為基線的 78%）。少數受計算約束/密集的 GEMM，特別是 K 值較小的 Layer2 和 QKTV，在所有 CiM 基元中的性能都不理想，分別只達到基線吞吐量的 39% 和 47%。這種較低的性能可歸因于 Digital-1 的較低性能，這源于對 K 維度的映射限制。CiM 架構有權重（N×K）映射，以減少 K 維度上的多個部分和，從而限制了小 K 維度的并行性。基線則不存在此類限制，因此在此類 GEMM 中可獲得更高的性能。同樣重要的是，由于數據復用有限，CiM 基元的最高性能不會超過存儲約束層（Layer50、MLP2、MLP3）的基線。

Where：考慮到所有 CiM 基本計算單元的最高性能，在寄存器文件RF級觀察到的最大吞吐量（≈400%）明顯高于在 SMem 級觀察到的吞吐量（≈170%）。這可歸因于 SMem 的面積（164KB）小于單個內核中的 4 個 RF 實例（256KB），這使得相同面積中的 CiM 單元更少，從而限制了可實現的最大吞吐量。這種行為的一個反常現象是，由于內存寬度和高度限制的不同，映射器在 SMem 而不是RF上找到了利用率更高的更好映射。例如，盡管在SMem層級計算時存在帶寬節流，但 MLP3 在 SMem 和 Analog-1 上的性能比在RF上高出≈50%。

D.能耗結果

根據圖 8（b）和圖 8（d）所示的能耗，我們可以得出以下結論：

What：在能效方面，CiM 基本計算單元沒有明顯的優勝者。雖然 Analog-1 和 Analog-2 顯示出最佳的能效，FC2 層的能效分別是基線能效的 0.16 倍和 0.12 倍，但 QKTV 層和 QKT 層的能效也分別高達基線能效的 1.7 倍和 4 倍。另一方面，Digital-1 和 Digital-2 基元的能耗始終呈下降趨勢，分別為基線能耗的 0.22 倍至 0.86 倍和 0.23 倍至 0.75 倍。這表明，如果考慮到主內存，TOPS/W 最高的基本計算單元（本例中為 Analog-1）不一定是最節能的。對于無法映射所有權重（高 K 或高 N）的基本計算單元（取決于基元類型和內存級別），由于輸出值的時間還原次數增加，總能耗會大于基線。舉例來說，Analog-2 在 K 較大時表現較差，尤其是在 SMem 時，因為設計將 N 維并行化，并將 K 限制在 64。當權重矩陣較小時（例如，模擬-2-SMem 的 QKTV，其中 N 》》 K），效果會很明顯，因為基線可以有效地減少部分和，并且不需要對主存儲器級進行大量訪問。SMem 的 Digital-2 也擁有較少的 CiM 單元，但與模擬系統不同的是，它允許將 K 維映射到同一陣列中的不同列。

When：我們觀察到第 18 層、第 23 層、GemmV、FC1 和 FC2 的能耗降低幅度最大，分別為基線能量的 0.24 倍、0.33 倍、0.24 倍、0.27 倍和 0.12 倍，尤其是在寄存器文件RF層重新使用時。所有這些層的 K 值都很高，這說明當部分的求和降維的數量較多時，CiM 基元的能量效益最大。對于存儲約束層（Layer50、MLP2 和 MLP3），所有 CiM 基元都表現出類似的優勢，能耗降低了 30%，因為總能耗主要來自 DRAM 訪問。

Where：由于更大的面積和更多的實例，寄存器文件 RF比SMEM具有更多的CiM單元，這通常導致更低的存儲器訪問或能耗。例如，對于 QKT 層，與 SMem 相比，Analog-2 從 RF 計算中獲益最多。在 SMem 和 RF 中添加 CiM 后，總能耗分別從基準能耗的 4 倍降至 0.6 倍。同樣，對于 GemmV、FC1 和 FC2 層，與 SMem 相比，RF 的Analog-1、Digital-1 和Digital-2 能耗分別約為 0.5 倍、0.6 倍和 0.8 倍。不過，從不同 GEMM 形狀的平均值來看，根據基本計算單元設計和 GEMM 形狀的不同，一種 CiM 基元可能更適合特定的存儲器層。例如，Analog-2 基元的面積開銷較大，在寄存器文件 RF層集成時的能耗總是低于 SMem。對于其他基元，SMem 的能耗可能低于 RF 的能耗，如 Layer2（M》》N≈K）。另一個例子是，與寄存器文件 RF相比，Digital-2 在 SMem 下的平均能效更高。

E.討論與未來工作

啟示：隨著 ML 模型的增大和存儲器層次結構的發展，性能和能效增益的絕對數字可能會發生變化。不過，我們預計在等面積限制下，這些啟示（表 VI）將保持不變。這些啟示取決于分析評估，考慮到：1）性能收益由計算延遲和計算并行性決定；2）能效收益取決于內存訪問和計算成本。對于 CiM 基元，并行性反過來取決于 CiM 基元的映射約束、存儲器容量和面積開銷。例如，Digital-1 CiM 基元的面積開銷與 Analog-1 大致相同，而計算延遲幾乎是后者的兩倍。不過，由于映射約束更靈活，允許全行/列并行，Digital-1 實現了更高的并行性。另一方面，CiM 在能耗方面的優勢取決于內存訪問次數的減少和 CiM 單元固有的更高能效。數據流在減少內存訪問方面發揮著重要作用，因此也能最大限度地提高 CiM 的效益，這一點在分析中也得到了考慮。

假設：我們的評估以 Timeloop 中使用的分析模型為基礎，假定架構簡化，內存子系統完全流水線化。在這種架構中，如果沒有帶寬限制，一個內存級訪問的延遲會被其他內存級訪問所掩蓋。帶寬限制取決于內存訪問的總次數和該內存級的帶寬。它假定所有訪問都是合并的，并且不考慮諸如內存庫沖突、有限的未命中處理緩沖區容量以及內存中的其他架構優化等影響。但它仍能捕捉到不同 CiM 基本計算單元的大致性能，有助于了解它們在系統級的影響。

將 CiM 集成到內存子系統的方法有多種。等容量集成 CiM 可以提供更高的并行性，但代價是增加晶圓面積。將 CiM 集成到等容量內存中會影響高速緩沖存儲器的容量。這可能會進一步影響 SM 的基線吞吐量。不過，我們的工作設想了一種具有異構內核的架構，系統架構中既有 CiM SM，也有非 CiM SM。此外，我們在所有方案中都假設了權重固定的數據流，因為它是最常用的數據流。

在 CiM 數據流中增加更多靈活性可能會帶來更大的設計空間，這仍然是一個有待探索的開放式搜索空間。此外，最近的研究［44］、［45］已經展示了浮點 CiM 加速器，擴大了內存中的計算范圍。不過，這項工作中的所有實驗都假定了 INT-8 精度，包括基線中的 INT-8 精度，以使其包含各種 CiM 基本計算單元。此外，我們僅評估了 ML 工作負載中的單個 GEMM 操作，以估算可能的最大性能和能效收益。對于端到端分析，一種方法是擴展 Timeloop，使其包括層融合等功能以及非 GEMM 操作的成本開銷。層間評估還要求Timeloop考慮前一層的輸入、權重和輸出在內存層次結構中的位置，而當前版本不支持這一功能。需要注意的是，CiM 集成架構還會產生編程成本開銷，在最終確定設計方案時應考慮到這一點。

未來的可能性：為了克服 ADC 模塊影響模擬基本計算單元計算并行性的面積和延遲瓶頸，可以考慮采用無 ADC 模塊的模擬基本計算元［46］。無ADC 模擬基元只采用讀出放大器作為外圍電路，將部分和從陣列轉換為 1 位輸出。這樣的低面積開銷基本計算單元可以在相同的內存區域內實現更多的 CIM 單元。這將進一步有助于通過更高的并行性實現更高的性能，同時大幅改善能耗。模擬基本計算單元的一個注意事項是計算精度的損失。無模數轉換器 ADC的設計可能會因激進的硬件量化而導致較大的精度損失。不過，研究［47］表明，利用量化感知訓練技術 QAT 可以將精度降低到最低程度。

將 CiM 集成到內存子系統中的另一種方法是增加存儲器級別或改變存儲器技術以包括新興的器件設備。此類研究不在本文研究范圍之內。不過，我們的方法可以針對此類分析和新的 CiM 基本計算單元進行擴展。該分析還可以擴展到一個以上的 SM 架構，以包括 SM 間通信或網絡成本。完整的類 A100 GPU 模型將有 108 個 SMs，可用于映射更大的模型。圖 9 顯示了 Timeloop 中 GPU 完整模型版本與表 V 中規格的性能相關性，圖中使用 CUTLASS 3.2 ［48］在 A100-80GB 上運行了測得的 GEMM 內核。然而，全 GPU 模型的設計空間會爆炸，數據流搜索時間也會成倍增加。評估全 GPU 類模型將需要進行優化或采用新方法，才能在如此大的設計空間中有效找到最優映射。

06. 結論

我們在 GPU 架構的片上高速緩沖存儲器中集成了存內計算（CiM）。我們的實驗全面分析了 CiM 在加速基于機器學習（ML）推理任務的通用矩陣乘法（GEMM）工作負載方面的優勢。特別是，基于等效面積的分析評估得出了以下結論：

相比之下，雖然模擬基本計算單元達不到 Digital-1 的高性能水平，但它們在能效方面表現出色，能耗僅為基線能耗的 0.12 倍；數字基本計算單元緊隨其后，最佳節能效果為基線能耗的 0.22 倍。CiM 在能效和性能之間的這種權衡可以使 GPU 受益，尤其是當 GPU 以較低頻率運行以管理功耗時［49］。

When：調查表明，數據復用率高、K（》 M）值大的計算約束/密集層在性能和能效方面從 CiM 中獲益最大。例如，BERT 模型中的全連接層（FC1、FC2）。相反，數據復用率低、K 值（《《 M）較小的計算綁定 GEMM 在使用基線時通常能獲得更高的吞吐量，但在使用 CiM 時則顯示出能耗優勢。在我們的分析中，使用 Image net 數據集的 ResNet50 的初始層（如第 2 層和第 11 層）就是這樣的結果。同樣，偏斜 GEMM 在 K 》》 N 的情況下，能耗降低，吞吐量相當，但當 K 《《n 《=“” span=“”》時，性能下降。受內存限制的 GEMM（如 ResNet50 和 DLRM 中的全連接層）僅在 CiM 中顯示出能耗優勢，而吞吐量卻沒有提高。

Where：此外，研究結果表明，在集成 CiM 時，存儲器容量比存儲器層次結構中的層數更重要。存儲器容量越大，權重重復的性能就越高。然而，映射約束和計算延遲等 CiM 特性仍會限制高內存容量帶來的性能和能耗效益。

總之，這項工作對整個片上存儲器層次結構中 CiM 基本計算單元的能耗、面積和性能之間的權衡進行了全面評估。我們相信，我們的工作為了解基于 SRAM 的 CIM 在實現可比性能的同時緩解能耗問題的潛力提供了重要見解。反過來，我們的方法也有助于優化基于 CiM 的 ML 推理架構。

致謝作者感謝 2021 年提供的北美 Qualcomn 創新獎學金為本項目提供資金，并感謝 Ramesh Chauhan 在項目初始階段提供的投入。部分研究還得到了由 DARPA 和 SRC 資助的 7 個 JUMP 中心之一 CoCoSys 的資助。作者還要感謝 Aayush Ankit 的頭腦風暴和討論會議。

審核編輯：黃飛

閱讀全文

存儲器(161789) 存儲器(161789)
神經網絡(98533) 神經網絡(98533)
gpu(126396) gpu(126396)
sram(113814) sram(113814)
機器學習(130463) 機器學習(130463)

亞馬遜發布機器學習芯片瞄準英偉達和英特爾

據外媒報道，亞馬遜周三推出了一款用于機器學習的芯片。此前，英特爾和英偉達都已推出同類產品，并希望在未來幾年內借此推動業績增長。亞馬遜此前是英特爾和英偉達芯片的最大買家之一，這些芯片為亞馬遜蓬勃發展

2018-11-29 09:41:25

1263

機器學習的第二階段：推理

我們之前討論過，訓練過程是機器學習的第一階段，而推理則緊隨其后，為機器學習的第二階段。在訓練階段，算法會生成新模型或把預訓練模型重新調整用于特定應用，并幫助模型學習其參數。在推理階段，會根據學習得到

2020-06-28 16:03:40

5643

在MCU上“跑”機器學習依然也很給力

機器學習（ML）是解決涉及模式識別問題的一個非常好的工具，ML算法能將雜亂的原始數據轉化為可用信號。其基本流程是基于數據產生模型，然后利用模型預測輸出，從而實現無需人工交互即可完成學習、推理和決策

2022-07-20 17:11:13

965

IBM試制認知計算芯片,實現人腦構造

美國IBM公司2011年8月宣布試制出了“認知計算芯片(Cognitive Computing Chip)”。認知計算是一種計算概念，指像人類大腦一樣具備從經驗中學習，發現不同事物之間的聯系，進行邏輯推理并記

2011-08-22 09:11:43

838

負載和功耗太大？邊緣計算芯片來承擔

探索邊緣計算芯片，為AI/ML等技術提供邊緣端的計算助力。 ? 谷歌Edge TPU Edge TPU / 谷歌 ? Edge TPU是谷歌專為邊緣推理打造的ASIC芯片，這也是谷歌除了Cloud TPU和Google Cloud兩大云端產品外，主打邊緣計算的產品。在隱私/機密以及低延遲、小

2022-02-16 09:22:12

3707

ML50x與計算機如何通信？

老年人你好，我正在開始學習使用Xilinx ML50x FPGA板，并使用零調制解調器電纜將RS232端口連接到我的桌面。但是，根據“入門指南”，我應該可以打開一個串行終端程序：選擇開始→程序→附件

2020-06-14 08:40:34

ML之ECS：利用ECS的PAI進行傻瓜式操作機器學習的算法

2018-12-20 10:42:02

ML之預測：采用機器學習預測小組賽、十六比賽、四決賽、半決賽、決賽以及世界杯總冠軍的各個隊伍

ML之預測：玩轉2018世界杯—采用機器學習預測小組賽、十六比賽、四決賽、半決賽、決賽以及世界杯總冠軍的各個隊伍

2018-12-24 11:51:24

機器學習和人工智能有什么區別？

機器學習和人工智能有什么區別？當今唯一可用的軟件選項是 ML 系統。在十年左右的時間里，當計算能力和算法開發達到可以顯著影響結果的地步時，我們將見證第一個真正的人工智能。是人工智能軟件嗎？軟件構成

2023-04-12 08:21:03

機器人如何計算簡單的運動

模型要具備齒輪，導軌幾種基本的運動原理。要分辨基本圖形，視覺模型要能分辨圓形，方形和三角形。有了這兩點，機器人就基本上能計算開模和注塑這種簡單的工作了。要替代人類的工作，還要進一步學習。

2023-05-19 20:40:25

機器視覺計算方法

2015-08-14 09:23:59

計算密集型的程序簡析

人工智能學習1. 人工智能應用場景網絡安全、電子商務、計算模擬、社交網絡 … …2. 人工智能必備三要素數據，算法，計算力計算力之CPU、GPU對比：CPU主要適合I\O密集型的任務GPU主要適合計算

2021-09-07 06:14:03

計算機是由哪些部分組成的

示。4.指令由操作碼和地址嗎組成。5.指令在存儲器中順序存放。6.機器以計算器為中心。計算器硬件的主要技術指標1.機器字長機器字長：CPU一次能處理數據的位數。字長越長書的表示范圍越大，精度也越高。機器字長也影像計算器的運算速度。2.存儲容量存儲器的容量包括主存容量和輔存容量.

2022-01-19 07:49:18

計算機系統的組成及工作原理

來講，機器適合大數據統一性的工作，適合演繹推理類問題，而不適合邏輯推理類問題，但由于人工智能的興起，特別是深度學習的提出，機器幾乎可以適合所有工作。④、計算機：計算出要解決的問題的答案的機器。兩個著名問題：有沒有一種機器幫我們將各種要解決的問題“算”出來？什么樣的機器可以做這樣的事情？⑤、可計算與不可

2021-12-22 07:41:05

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

機器學習 (ML) 是云和邊緣基礎設施中增長最快的部分之一。在 ML 中，深度學習推理預計會增長得更快。在本博客中，我們比較了三種 Amazon Web Services (AWS) EC2 云實例

2022-08-31 15:03:46

MCU也能做Machine learning嗎

你知道嗎？MCU也能做Machine learning (ML)剛剛過去的2018年被稱為“人工智能元年”，2隨著單芯片計算力的不斷增長，機器學習（ML）不再是云計算和高性能處理器的專利，邊緣計算

2021-11-03 06:36:32

NanoEdgeAIStudio機器學習（ML）技術相關資料介紹

NanoEdge? AI Studio（NanoEdgeAIStudio）是一種新的機器學習（ML）技術，可輕松為最終用戶帶來真正的創新。只需幾個步驟，開發人員就可以基于最少量的數據為其項目創建最佳的 ML 庫。

2022-11-29 07:37:53

Project Trillium-提供業界最具擴展性、應用范圍最廣的機器學習計算平臺

Arm公司近期宣布了其Project Trillium項目，這是一套包括新的高度可擴展處理器的Arm IP組合，這些產品可以提供增強的機器學習(ML)和神經網絡(NN)功能。當前的技術產品主要針對

2019-03-07 20:12:42

Python機器學習入門之pandas的使用提示

系列文章目錄提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可參考右邊的幫助

2021-08-13 07:36:45

《移動終端人工智能技術與應用開發》+理論學習

智能技術，總體上說，機器學習主要需要三個階段，訓練、推理，其中由于訓練的模型需要較高的算力和計算機性能要求，一般的步驟是在服務器上或是高性能計算機上進行訓練后，形成成熟的模型后，再將模型進行剪枝、蒸餾

2023-02-27 23:28:20

【大聯大世平Intel?神經計算棒NCS2試用體驗】使用Intel模型優化器（Model Optimizer）的機器學習理解和測評思路

提供一套相對先進成熟的算法供開發者使用。對于神經網絡這種機器學習應用而言，應用程序（User Application）主要通過輸入數據通過推理機（Inference Engine）得出結論，舉例而言

2020-07-22 22:56:39

【瑞芯微RK1808計算棒試用申請】基于機器學習的視覺機械臂研究與設計

項目名稱：基于機器學習的視覺機械臂研究與設計試用計劃：申請理由本人在深度學習領域有四年開發經驗，申請理由：基于視覺的機械臂伺服控制系統，并根據計算機視覺相關的理論知識，構建了一個完整的對于機械臂

2019-09-23 15:39:37

【瑞芯微RK1808計算棒試用申請】基于機器視覺的工業機器人抓取工作站

正合作開發基于機器視覺的工業機器人抓取工作站，因抓取物品為亂序堆疊的毛坯零件，且零件不唯一，所以需要一定的深度學習，而出于成本考慮，選用的工控機需求工作穩而不執行大量視覺計算，故考慮單獨加置AI加速器

2019-09-18 19:24:11

【量子計算機重構未來 | 閱讀體驗】+機器學習的終點是量子計算？

便對機器的計算能力產生了興趣，雖然不是這個專業的，但是可以抽出閑魚的時間，來了解一下，可以通過學習來掌握一些技能。目前也只有在閑暇之余做一些代碼的工作了。希望以后能夠用的上。其次大學期間也沒有學

2024-03-10 16:33:46

【阿里云大學免費精品課】機器學習入門：概念原理及常用算法

學習與人工智能技術的強大之處。你是不是也想學機器學習了？機器學習是人工智能的一個分支。人工智能的研究是從以“推理”為重點到以“知識”為重點，再到以“學習”為重點，一條自然、清晰的脈絡。顯然，機器學習

2017-06-23 13:51:15

為什么需要將機器學習遷移到邊緣設備

專注于邊緣計算。第一章：為什么需要將機器學習遷移到邊緣設備？機器學習(ML)是新計算時代以來計算機領域最偉大的轉折點——它已經對幾乎所有市場產生了重大影響。它領導了互聯汽車技術的巨大進步，改變了醫...

2021-12-20 06:35:21

人工智能和機器學習的前世今生

摘要：閱讀本文以了解更多關于人工智能、機器學習和深度學習方面的知識，以及它們對商業化意味著什么。如果正確的利用模式識別進行商業預測和決策，那么會為企業帶來巨大的利益。機器學習（ML）研究這些模式

2018-08-27 10:16:55

什么是機器學習? 機器學習基礎入門

本文旨在為硬件和嵌入式工程師提供機器學習(ML)的背景，它是什么，它是如何工作的，它為什么重要，以及 TinyML 是如何適應的機器學習是一個始終存在并經常被誤解的技術概念。數十年來，使用復雜

2022-06-21 11:06:37

什么是TinyML？微型機器學習

了解一個叫做微型機器學習(Tiny Machine Learning，TinyML)的機器學習分部，它是什么，它的應用，硬件和軟件需求，以及它的好處。機器學習(ML)是計算機科學中一個動態而強大

2022-04-12 10:20:35

什么是人工智能、機器學習、深度學習和自然語言處理？

用機器學習、計算機視覺、導航服務和人工智能來自動駕駛，無需人工干預。人工智能還可用于智能導航、提高車內體驗和控制交通管理。安全和監視: 新的安全和監視系統將主要依靠生物特征識別、計算機視覺、語音

2022-03-22 11:19:16

什么是深度學習？使用FPGA進行深度學習的好處？

方便的進行深度學習的應用。然而，深度學習仍然主要使用 GPU 和 CPU 完成。因此，在這里我們將仔細研究使用 FPGA 進行深度學習推理的好處。可構建低功耗、節省空間的系統FPGA 的計算并行度不如

2023-02-17 16:56:59

使用Streamline分析在Linux上運行的Arm NN機器學習應用程序

以及多線程，以利用 Neoverse N1 CPU 上的所有計算資源。這導致了重要的加速，特別是對于卷積操作。概括這涵蓋了在 Linux 上使用 Arm NN 分析和優化運行推理的機器學習應用程序的步驟。原作者：弗洛朗·勒博

2022-08-11 15:46:06

在Linux上使用Arm NN分析和優化運行推理的機器學習應用程序的步驟

和 NPU 的 Arm NN 機器學習推理引擎的支持。Arm NN 彌合了現有框架和底層硬件之間的差距。Streamline 可以自動分析 Arm NN 應用程序并提供有關推理運行時的有用性能信息。此處討論

2022-09-27 14:24:27

好奇~！谷歌的 Edge TPU 專用 ASIC 旨在將機器學習推理能力引入邊緣設備

推理能力引入自己的嵌入式 AI 設備。”機器學習的開發主要分兩個階段完成。第一步，我們需要在快速且強大的機器或設備集群上利用大量樣本數據進行訓練，而后將訓練完成的網絡部署至負責解釋實際數據的應用程序當中

2019-03-05 21:20:23

如何用PyArmNN加速樹莓派上的ML推理

。氖是設計: ?更快的視頻處理 ?圖像處理 ?語音識別 ?機器學習 Neon提供單指令多數據(SIMD)指令，其中多處理管道中的元素同時對多個數據點執行操作。Arm NN提供利用Neon后端功能

2023-08-02 15:40:13

如何進行ML605疊加阻抗計算？

我正在查看ML605設計文件中的“Impedance Model”文檔。它位于.zip的pdf文件夾中。我已經嘗試在電子表格和我的PCB布局軟件中復制這些跟蹤寬度和間距計算，但我無法在兩者之間達成

2019-08-29 09:58:17

實驗室將人工智能和機器學習推向前沿

質，ZigBee，OpenThread，低耗電藍牙，藍牙網，專有和多協議操作。(圖片來源: Silicon Labs)首次集成 AI/ML 加速提高性能和能源效率物聯網產品設計師看到了人工智能和機器學習的巨大潛力

2022-02-26 11:09:21

文獻調研——存算一體的一些基礎知識精選資料分享

SSD課程背景知識學習主要包含：Part 1 存算一體的相關概念Part 2 SSD基本結構一、Why人工智能芯片：邊緣市場-終端推理手機，可穿戴智能家居要求低成本低功耗 -推理芯片云端市場-云端

2021-07-23 06:51:26

淺談模擬在機器學習領域的重要性

是一家半導體公司，提供芯片以及與模擬機器學習（ML）模型和固件一起使用的軟件。“在某些情況下，我們還進行模擬壓縮，”Doyle 說。“這一切都是為了在現有芯片中輕松集成，讓算法更節能

2022-03-15 18:05:50

淺談模擬在機器學習領域的重要性

2022-03-28 15:15:51

深度學習推理和計算-通用AI核心

摘要與深度學習算法的進步超越硬件的進步，你如何確保算法明天是一個很好的適合現有的人工智能芯片下發展？，這些人工智能芯片大多是為今天的人工智能算法算法進化，這些人工智能芯片的許多設計都可能成為甚至在

2020-11-01 09:28:57

請問在RK3399pro中間計算時能否調用GPU的一些現成數據庫或函數來計算

我在用RK3399pro的NPU做深度學習計算，使用了兩個rknn模型進行推理，但是在這兩個rknn模型之間需要進行一些中間計算（從第一個模型輸出到第二個模型輸入之間的計算），計算主要是對圖像進行

2022-05-09 15:26:51

請問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構計算嗎？

2023-09-14 08:13:24

超低功耗FPGA解決方案助力機器學習

IoT應用。通過提供結合了靈活、超低功耗FPGA硬件和軟件解決方案、功能全面的機器學習推理技術，Lattice sensAI將加速網絡邊緣設備上傳感器數據處理和分析的集成。這些新的網絡邊緣計算解決方案

2018-05-23 15:31:04

邊緣計算的機器學習和面部識別

如何使用Edge Computing在物聯網中實現更高效的推理和面部識別。

2019-05-29 10:49:35

高性能的機器學習讓邊緣計算更給力

的自主學習能力戰勝了圍棋世界冠軍柯潔。當然，AI發展的如此迅速，也與人類智慧的不斷進步是密不可分的。利用機器學習(ML)等方面的技術，開發人員可以創建更豐富多樣的應用，比如工業機器視覺、圖像分類、對象檢測

2021-10-15 13:58:18

高性能的機器學習讓邊緣計算更給力-iMX8M Plus為邊緣計算賦能

2021-09-07 13:49:11

高性能的機器學習讓邊緣計算更給力-iMX8M Plus為邊緣計算賦能

2021-09-07 13:55:24

高性能的機器學習讓邊緣計算更給力-iMX8M Plus為邊緣計算賦能

2021-09-24 09:09:46

恩智浦i.MX8M PLUS 2.3T NPU工業邊緣計算機器學習與視覺應用

恩智浦i.MX8M PLUS 2.3T NPU工業邊緣計算機器學習與視覺應用啟揚智能IAC-IMX8MP-CM核心板基于NXP首款集成NPU的i.MX8MPLus處理器設計開發，處理器集成四個主頻為

2022-07-29 11:55:28

機器學習在計算機免疫中的應用

機器學習研究的是通過經驗自動改進的計算機算法。本文提出對 FICSEM 的一種改進方法：FICSEM2。FICSEM 是一種單例學習方法。適合大數據集的運算，是基于實驗、開放的方法。FICSEM

2009-09-01 15:59:58

#硬聲創作季機器學習_80.13.1 Iterative loop of ML development

ML機器學習

深海狂鯊發布于 2022-10-29 11:39:48

模電主要知識點及計算方法

模電主要知識點及計算方法，適合模電初學者閱讀學習

2015-12-14 17:13:02

怎樣在iOS機器學習框架Core ML

2017年的WWDC上，蘋果發布了Core ML這個機器學習框架。現在，開發者可以輕松的使用Core ML把機器學習功能集成到自己的應用里，讓應用變得更加智能，給用戶更牛逼的體驗。 Core ML

2017-09-25 15:59:34

量子計算與量子機器學習的解析

量子機器學習（Quantum ML）是量子力學和機器學習的一門交叉學科。兩者間像一種共生關系，我們可以利用量子計算的力量生成機器學習算法的量子版本，并應用經典機器學習算法分析量子系統。

2018-01-24 11:33:36

5578

Arm公布Project Trillium提供業界最具擴展性、應用范圍最廣的機器學習計算平臺

Arm公司近期宣布了其Project Trillium項目，這是一套包括新的高度可擴展處理器的Arm IP組合，這些產品可以提供增強的機器學習（ML）和神經網絡（NN）功能。當前的技術產品主要針對移動設備市場，將讓全新的搭載機器學習功能的設備具有先進的計算能力，包括最先進的目標檢測功能。

2018-02-24 12:58:31

5764

阿里苦心研發Ali-NPU，AI芯片哪種跟具優勢

阿里巴巴達摩院正在研發一款神經網絡芯片——Ali-NPU，主要運用于圖像視頻分析、機器學習等AI推理計算。

2018-04-23 17:57:10

7628

自然計算、機器學習與圖像理解前沿

進化計算的主要分支 9 1.3.2 進化計算的數學基礎 12 1.3.3 進化算法的收斂理論 13 1.3.4 進化計算的應用 18 1.4 協同進化計算 19 1.4.1 協同進化的生物學基礎 20

2018-06-27 18:57:01

226

斯坦福機器學習硬件加速器的課程學芯片技術機會來了

學芯片技術的機會來了！斯坦福大學2018秋季學期推出《機器學習硬件加速器》課程，深入介紹機器學習系統中設計訓練和推理加速器的架構技術。課程涵蓋經典的ML算法，用于ML模型推理和訓練的加速器設計等，超多專業材料和PPT，是本領域不可多得的專業課程。

2018-07-21 09:27:10

5685

機器學習教程之機器學習概念的深度解析

機器學習這個詞是讓人疑惑的，首先它是英文名稱Machine Learning(簡稱ML)的直譯，在計算界Machine一般指計算機。這個名字使用了擬人的手法，說明了這門技術是讓機器“學習”的技術

2018-12-08 11:51:08

3613

用于邊緣計算的機器學習技術介紹

處理物聯網傳感器數據就是邊緣計算存在的目的，而機器學習技術也逐漸開始用于這種分析。盡管通用CPU內核可以處理ML，但專業加速度計可在相同的功率范圍內實現10倍性能。了解Layerscape計算和加速功能如何滿足當今的需求——讓我們拭目以待。

2019-01-15 07:00:00

2814

微軟推出開源跨平臺的機器學習框架 ML.NET

微軟最近推出了ML.NET，這是一個用于構建自定義機器學習庫解決方案的框架。

2019-05-22 14:17:22

2656

智慧計算系統如何升級

人工智能時代的機器知識可以被深度學習技術感知，而這需要用推理來實現，對計算機系統的算力提出了較高要求。

2019-07-30 15:27:35

1844

機器學習適不適合用在云計算的運維上

隨著企業越來越多地使用“物美價廉”的基于云計算的機器學習系統，人們發現利用機器學習的系統操作起來很復雜。

2019-12-18 09:23:57

384

計算機視覺和機器學習如何讓回收變得智能化

各國政府應考慮利用計算機視覺和機器學習實施智能回收，以解決垃圾管理中的重大問題。

2020-02-25 14:50:57

530

三大廠商推出AI嵌入式視覺入門套件，用于計算機視覺和機器學習設計

Toradex，Amazon Web Services（AWS）和NXP Semiconductors合作推出了AI嵌入式視覺入門套件，用于開發與云連接的計算機視覺和機器學習（ML）設計。

2020-03-11 17:00:03

3531

邊緣計算中深度神經網絡剪枝壓縮的研究

深度神經網絡與其他很多機器學習模型一樣，可分為訓練和推理兩個階段。訓練階段根據數據學習模型中的參數（對神經網絡來說主要是網絡中的權重）；推理階段將新數據輸入模型，經過計算得出結果。

2020-03-27 15:50:17

2728

機器學習適合云計算運維嗎

為云計算服務團隊提供機器學習功能的系統不僅是一個錯誤，而且也是危險的。

2020-04-06 22:58:23

475

國外云計算企業首次使用QPU超導芯片進行無監督機器學習訓練及推理

量子比特計算機Bristlecone，開發了Cirq量子開源框架，提供了量子化學材料計算的OpenFermion-Cirq用例。初創公司Rigetti 開放了量子云服務平臺，研制了19量子比特處理器QPU，并首次使用QPU超導芯片進行無監督機器學習訓練及推理，展示出量子計算﹢人工智能的巨大潛力。

2020-06-22 15:24:22

1909

Firebase軟件包：含有谷歌的ML套件及機器學習的經驗

Google的機器學習（ML）套件是一個SDK，可將Google在機器學習方面的多年經驗整合到Firebase軟件包中。該ML套件的目標是允許iOS和Android上的移動應用程序開發人員從ML

2020-07-03 14:15:36

1838

云計算機器學習平臺的標配功能及選購指南

云計算機器學習平臺提供的多種功能可以支持完整的機器學習生命周期。

2020-08-18 11:27:01

1759

邊緣計算的未來是MCU上的深度學習

就在幾年前，人們普遍認為，機器學習(ML)甚至深度學習(DL)只能通過由網關、邊緣服務器或數據中心執行的邊緣訓練和推理，在高端硬件上完成。這種想法在當時不無道理，因為在云端和邊緣之間分配計算資源

2020-10-30 06:43:26

267

一種基于機器學習的流簇大小推理模型

數據中心網絡需要更加高效的推理模型提升流簇大小判斷的準確性和敏感性。提岀了一種基于機器學習的流簇大小推理模型（ Mlcoflow），利用極限學習杋（ELM）以最小訓練誤差為求解目標建立推理模型，并且使用不完全信息建模以提升敏感度。實驗證

2021-04-02 11:38:16

基于計算機視覺和NLP的跨媒體問答與推理

基于視覺和語言的跨媒體問答與推理是人工智能領域的研究熱點其目的是基于給定的視覺內容和相關問題，模型能夠返回正確的答案。隨著深度學習的飛速發展及其在計算杋視覺和自然語言處理領域的廣泛應用，基于視覺

2021-04-08 10:25:33

探究機器學習 (ML) 模型的性能

機器學習 (ML) 模型的性能既取決于學習算法，也取決于用于訓練和評估的數據。算法的作用已經得到充分研究，也是眾多挑戰（如 SQuAD、GLUE、ImageNet 等）的焦點。此外，數據也已經過改進

2021-04-13 14:37:16

2353

攻讀計算機視覺和機器學習碩士有啥好的？

人工智能就業市場持續火熱，越來越多的學子投身這一領域。然而，攻讀計算機視覺和機器學習研究生需要哪些先決條件？你將學到哪些知識？攻讀機器學習碩士是一種怎樣的體驗？英國薩里大學機器學習與計算機視覺專業

2021-06-19 09:25:12

3163

計算機的組成、用途及主要分類

計算機俗稱電腦，是用于高速計算的電子計算機器，在日常生活中有著非常廣泛的應用。接下來給大家簡單介紹一下計算機的組成、用途及主要分類。

2021-10-02 16:22:00

10049

你知道嗎？MCU也能做Machine learning (ML)

，機器學習（ML）不再是云計算和高性能處理器的專利，邊緣計算正在崛起！邊緣計算為AI提供了新的可能性，比如實時智能語音識別和實時人臉檢測，其實時性、可靠性和隱私安全性是云計算無法相比的。實戰開始...

2021-10-28 16:21:01

計算機的主要分類及特點

計算機是是現代一種用于高速計算的電子計算機器，能自動執行的程序的機器工，計算機的組成原理分輸入、處理、輸出三步實現。接下來簡單介紹計算機的主要分類及主要特點。

2022-01-20 14:50:46

16803

《計算機研究與發展》—機器學習的可解釋性

機器學習的可解釋性來源：《計算機研究與發展》，作者陳珂銳等摘要?近年來，機器學習發展迅速，尤其是深度學習在圖像、聲音、自然語言處理等領域取得卓越成效.機器學習算法的表示能力大幅度提高，但是

2022-01-25 08:35:36

816

機器學習是什么，機器學習的定義

機器學習是一門能夠讓編程計算機從數據中學習的計算機科學（和藝術）。

2022-02-03 09:18:00

7715

機器學習的工作原理、優勢及主要意義

機器學習 (ML) 采用算法和統計模型，使計算機系統能夠在大量數據中找到規律，然后使用可識別這些模式的模型來預測或描述新數據。

2022-04-09 11:39:29

7888

物聯網結合機器學習(ML)的應用場景

本篇博客文章介紹了物聯網結合機器學習(ML)的應用場景，以及如何基于Silicon Labs(亦稱“芯科科技”)的無線SoC平臺展開機器學習的開發。

2022-06-13 16:26:55

1377

NVMe為極端工業計算中的推理分析提供支持

推理計算，人工智能和機器學習。在這些設置中，快速的非易失性存儲使機器學習算法即使在處理大量數據時也能正常運行。

2022-10-17 14:31:29

324

AI邊緣推理計算機設計通過邊緣提升節點變得簡單

　　當計算系統根據經過訓練的機器學習算法進行預測時，就會發生推理。雖然推理的概念并不新鮮，但在邊緣執行這些高級操作的能力是相對較新的。

2022-10-18 11:52:28

869

NVMe為極端工業計算中的推理分析提供支持

推理計算，人工智能和機器學習。在這些設置中，快速的非易失性存儲使機器學習算法即使在處理大量數據時也能正常運行。

2022-10-24 16:31:24

401

AI邊緣推理計算機設計通過EdgeBoost節點變得簡單

　　當計算系統根據經過訓練的機器學習算法進行預測時，就會發生推理。雖然推理的概念并不新鮮，但在邊緣執行這些高級操作的能力相對較新。

2022-11-18 15:09:44

346

NVMe為極端工業計算中的推理分析提供支持

計算、人工智能和機器學習。在這些設置中，快速非易失性存儲使機器學習算法即使在處理大量數據時也能正常運行。

2022-11-22 11:44:18

262

什么是機器學習？ML 基礎知識簡介

本文旨在為硬件和嵌入式工程師提供機器學習（ML）、它是什么、它是如何工作的、為什么它很重要以及 TinyML 如何適應。機器學習是一個一直存在且經常被誤解的技術概念。幾十年來，這種實踐是一門

2023-01-27 16:33:00

2838

計算機視覺中的主動學習

Active Learning主動學習是機器學習 (ML) 的一個研究領域，旨在通過以智能方式查詢管道的下一個數據來降低構建新機器學習解決方案的成本和時間。

2023-03-31 10:02:44

407

使用支持機器學習的Xcelium能夠實現高達5倍的驗證效率

人工智能（AI）無處不在。機器學習（ML）及其推理能力有望徹底改變從駕駛到做早餐等生活中的一切。驗證是永恒的，時間不息，驗證不止。

2023-05-05 10:42:32

730

如今MCU上“跑”機器學習，也很給力

2023-05-19 09:55:33

1436

機器學習構建ML模型實踐

實踐中的機器學習：構建 ML 模型

2023-07-05 16:30:36

432

Apple機器學習和視覺生態系統更新：Core ML、Create ML和VisionKit

蘋果工程師 Ben Levine 解釋說，第一個有關 Core ML（運行在 iOS 設備上的機器學習框架）的改進是更快的推理引擎，不需要重新編譯模型或修改任何相關代碼就可以獲得這種提速。Levine 沒有提供與速度提升相關的數據，他說具體將取決于實際的模型和硬件。

2023-07-29 14:52:13

723

Microchip與IHWK正在合作開發模擬計算平臺

由于人工智能（AI）和機器學習（ML）的進步，嵌入式系統提供商越來越多地開發大腦芯片，邊緣的人工智能（AI）使用正在急劇增長。微芯科技股份有限公司與韓國智能硬件（IHWK）正在

2023-10-12 16:04:24

608

已全部加載完成

搜索歷史

機器學習（ML）推理主要計算之存內計算芯片

評論