文章轉自:愛集微
作者:陳炳欣
隨著端側人工智能技術的爆發式增長,智能設備對本地算力與能效的需求日益提高。而傳統馮·諾依曼架構在數據處理效率上存在瓶頸,“內存墻”問題成為制約端側AI性能突破的關鍵掣肘。在這一背景下,存算一體芯片憑借低功耗、高帶寬,以及相對的通用性能,正在成為賦能智能終端、物聯網設備以及邊緣計算場景的核心動力。
科技創新企業蘋芯科技深耕存算一體技術,推出N300存算一體NPU,在不改變傳統MCU形態的同時為傳統MCU芯片賦予AI能力,突破傳統MCU的算力瓶頸,為端側設備加載AI提供了革命性的解決方案。蘋芯科技在接受集微網采訪時表示,目前存算一體技術在國內外企業的不懈努力下已經實現商業化應用,存算一體芯片也即將全面進入千行百業,為人工智能的大規模應用提供不竭的算力支撐。
架構創新,存算技術釋放數十倍能效比提升
存算一體并非最新提出的概念,發展歷程可以追溯到上個世紀。1969年,斯坦福研究所的Kautz等人首次提出了存算一體計算機的概念,旨在將計算單元與存儲單元融合,實現數據存儲與計算的同步進行。此后,多倫多大學(1992年)和伯克利實驗室(1997年)都相繼嘗試以邏輯電路的形式拉近存儲與計算的距離。
2000年以后,隨著大數據以及人工智能技術的發展,人們對于并行計算的需求日益增長,存算一體技術受到更多關注。特別是Transformer架構的流行,生成式模型已經出現上千億,甚至更高參數量的需求,對存儲的要求也越來越高、帶寬越來越大。傳統馮·諾依曼架構的數據搬運模式很難滿足AI芯片的計算效率,這就給存算技術帶來了新的商業化空間。
根據蘋芯介紹,傳統芯片是先把數據從存儲系統中讀取出來,放到計算單元當中進行運算,然后再把計算結果傳回到存儲系統當中。這種大規模的數據遷移導致了帶寬的瓶頸和功耗的浪費。存算一體的核心創新在于“計算發生在數據存儲的位置”。它從根本上避免了上述情況的發生,同時帶來一系列的性能優勢。以蘋芯科技開發的SRAM存算單元為例,它直接在存儲器內部完成乘累加運算,徹底消除了數據搬運需求。測試數據顯示,這一技術可將數據遷移能耗降低90%以上,同時將能效比提升至27.38 TOPS/W,較傳統架構提升數十倍(該成果已入選ISSCC 2022)。
目前,存算一體技術的商業化進程已處于成熟落地應用階段,大規模應用即將全面鋪開。比如搭載了存算一體NPU的MCU芯片,已用于智能監控攝像頭等設備中,實現人臉識別、行為分析、目標檢測等視頻圖像的實時分析和處理;在智能手表、智能手環等設備中,進行心率監測、運動姿態識別等時實數據監測和分析。
聚焦終端側,規模商業化突破的現實選擇
通常,工業界在評價一個架構的商業化前景時,除了關注技術層面的發展潛力以外,還要考慮通用性、快速迭代能力,以及成本等核心指標。此外,相比馮·諾依曼架構來說,存算一體架構的專用性更強。由于從設計上是將計算單元與存儲單元融合在一起,在進行技術迭代時也會面臨更多的挑戰。這些都是業界探索存算一體技術應用落地時,需要考慮的要點。因此,蘋芯指出,相對于云端高度復雜的生態、技術挑戰,率先從終端側尋求突破是更加現實的選擇。
首先,云端計算往往被定位成一個平臺,因而更加強調泛化能力,也就是計算的通用性。這對更傾向于專用計算的存算一體芯片來說,設計上更具挑戰性。但是在終端側和邊緣側的MCU芯片進行的更多是一項或者幾項指定功能,比如人臉檢測、語音識別等。這就意味著,終端側的芯片并不需要那么強的平臺化能力,它的應用是相對固定的,因而算法也相對固定,與之相匹配的計算和存儲的能力也就相對固定。這就讓存算一體芯片有了更多用武之地。
其次,很多終端側的應用場景對芯片的能效比有著極高的要求,一方面要求產品具有輕量化、便攜化的趨勢,需要考慮無法插電源工作的情況;另一方面又有著從非AI轉向AI類產品的升級需求。這就需要有高能效比的技術來支撐,在這方面存算一體芯片更具優勢。
此外,終端側的市場空間同樣足夠廣闊。機構預測,2025年可穿戴類產品的市場規模將超過1000億元。今年CES大展上,AI眼鏡和AI玩具成為最火爆的兩類新品。預計2025年全年AI眼鏡出貨量可達幾百萬臺,WellsennXR預測到2029年全球AI眼鏡銷量或將突破5500萬副,滲透率將提升至3.48%,市場規模更是有望突破825億元。人工智能向端側市場的大規模滲透已經開始。
正是基于這樣的判斷,蘋芯科技面向終端側模型,推出了基于SRAM的存算一體NPU——N300。這是一款可集成于SoC芯片當中的IP核,可用于執行神經網絡的加速任務。NPU可以提升神經網絡效率,涵蓋矩陣加速、非線性加速等功能。用戶基于NPU可以打造端側SoC、MCU等產品。蘋芯表示:“蘋芯科技的比較優勢在于產品的快速迭代能力,強調以小成本的迭代方式,小步快跑、快速驗證,為實現存算一體技術的大規模商業化提供了必要條件。”
此外,N300 在架構設計、性能指標(如算力、功耗、帶寬等)方面還有許多創新之處,比如存算融合陣列:256KB SRAM中嵌入計算單元,面積效率達0.26TOPS/mm2;動態精度引擎:支持4-16bit混合精度,語音模型量化后精度損失<3‰;多核彈性擴展:單核0.5TOPS,十六核集群可達8TOPS,工業質檢場景吞吐量提升273%。
這些技術指標與性能集于一體,使N300具備了成為終端側優秀AI解決方案的潛在實力。
生態與模式,N300在實際應用中的優勢所在目前,有越來越多MCU廠商開始將AI功能深度嵌入到芯片設計之中,包括ST、瑞薩、恩智浦以及眾多國內企業。它們大多采用集成NPU的方案,讓芯片得以在端側直接執行圖像識別、語音識別、預測分析等AI任務,減少對數據回傳云端的依賴。為了滿足用戶的需求,蘋芯科技也在不斷調整自身的商業模式。首先,蘋芯科技不僅推出N300 存算一體IP核,還同時開發了一款SoC芯片——S300,在神經網絡加速部分集成了基于28nm工藝的N300內核,主打多模態和環境感知功能。這一方面使蘋芯科技具備了向系統廠商提供芯片級解決方案的能力,也意味著N300 作為一款IP核是已經得到驗證的產品,芯片級用戶在采用它的時候,無需擔心產品的可靠性。
其次,在生態方面,N300 支持開源編譯器TFLM。AI加速芯片并不像存儲芯片那樣是一個標準化的產品,可能100家NPU公司,就有100種解決方案。不過目前很多MCU公司已經支持開源框架。而N300支持TFLM,意味著與多數MCU公司采用了同一框架,這樣在軟件上就與MCU是統一的。芯片用戶可以直接使用N300方案進行訓練,實現一鍵部署。
第三,N300是一款多模態融合感知NPU,對于語音、圖像,以及其他傳感數據都能給予支持。也就是說,在終端側的有限應用中,它是可以做到相對通用,與其他面向終端側專用解決方案相比,具有更強的泛化優勢,確保了客戶的易用性。
再加上存算一體芯片天然具有的能效比優勢、帶寬優勢,N300完全具備成為一款面向終端側AI市場優秀解決方案的產品素質。事實上,N300已經在市場小范圍推廣,并取得不少成功的商業化案例。
以TWS耳機降噪案例為例,近年來TWS耳機市場火熱,很多廠商采用AI方案實現本地化語音增強與環境降噪。N300可被集成在22nm工藝的芯片當中,實現36 GOPS@64MHz的算力,支持DCCRN網絡(含LSTM)的實時推理。適配了微型化的終端設計;同時發揮極強的功耗控制效能,平均工作功耗<1mW,比傳統的DSP方案降低70%,延長耳機續航30%以上。
繼續深耕,蘋芯科技為邊緣未來布局展望終端與邊緣側AI市場發展趨勢,“存算一體”技術完全有能力成為該領域的主流芯片架構之一。蘋芯表示,未來的計算架構大致有三條發展路徑:一是存算一體。其將計算單元與存儲單元融合,在實現數據存儲的同時直接進行計算,以消除數據搬移帶來的開銷。二是3D堆疊。這種架構出于對存儲帶寬的極致追求,因此是天然是反對存算一體的。第三條路徑則是在前兩種方案之間做平衡,也即近存計算。它希望在不改變計算單元,也不改變存儲單元的情況下,盡量縮短存儲與處理器中間的距離,以此改善芯片的性能。在這三條路徑中,如果計算和存儲功能相對明確,那么存算一體方案就更具優勢,可以更加充分發揮架構帶來的優勢。當然,目前的存算一體要想實現大規模商用仍有很多技術瓶頸需要突破,包括工藝兼容性的改善,比如eNVM存儲器的穩定量產;提高設計工具鏈的成熟度,實現自動化EDA工具與跨平臺編譯器的支持,加強代工廠標準IP庫的建設與優化多場景下的制造成本,以便提高產業鏈的整體協同能力。同時還需要構建開源生態,以解決開發門檻高、改善算法適配碎片化等問題。這樣才能將存算一體從技術優勢轉化為規模化落地的能力。而蘋芯科技的優勢在于能夠在較短時間內,只要客戶立項并確定其所采用的工藝,就可以進行快速定制并實現交付。這可以成為用戶大規模商用中的一大助力。
從市場角度來看,未來3~5年,存算一體芯片將在AIoT和邊緣計算領域迎來爆發式增長,市場潛力集中于實時健康監測(如可穿戴ECG實時分析)、工業預測性維護(振動/溫度信號邊緣診斷)及智慧家居(能效優化、數據安全與保護)等場景,這就需要高能效比與低成本的產品,精準匹配邊緣側對“高能效+低成本+實時處理”的核心需求。
蘋芯科技已經推出支持圖像、語音等多模態融合處理的N300 ,未來將把這些核心能力,比如CNN/Transformer硬件加速、動態數據流調度引擎向更多模態擴展,推出新的解決方案。“存算一體仍然處于快速發展階段,這個技術是不斷被喚醒的,不斷有新的熱點出現。我們已經推出一顆芯片和一個IP,實現了多模態融合感知。下一步我們將開發一款LPU(語言處理單元)方向的產品,針對CNN/Transformer硬件加速,把傳送這件事情做到邊緣側去。”蘋芯透露。
為此,蘋芯科技未來將聚焦22/14nm工藝升級與新型eNVM(如MRAM/RRAM)存算架構集成,通過混合精度計算優化和稀疏化加速引擎提升算法效率,同時完善開源編譯器工具鏈(支持多模態模型一鍵部署)并拓展異構計算IP庫。
蘋芯科技還計劃在未來的研發工作中,進一步提高存算一體核心單元計算能效比,并聯合代工廠推進eNVM工藝量產,構建覆蓋智能穿戴、智慧家居等場景的“存算+”生態,突破設計自動化工具與跨平臺適配瓶頸,加速技術規模化落地。
-
AI
+關注
關注
87文章
33663瀏覽量
274389 -
NPU
+關注
關注
2文章
317瀏覽量
19387 -
蘋芯科技
+關注
關注
1文章
24瀏覽量
276
發布評論請先 登錄
蘋芯科技:邊緣和端側AI算力或成2025年重要增長點,存算一體架構崛起是必然趨勢

端側AI浪潮已來!炬芯科技發布新一代端側AI音頻芯片,能效比和AI算力大幅度提升

存算一體架構創新助力國產大算力AI芯片騰飛
科技新突破:首款支持多模態存算一體AI芯片成功問世

蘋芯科技發布AI革命新品,引領高效能計算新紀元
蘋芯科技引領存算一體技術革新 PIMCHIP系列芯片重塑AI計算新格局

后摩智能推出邊端大模型AI芯片M30,展現出存算一體架構優勢
探索存內計算—基于 SRAM 的存內計算與基于 MRAM 的存算一體的探究

評論