寒武紀神經網絡處理器是中科院計算技術研究所發布的能運行深度神經網絡實現人工智能算法的處理器硬件架構,下面是小編整理的寒武紀歷代深度學習處理器的各種參數信息,大家不妨來看看。
1. 寒武紀1號:DianNao
陳天石等人提出的DianNao是寒武紀系列的第一個原型處理器結構,包含一個處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經網絡基本運算(如加法、乘法等),65mm工藝下功耗為0.485W,面積3.02平方毫米。在若干代表性神經網絡上的實驗結果表明,DianNao的平均性能超過主流CPU核的100倍,面積和功耗僅為CPU核的1/30~1/5,效能提升達三個數量級;DianNao的平均性能與主流通用圖形處理器(NVIDIA K20M)相當,但面積和功耗僅為后者的百分之一量級。
DianNao要解決的核心問題是如何使有限的內存帶寬滿足運算功能部件的需求,使運算和訪存之間達到平衡,從而實現高效能比。其難點在于選取運算功能部件的數量、組織策略以及片上隨機存儲器(RAM)的結構參數。由于整個結構參數空間有上千萬種選擇,而模擬器運行速度不及真實芯片的十萬分之一,我們不可能蠻力嘗試各種可能的設計參數。為解決此問題,提出了一套基于機器學習的處理器性能建模方法,并基于該模型最終為DianNao選定了各項設計參數,在運算和訪存間實現了平衡,顯著提升了執行神經網絡算法時的效能。
即使數據已經從內存移到了片上,搬運的能耗依然非常高。英偉達公司首席科學家史蒂夫·凱科勒(Steve Keckler)曾經出,在40m工藝下,將64位數據搬運20毫米的能耗是做64位浮點乘法的數倍。因此,要降低處理器功耗,僅僅降低運算功耗是不夠的,必須對片上數據搬運進行優化。我們提出了對神經網絡進行分塊處理,將不同類型的數據塊存放在不同的片上隨機存儲器中,并建立理論模型來刻畫隨機存儲器與隨機存儲器、隨機存儲器與運算部件、隨機存儲器與內存之間的搬運次數,進而優化神經網絡運算所需的數據搬運次數。相對于CPU/GPU上基于緩存層次的數據搬運,DianNao可將數據搬運次數減少至前者的1/30~1/10。
2. 寒武紀2號:DaDianNao
近年來興起的深度神經網絡在模式識別領域取得了很好的應用效果,但這類神經網絡的隱層數量和突觸數量遠多于傳統神經網絡。例如,著名的谷歌大腦包括了100多億個突觸。百度采用的大規模深度學習神經網絡包含200多億個突觸。急劇增長的神經網絡規模給神經網絡處理器帶來了挑戰。單個核已經難以滿足不斷增長的應用需求。將神經網絡處理器擴展至多核成為自然之選。DaDianNao在DianNao的基礎上進一步擴大了處理器的規模,包含16個處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內存訪問開銷。在28nm工藝下,DaDianNao的主頻為606MHz,面積67.7平方毫米,功耗約16W。單芯片性能超過了主流GPU的21倍,而能耗僅為主流GPU的1/330。64芯片組成的計算系統的性能較主流GPU提升450倍,但總能耗僅為后者的1/150。
3. 寒武紀3號:PuDianNao
神經網絡已成為模式識別等領域的主流算法,但用戶很多時候可能更傾向于使用其他一些經典的機器學習算法。例如程序化交易中經常使用線性回歸這類可解釋性好、復雜度低的算法。在此背景下,我們研發了寒武紀3號多用途機器學習處理器---PuDianNao,可支持k-最近鄰、k-均值、樸素貝葉斯、線性回歸、支持向量機、決策樹、神經網絡等近10種代表性機器學習算法。在65nm工藝下,PuDianNao的主頻為1GHz,峰值性能達每秒10560億次基本操作,面積3.51平方毫米,功耗為0.596W。PuDianNao運行上述機器學習算法吋的平均性能與主流通用圖形處理器相當,但面積和功耗僅為后者的百分之一量級。PuDianNao的結構設計主要有兩個難點:運算單元設計和存儲層次設計,分別對應于機器學習的運算特征和結構特征。其中運算單元設計的出發點是高效實現機器學習最頻繁的運算操作,而存儲層次設計則主要根據訪存特征提高各機器學習算法中數據的片內重用,降低片外訪存帶寬的需求,充分發揮運算單元的計算能力,避免片外訪存成為性能瓶頸。在運算單元設計方面,提出了一種機器學習運算單元(Machine Learning Unit, MLU)來支持各種機器學習方法中共有的核心運算,包括:點積(線性回歸、支持向量機、神經網絡)、距離計算(k-最近鄰、k-均值)計數(決策樹和樸素貝葉斯)、排序(k-最近鄰、k-均值)和非線性函數計算(支持向量機和神經網絡)等。機器學習運算單元被分成了計數器、加法器、乘法器、加法樹、Acc和Misc6個流水線階段。
在存儲層次設計方面,設計了HotBuf(HB)、ColdBuf(CB)和OutputBuf(OB)3個片上數據緩存HotBuf存儲輸入數據,具有最短重用距離的數據。ColdBuf存放相對較長重用距離的輸入數據。OutputBuf存儲輸出數據或者臨時結果。這樣設計的原因有兩個:第一,在各種機器學習算法中,數據的重用距離通常可以分為兩類或三類,因此設計了3個片上數據緩存;第二,機器學習算法中不同類型的數據讀取寬度不同,因此設置了分開的緩存來降低不同的寬度帶來的開銷。
-
神經網絡
+關注
關注
42文章
4811瀏覽量
103029 -
算法
+關注
關注
23文章
4702瀏覽量
94950 -
寒武紀
+關注
關注
11文章
199瀏覽量
74261
發布評論請先 登錄
寒武紀“炸裂”財報!一季度營收增長40倍,積極備貨應對“爆單”?

寒武紀3000億市值與GPU廠商密集IPO,AI芯片正是當打之年

寒武紀一季度營收大漲4230% 凈利潤3.55億 扭虧為盈
美國業務收入占比低,寒武紀等回應加征關稅

寒武紀增資全資子公司上海寒武紀
量子處理器是什么_量子處理器原理
寒武紀發布2024年度業績預告
NPU與傳統處理器的區別是什么
FPGA做深度學習能走多遠?
算力概念股寒武紀20cm漲停市值重回千億
細數各種音頻處理器

評論