作者 | 清華大學(xué)微電子學(xué)研究所尹首一
來(lái)源 | 《微納電子與智能制造》期刊
人 工 智 能( aritificial intelligence ,AI )是 一 門(mén)融合了數(shù)學(xué) 、計(jì)算機(jī)科學(xué) 、統(tǒng)計(jì)學(xué) 、腦神經(jīng)學(xué)和社會(huì)科學(xué) 的前沿綜合性技術(shù)。它的目標(biāo)是希望計(jì)算機(jī)可以像 人一樣思考 ,替代人類(lèi)完成識(shí)別 、分類(lèi)和決策等多種 功能。在 2016 年 AlphaGo 擊敗李世石贏得人機(jī)圍棋 大戰(zhàn)后 ,人工智能引發(fā)了全球熱潮。與此同時(shí) , Google、FaceBook、Amazon、Intel等巨頭紛紛成立AI團(tuán)隊(duì) ,促進(jìn)人工智能技術(shù)的進(jìn)一步發(fā)展。
在國(guó)內(nèi) ,國(guó)務(wù)院發(fā)布了人工智能發(fā)展規(guī)劃 ,從國(guó)家層面對(duì)人工智能加以支持[1] ,各類(lèi)互聯(lián)網(wǎng)公司和初創(chuàng)公司紛紛投入到人工智能產(chǎn)業(yè)。今天,海量數(shù)據(jù)的形成 、深度學(xué)習(xí)算法的革新 、硬件技術(shù)的變革、互聯(lián)網(wǎng)生態(tài)的完善助力人工智能產(chǎn)業(yè)呈現(xiàn)爆發(fā)式發(fā)展 ,而其中以核心人工智能芯片為基礎(chǔ)的強(qiáng)大計(jì)算力發(fā)揮著至關(guān)重要的作用[2] 。
一、人工智能芯片概況
當(dāng)前人工智能的主流技術(shù)深度神經(jīng)網(wǎng)絡(luò)概念早在20世紀(jì)40年代就已經(jīng)被提出,然而幾經(jīng)起落,甚 至被 90 年代中期出現(xiàn)的支持向量機(jī)所全面壓制。主 要原因就是當(dāng)時(shí)沒(méi)有可以用于大規(guī)模并行計(jì)算的諸 如圖形處理器(graphics processing unit,GPU)等芯片的硬件條件 ,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練仍然耗時(shí)太久 ,訓(xùn)練成本過(guò)于高昂。隨著摩爾定律的不斷演進(jìn)發(fā)展 ,高性能芯片大幅降低了深度學(xué)習(xí)算法所需的計(jì)算時(shí)間和成本 ,人工智能技術(shù)終于在語(yǔ)音識(shí)別 、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大突破。
然而 ,深度神經(jīng)網(wǎng)絡(luò)的計(jì)算量在不斷膨脹 ,讀寫(xiě)的數(shù)據(jù)量日趨龐大,網(wǎng)絡(luò)結(jié)構(gòu)也越來(lái)越多樣化,這就要求作為硬件基礎(chǔ)的人工智能 芯片必須不斷進(jìn)行相應(yīng)的發(fā)展,以應(yīng)對(duì)性能、功耗、靈活性這 3 個(gè)方面的挑戰(zhàn) 。
當(dāng)前實(shí)現(xiàn)人工智能計(jì)算的技術(shù)路線可概括為 3 類(lèi):第 1 類(lèi)是基于馮 · 諾依曼體系結(jié)構(gòu)的通用處理器 ,諸如大家所知的CPU 、GPU 、DSP 等都屬于這一 類(lèi)型。它以算術(shù)邏輯單元為計(jì)算核心 ,由于其通用性需要應(yīng)對(duì)包括分支跳轉(zhuǎn)、中斷等復(fù)雜的指令處 理 ,需要消耗很多片上資源。
因此 CPU 的并行計(jì)算處理能力并不高,此外處理器本身頻繁的讀取操作會(huì)帶來(lái)大量的訪存功耗問(wèn)題;第 2 類(lèi)則是專(zhuān)用集成 電路(application specific integrated circuit,ASIC)。它針對(duì)特定的計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)采用了硬件電路實(shí)現(xiàn) 的方式,能夠在很低的功耗下實(shí)現(xiàn)非常高的能效比。
在網(wǎng)絡(luò)模型算法和應(yīng)用需求固定的情況下, ASIC 是一個(gè)不錯(cuò)的選擇。但 ASIC 本身研發(fā)的周期 很長(zhǎng) ,通常在 1~2 年 ,這就使得 ASIC 本身存在對(duì)算 法迭代跟進(jìn)的風(fēng)險(xiǎn)性問(wèn)題;第 3 類(lèi)是基于可重構(gòu)架 構(gòu)實(shí)現(xiàn)的處理器 ,該技術(shù)是將計(jì)算部分設(shè)計(jì)為可配 置的處理單元 ,并且通過(guò)相應(yīng)的配置信息來(lái)改變存儲(chǔ)器與處理單元之間的連接 ,從而達(dá)到硬件結(jié)構(gòu)的 動(dòng)態(tài)配置目標(biāo)。
深度神經(jīng)網(wǎng)絡(luò)因?yàn)橛?jì)算量大 、數(shù)據(jù)量大 、結(jié)構(gòu)特點(diǎn)多樣 ,基于馮 · 諾依曼結(jié)構(gòu)的通用處理器以及專(zhuān)用處理器很難在這樣的算法上同時(shí)展 現(xiàn)出靈活性和高能效 ,可重構(gòu)處理器在通用處理器 和專(zhuān)用處理器之間做了一定的折中和權(quán)衡 ,可以兼顧智能應(yīng)用算法中的高性能 、低功耗 、高靈活度的特點(diǎn)。
二、人工智能芯片發(fā)展階段
近幾年來(lái),人工智能技術(shù)的熱潮如火如荼,隨著人工智能產(chǎn)品的大規(guī)模落地應(yīng)用 ,面向不同場(chǎng)景的各類(lèi)算法紛紛涌現(xiàn) ,計(jì)算數(shù)據(jù)呈爆炸式增長(zhǎng) ,芯片作為人工智能技術(shù)的硬件基礎(chǔ)和產(chǎn)業(yè)落地的必然載體 ,吸引了眾多巨頭和初創(chuàng)公司紛紛入局 ,各類(lèi)人工 智能芯片陸續(xù)面世。針對(duì)不同應(yīng)用場(chǎng)景 ,不同芯片的處理速度 、能耗 、支持的算法也各有優(yōu)勢(shì)。根據(jù)人工智能產(chǎn)業(yè)的發(fā)展?fàn)顩r和技術(shù)成熟度劃分 ,可以分 為4個(gè)階段[3] 。
2.1 人工智能芯片初級(jí)階段
第一個(gè)階段 ,人工智能芯片從 2016 年開(kāi)始爆發(fā) ,到目前在架構(gòu)設(shè)計(jì)上已經(jīng)比較穩(wěn)定 ,相關(guān)的編譯器 的技術(shù)越來(lái)越成熟 ,整個(gè)產(chǎn)業(yè)格局基本成型。可以說(shuō) ,目前的人工智能芯片軟硬件技術(shù)已經(jīng)為大規(guī)模 商用做好了準(zhǔn)備。這類(lèi)芯片主要采用現(xiàn)有的以 CPU 、GPU 、DSP 、FPGA 為代表的傳統(tǒng)芯片架構(gòu)來(lái)運(yùn) 行深度學(xué)習(xí)算法,主要部署在云端。
在云端訓(xùn)練環(huán)節(jié) ,深度神經(jīng)網(wǎng)絡(luò)的計(jì)算量極大 , 而且數(shù)據(jù)和運(yùn)算是可以高度并行的,GPU具備進(jìn)行 海量數(shù)據(jù)并行運(yùn)算的能力 ,并且為浮點(diǎn)矢量運(yùn)算配 備了大量計(jì)算資源,與深度學(xué)習(xí)的需求不謀而合,成 為云端訓(xùn)練的主力芯片,以70%以上的市場(chǎng)占有率 傲視群雄。但由于 GPU 不能支持復(fù)雜程序邏輯控 制 ,仍然需要使用高性能 CPU 配合來(lái)構(gòu)成完整的計(jì)算系統(tǒng) 。
在云端推理環(huán)節(jié) ,計(jì)算量相比訓(xùn)練環(huán)節(jié)少 ,但仍 然涉及大量的矩陣運(yùn)算。雖然 GPU 仍有應(yīng)用 ,但并 不是最優(yōu)選擇 ,更多的是采用異構(gòu)計(jì)算架構(gòu)來(lái)完成 云端推理任務(wù)。FPGA 提高了芯片應(yīng)用的靈活性和 可編程性 ,與 GPU 相比具備更強(qiáng)的計(jì)算能力和更低 的功耗 ,在云端加速領(lǐng)域優(yōu)勢(shì)明顯。在產(chǎn)業(yè)應(yīng)用沒(méi) 有大規(guī)模興起之時(shí) ,使用這類(lèi)已有的通用芯片可以 避免專(zhuān)門(mén)研發(fā) ASIC 的高投入和高風(fēng)險(xiǎn) ,但是 ,由于 這類(lèi)通用芯片的設(shè)計(jì)初衷并非專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)任 務(wù),因而天然存在性能、功耗等方面的瓶頸,隨著人 工智能應(yīng)用規(guī)模的擴(kuò)大,這類(lèi)問(wèn)題日益突出[4] 。
2.2 人工智能芯片發(fā)展階段
新的計(jì)算模式往往會(huì)催生出新的專(zhuān)用計(jì)算芯片 ,面對(duì)人工智能時(shí)代對(duì)算力的強(qiáng)大需求 ,學(xué)術(shù)界和 產(chǎn) 業(yè) 界 紛 紛 提 出 了 自 己 的 解 決 方 案 ,谷 歌 (Google)的TPU、麻省理工學(xué)院(MIT)的Eyeriss、韓 國(guó)科學(xué)技術(shù)院(KAIST)的 UNPU 和寒武紀(jì)的 1A 則 是其中具有代表性的芯片 ,這類(lèi)芯片在大規(guī)模量產(chǎn) 的情況下具備性能更強(qiáng) 、體積更小 、功耗更低 、成本 更低等優(yōu)點(diǎn)。目前一部分通過(guò)采用語(yǔ)音識(shí)別 、圖像識(shí)別 、自動(dòng)駕駛等算法切入人工智能領(lǐng)域的公司 , 也希望通過(guò)打造匹配算法的定制芯片和產(chǎn)品來(lái)實(shí)現(xiàn) 盈利。
當(dāng)前深度學(xué)習(xí)部署呈現(xiàn)出從云到端,賦能邊緣的趨勢(shì) ,但應(yīng)用于云端的人工智能芯片普遍存在功 耗高 、實(shí)時(shí)性低 、帶寬不足 、數(shù)據(jù)傳輸延遲等問(wèn)題,難以滿足邊緣計(jì)算的需求。在邊緣端進(jìn)行推理的應(yīng)用場(chǎng)景較之云端更為多樣化,智能手機(jī)、可穿戴設(shè)備、ADAS、智能攝像頭、語(yǔ)音交互、VR/AR 、智能制造等 邊緣智能設(shè)備需求各異 ,需要更為定制化、低功耗、 低成本的嵌入式解決方案 ,這就給了初創(chuàng)公司更多機(jī)會(huì) ,針對(duì)不同的細(xì)分市場(chǎng)來(lái)設(shè)計(jì)差異化產(chǎn)品。就未來(lái)整體市場(chǎng)規(guī)模來(lái)說(shuō) ,邊緣計(jì)算芯片在智能終端的帶動(dòng)下將是云端數(shù)據(jù)中心芯片市場(chǎng)的 5 倍以上。
未來(lái)幾年 ,我們應(yīng)該可以看到“無(wú)芯片不 AI”的景象 , 隨著人工智能應(yīng)用場(chǎng)景的逐漸落地 ,底層技術(shù)和硬件方向也更加清晰 ,隨之而來(lái)的是各類(lèi)芯片公司的 白熱化競(jìng)爭(zhēng)[5] 。
2.3 人工智能芯片進(jìn)階階段
在這一階段 ,隨著深度學(xué)習(xí)算法的不斷演進(jìn) ,當(dāng) 前的芯片架構(gòu)難以滿足越來(lái)越高的算力支持 、越來(lái) 越低的功耗需求和層出不窮的各類(lèi)算法 ,架構(gòu)創(chuàng)新 是人工智能芯片的必由之路 ,而可重構(gòu)計(jì)算架構(gòu)則 是其中最具代表性的技術(shù)之一。可重構(gòu)計(jì)算架構(gòu)是 一種介于通用處理芯片和專(zhuān)用集成電路之間的 、利 用可配置的硬件資源 ,根據(jù)不同的應(yīng)用需求靈活重 構(gòu)自身的新型體系結(jié)構(gòu) ,同時(shí)具備通用計(jì)算芯片兼 容性和專(zhuān)用集成電路高效性的優(yōu)點(diǎn) ,被《國(guó)際半導(dǎo)體 技術(shù)路線圖》(2015 版)評(píng)為“后摩爾”時(shí)代最具發(fā)展 前景的未來(lái)通用計(jì)算架構(gòu)技術(shù)。
該技術(shù)也被美國(guó)國(guó)防部推動(dòng)的“ 電子復(fù)興計(jì)劃 ”( ERI )列 為 未 來(lái) 芯 片 的 核心支柱性體系結(jié)構(gòu)技術(shù)之一。可重構(gòu)計(jì)算架構(gòu)天 然契合各類(lèi)人工智能算法對(duì)專(zhuān)用計(jì)算芯片的需求, 同時(shí)也能保證算法和硬件的持續(xù)演進(jìn)性 ,非常適合 應(yīng)用于人工智能芯片的設(shè)計(jì)當(dāng)中。采用可重構(gòu)計(jì)算架構(gòu)之后 ,軟件定義的層面不僅僅局限于功能這一層面 ,算法的計(jì)算精度 、性能和能效等都可以納入軟 件定義的范疇。可重構(gòu)計(jì)算技術(shù)借助自身實(shí)時(shí)動(dòng)態(tài)配置的特點(diǎn) ,實(shí)現(xiàn)軟硬件協(xié)同設(shè)計(jì) ,為人工智能芯片 帶來(lái)了極高的靈活度和適用范圍 。
美國(guó) Wave Computing 公司推出的 DPU 芯片[6]和清華大學(xué)微電子學(xué)研究所設(shè)計(jì)的 Thinker 系列芯片[7] 是采用可重構(gòu)計(jì)算架構(gòu)的代表性工作 ,相比傳統(tǒng)架 構(gòu) ,它們具備較強(qiáng)的靈活性和計(jì)算能效,同時(shí)也具備處理器的通用性和ASIC的高性能和低能耗。
2.4 人工智能芯片未來(lái)階段
斷給人工智能芯片提出新的要求 ,加上底層半導(dǎo)體技術(shù)的進(jìn)步 ,我們可以期待在 3~5 年內(nèi)看到第二次 人工智能芯片技術(shù)創(chuàng)新的高潮 ,諸如存內(nèi)計(jì)算芯片 、 類(lèi)腦仿生芯片 、光子芯片等前沿技術(shù)將會(huì)從實(shí)驗(yàn)室 走向產(chǎn)業(yè)應(yīng)用[8] 。在更遠(yuǎn)的未來(lái) ,隨著算法演進(jìn) ,應(yīng)用落地 ,會(huì)不
現(xiàn)有的人工智能芯片主要采用“存、算分離”的計(jì)算架構(gòu) ,即內(nèi)存訪問(wèn)和計(jì)算是分開(kāi)的 ,而神經(jīng)網(wǎng)絡(luò) 同時(shí)具有計(jì)算密集和訪存密集的特點(diǎn) ,內(nèi)存訪問(wèn)的功耗和延遲等問(wèn)題突出 ,因此內(nèi)存成為了處理器性能和功耗的瓶頸。為了解決“存儲(chǔ)墻”問(wèn)題 ,不少學(xué)者提出了存內(nèi)計(jì)算的概念,在內(nèi)存內(nèi)直接采用模擬電路實(shí)現(xiàn)模擬計(jì)算 ,從而不再需要在處理器和內(nèi)存之間耗費(fèi)大量時(shí)間和能量移動(dòng)數(shù)據(jù)。相比傳統(tǒng)的數(shù)字電路人工智能芯片 ,使用存內(nèi)計(jì)算加模擬計(jì)算的電路能效比將大幅提高 。
類(lèi)美國(guó)的腦計(jì)劃 、歐洲的人腦項(xiàng)目 ,以及最近中國(guó)提出的類(lèi)腦計(jì)算計(jì)劃等。受到腦結(jié)構(gòu)研究的成果啟發(fā) , 復(fù)雜神經(jīng)網(wǎng)絡(luò)在計(jì)算上具有低功耗 、低延遲 、高速處 理以及時(shí)空聯(lián)合等特點(diǎn)[9] 。腦仿生芯片的主流理念是采用神經(jīng)擬態(tài)工程 設(shè)計(jì)的神經(jīng)擬態(tài)芯片。神經(jīng)擬態(tài)芯片采用電子技術(shù) 模擬已經(jīng)被證明的生物腦的運(yùn)作規(guī)則 ,從而構(gòu)建類(lèi) 似于生物腦的電子芯片。神經(jīng)擬態(tài)研究陸續(xù)在全世界范圍內(nèi)開(kāi)展 ,并且受到了各國(guó)政府的重視和支持,
硅光子技術(shù)目前在數(shù)據(jù)中心和 5G 的高速數(shù)據(jù)傳輸中獲得了越來(lái)越多的應(yīng)用。除此之外 ,硅光子 還可以用來(lái)以超低功耗直接加速深度學(xué)習(xí)計(jì)算 ,把深度學(xué)習(xí)的兩個(gè)輸入調(diào)制到兩束光上面 ,然后讓兩 束光在光子芯片的器件上完成 SVD 分解和干涉相乘 ,最后再把光信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)讀出結(jié)果。最后,這些光器件都可以集成到同一塊硅光子芯片上 , 從而實(shí)現(xiàn)高性能光計(jì)算模組。
三、人工智能芯片未來(lái)趨勢(shì)
目前全球人工智能產(chǎn)業(yè)還處在高速變化發(fā)展 中 ,廣泛的行業(yè)分布為人工智能的應(yīng)用提供了廣闊的市場(chǎng)前景 ,快速迭代的算法推動(dòng)人工智能技術(shù)快 速走向商用 ,人工智能芯片是算法實(shí)現(xiàn)的硬件基礎(chǔ) , 也是未來(lái)人工智能時(shí)代的戰(zhàn)略制高點(diǎn) ,但由于目前 的 AI 算法往往都各具優(yōu)劣,只有給它們?cè)O(shè)定一個(gè)合 適的場(chǎng)景才能最好地發(fā)揮它們的作用,因此 ,確定應(yīng)用領(lǐng)域就成為發(fā)展人工智能芯片的重要前提。但遺憾的是 ,當(dāng)前尚不存在適應(yīng)多種應(yīng)用的通用算法 ,因此哪家芯片公司能夠抓住市場(chǎng)痛點(diǎn) ,最先實(shí)現(xiàn)應(yīng)用落地 ,就可以在人工智能芯片的賽道上取得較大優(yōu)勢(shì)。
架構(gòu)創(chuàng)新是人工智能芯片面臨的一個(gè)不可回避的課題。從芯片發(fā)展的大趨勢(shì)來(lái)看 ,現(xiàn)在還是人工智能芯片的初級(jí)階段。無(wú)論是科研還是產(chǎn)業(yè)應(yīng)用都 有巨大的創(chuàng)新空間。從確定算法 、應(yīng)用場(chǎng)景的人工 智能加速芯片向具備更高靈活性、適應(yīng)性的通用智 能芯片發(fā)展是技術(shù)發(fā)展的必然方向 ,弱監(jiān)督 、自我監(jiān)督 、多任務(wù)學(xué)習(xí) 、對(duì)大型神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好的智慧型 芯片將成為學(xué)術(shù)界和產(chǎn)業(yè)界研究的重要目標(biāo)。計(jì)算 架構(gòu)的高度并行和動(dòng)態(tài)可變性 ,適應(yīng)算法演進(jìn)和應(yīng) 用多樣性的可編程性 ,更高效的大卷積解構(gòu)與復(fù)用 , 更少的神經(jīng)網(wǎng)絡(luò)參數(shù)計(jì)算位寬 ,更多樣的分布式存儲(chǔ)器定制設(shè)計(jì) ,更稀疏的大規(guī)模向量實(shí)現(xiàn) ,復(fù)雜異構(gòu)環(huán)境下更高的計(jì)算效率 ,更小的體積和更高的能量效率 ,計(jì)算和存儲(chǔ)一體化將成為未來(lái)人工智能芯片的主要特征[10]。
站在 2019 年的起點(diǎn) ,人工智能芯片的架構(gòu)創(chuàng)新除了關(guān)注神經(jīng)網(wǎng)絡(luò)計(jì)算 ,更要關(guān)注全芯片的架構(gòu)創(chuàng) 新。以安防智能芯片為例 ,這是一個(gè)典型的系統(tǒng)級(jí)問(wèn)題,除了需要解決神經(jīng)網(wǎng)絡(luò)加速問(wèn)題 ,還需要處理曝光 、白平衡 、視頻編解碼等 ,并不僅僅是做好一個(gè) 神經(jīng)網(wǎng)絡(luò)加速器就能解決的問(wèn)題。除了神經(jīng)網(wǎng)絡(luò)計(jì) 算還需要很多計(jì)算密集型的模塊 ,這些模塊采用什么計(jì)算架構(gòu),也是整個(gè)智能芯片的核心問(wèn)題。因此,人工智能芯片的架構(gòu)創(chuàng)新就不能只是神經(jīng)網(wǎng)絡(luò)計(jì)算架構(gòu)創(chuàng)新 ,傳統(tǒng)計(jì)算架構(gòu)也必須創(chuàng)新 ,這將是人工智能芯片架構(gòu)創(chuàng)新的真正內(nèi)涵 。
編輯:hfy
-
摩爾定律
+關(guān)注
關(guān)注
4文章
636瀏覽量
79237 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4781瀏覽量
101187 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7544瀏覽量
88664 -
人工智能
+關(guān)注
關(guān)注
1796文章
47704瀏覽量
240361
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論