在 FPGA 廣泛應(yīng)用的今天,康奈爾大學(xué)計(jì)算機(jī)科學(xué)助理教授 Adrian Sampson 思考它是否走在正確的路上,如何能夠?qū)崿F(xiàn)通用 FPGA 等問(wèn)題。
計(jì)算 FPGA
什么是 FPGA?
我認(rèn)為架構(gòu)社區(qū)對(duì)這個(gè)概念沒(méi)有一致的定義。我們來(lái)看三個(gè)可能的答案:
定義 1:FPGA 是一堆晶體管,你可以把它們連接(wire up)起來(lái)做出任何你想要的電路。它就像一個(gè)納米級(jí)面包板。使用 FPGA 就像芯片流片,但是你只需要買(mǎi)這一張芯片就可以搭建不一樣的設(shè)計(jì),作為交換,你需要付出一些效率上的代價(jià)。
我不喜歡這個(gè)答案。因?yàn)樗葲](méi)有從字面上解釋清楚人們是如何使用 FPGA 的,也不是一個(gè)貼切的比喻。
從字面上講這種說(shuō)法并不對(duì),因?yàn)槟悴⒉恍枰剡B(rewire)FPGA,它實(shí)際上是一個(gè)通過(guò)路由網(wǎng)絡(luò)(routing network)連接的查找表 2D 網(wǎng)格,以及一些算術(shù)單元和內(nèi)存。FPGA 可以模擬任意電路,但它們實(shí)際上只是在模仿,就像軟件電路仿真器模擬電路一樣。
這個(gè)答案不恰當(dāng)?shù)牡胤皆谟冢^(guò)分簡(jiǎn)化了人們實(shí)際使用 FPGA 的方式。接下來(lái)的兩個(gè)定義能更好地描述 FPGA。
定義 2:在原型設(shè)計(jì)和小批量生產(chǎn)中,F(xiàn)PGA 相當(dāng)于定制芯片的廉價(jià)替代方案。如果你要搭建一個(gè)路由器,你可以提供現(xiàn)成的 FPGA,并根據(jù)你需要的功能編程,從而避免流片的巨大成本。或者如果你要設(shè)計(jì)一個(gè) CPU,你可以將 FPGA 作為原型:你可以圍繞它構(gòu)建一個(gè)真正可引導(dǎo)的系統(tǒng),在把設(shè)計(jì)的 CPU 送到晶圓廠(chǎng)之前,用來(lái)測(cè)試和演示。
電路模擬是 FPGA 的經(jīng)典主流用例,這也是 FPGA 最早出現(xiàn)的原因。FPGA 的關(guān)鍵在于硬件設(shè)計(jì)是用 HDL 形式編碼的,而且買(mǎi)一些便宜的硬件就可以得到和 ASIC 相同的效果。當(dāng)然,你不可能在 FPGA 和真正的芯片上使用完全相同的 Verilog 代碼,但至少它們的抽象范圍是一樣的。
定義 3:FPGA 是一種偽通用計(jì)算加速器,與 GPGPU(通用 GPU)類(lèi)似,F(xiàn)PGA 可以很好地卸載特定類(lèi)型的計(jì)算。從編程角度上講,F(xiàn)PGA 比 CPU 更難,但從工作負(fù)載角度上講 FPGA 是值得的:和 CPU 基線(xiàn)相比,好的 FPGA 實(shí)現(xiàn)可以提供數(shù)量級(jí)的性能和能量?jī)?yōu)勢(shì)。
這是與 ASIC 原型設(shè)計(jì)不同的一個(gè)用例。和電路仿真不同,計(jì)算加速是 FPGA 的新興用例。這也是微軟最近成功加速搜索和深度神經(jīng)網(wǎng)絡(luò)的原因。而且關(guān)鍵的是,計(jì)算實(shí)例并不依賴(lài)于 FPGA 和真正 ASIC 之間的關(guān)系:開(kāi)發(fā)人員針對(duì)基于 FPGA 的加速編寫(xiě)的 Verilog 代碼不需要與用來(lái)流片的 Verilog 代碼有任何的相似性。
這兩種實(shí)例在編程、編譯器和抽象方面存在巨大差異。我比較關(guān)注后者,我將其稱(chēng)為「計(jì)算 FPGA 編程」(computational FPGA programming)。我的論點(diǎn)是,目前計(jì)算 FPGA 的編程方法都借鑒了傳統(tǒng)的電路仿真編程模型,這是不對(duì)的。如果你想開(kāi)發(fā) ASIC 原型的話(huà),Verilog 和 VHDL 都是正確的選擇。但如果目標(biāo)是計(jì)算的話(huà),我們可以也應(yīng)該重新思考整個(gè)堆棧。
GPU 和 FPGA 的類(lèi)比
讓我們開(kāi)門(mén)見(jiàn)山地說(shuō)吧。FPGA 是一類(lèi)很特殊的硬件,它用來(lái)高效執(zhí)行模擬電路描述的特殊軟件。FPGA 配置需要一些底層軟件——它是為了 ISA 編寫(xiě)的程序。
這里可以用 GPU 做類(lèi)比。在深度學(xué)習(xí)和區(qū)塊鏈盛行之前,有一段時(shí)間 GPU 是用來(lái)處理圖形的。在 21 世紀(jì)初,人們意識(shí)到他們?cè)谔幚頉](méi)有圖形數(shù)據(jù)的計(jì)算密集型任務(wù)時(shí),也會(huì)大量使用 GPU 作為加速器:GPU 設(shè)計(jì)師們已經(jīng)構(gòu)建了更通用的機(jī)器,3D 渲染只是其中一個(gè)應(yīng)用而已。
計(jì)算 FPGA 遵循了相同的軌跡。我們的想法是要多多使用這一時(shí)興的硬件,當(dāng)然不是為了電路仿真,而是利用適合電路執(zhí)行的計(jì)算模式。用類(lèi)比的形式來(lái)看 GPU 和 FPGA,則:
「GPU 之于圖形」相當(dāng)于「FPGA 之于電路仿真」
為了讓 GPU 發(fā)展成今天的數(shù)據(jù)并行加速器,人們不得不重新定義 GPU 輸入的概念。我們過(guò)去常常認(rèn)為 GPU 接受奇特的、強(qiáng)烈的、特定領(lǐng)域的視覺(jué)效果描述。我們實(shí)現(xiàn)了 GPU 執(zhí)行程序,從而解鎖了它們真正的潛力。這樣的實(shí)現(xiàn)讓 GPU 的目標(biāo)從單個(gè)應(yīng)用域發(fā)展為整個(gè)計(jì)算域。我認(rèn)為計(jì)算 FPGA 正處于類(lèi)似的轉(zhuǎn)變中:
「GPU 的海量、常規(guī)數(shù)據(jù)并行」相當(dāng)于「FPGA 具有靜態(tài)結(jié)構(gòu)的不規(guī)則并行性」
現(xiàn)在還沒(méi)有針對(duì) FPGA 擅長(zhǎng)的基本計(jì)算模式的簡(jiǎn)潔描述。但它和潛在的不規(guī)則并行性、數(shù)據(jù)重用以及大多數(shù)靜態(tài)的數(shù)據(jù)流有關(guān)。和 GPU 一樣,F(xiàn)PGA 也需要能夠體現(xiàn)這種計(jì)算模式的硬件抽象:
「GPU 的 SIMT ISA」相當(dāng)于「FPGA 的 ____」
上式缺少的內(nèi)容即,在 FPGA 運(yùn)行的軟件上類(lèi)似 ISA 的抽象。
RTL 不是 ISA
Verilog 用于計(jì)算 FPGA 的問(wèn)題在于它在低級(jí)硬件抽象中效果不好,在高級(jí)編程抽象中的效果也不好。讓我們通過(guò)反證法想象一下,如果用 RTL(寄存器傳輸級(jí))取代這些角色會(huì)是什么樣。
角色 1:Verilog 是一種符合人體工程學(xué)、面向較低級(jí)抽象的高級(jí)編程模型。在我們的思想實(shí)驗(yàn)中,計(jì)算 FPGA 的 ISA 比 RTL 的抽象層次更低:例如網(wǎng)表(netlist)和比特流(bitstream)。而 Verilog 是更高效也更高級(jí)的編程模型。
甚至 RTL 專(zhuān)家可能也無(wú)法相信 Verilog 是可以高效開(kāi)發(fā)主流 FPGA 的方式。它不會(huì)把編程邏輯推向主流。對(duì)于經(jīng)驗(yàn)豐富的硬件黑客來(lái)說(shuō),RTL 設(shè)計(jì)似乎是友好而熟悉的,但它與軟件語(yǔ)言之間的生產(chǎn)力差距是不可估量的。
角色 2:Verilog 是 FPGA 硬件資源的低級(jí)抽象。也就是說(shuō),Verilog 之于 FPGA 就像 ISA 之于 CPU。Verilog 可能沒(méi)那么方便編程,但對(duì)于高級(jí)語(yǔ)言編譯器來(lái)說(shuō),它是一個(gè)很好的目標(biāo),因?yàn)樗苯用枋隽擞布性诎l(fā)生什么。如果你需要維持最后幾個(gè)百分點(diǎn)性能的時(shí)候,它是最后的編程語(yǔ)言選擇。
事實(shí)上,對(duì)現(xiàn)在的計(jì)算 FPGA 來(lái)說(shuō),Verilog 實(shí)際上就是 ISA。主要的 FPGA 供應(yīng)商工具鏈會(huì)將 Verilog 作為輸入,而高級(jí)語(yǔ)言的編譯器則將 Verilog 作為輸出。供應(yīng)商一般會(huì)對(duì)比特流格式保密,因此 Verilog 在抽象層次結(jié)構(gòu)中會(huì)處于盡可能低的位置。
把 Verilog 當(dāng)做 ISA 的問(wèn)題是它和硬件之間的距離太遠(yuǎn)了。RTL 和 FPGA 硬件之間的抽象差距是巨大的:從傳統(tǒng)角度講它至少要包含合成、技術(shù)映射以及布局布線(xiàn)——每一個(gè)都是復(fù)雜而緩慢的過(guò)程。因此,F(xiàn)PGA 上 RTL 編程的編譯/編輯/運(yùn)行周期需要數(shù)小時(shí)或數(shù)天,更糟糕的是,這是一個(gè)無(wú)法預(yù)測(cè)的過(guò)程:工具鏈的深層堆棧可能會(huì)掩蓋 RTL 中的改變,這可能會(huì)影響設(shè)計(jì)性能和能源特性。
好的 ISA 應(yīng)該直接展示底層硬件未經(jīng)修飾的真實(shí)情況。像匯編語(yǔ)言一樣,它其實(shí)不需要很方便編程。但也像匯編語(yǔ)言一樣,它的編譯速度需要非常快,而且結(jié)果可預(yù)測(cè)。如果想要構(gòu)建更高級(jí)的抽象和編譯器,就需要一個(gè)不會(huì)出現(xiàn)意外的低級(jí)目標(biāo)。而 RTL 不是這樣的目標(biāo)。
正確的抽象?
我不知道應(yīng)該用什么樣的抽象取代 RTL 在計(jì)算 FPGA 中的位置。實(shí)際上,只要 FPGA 供應(yīng)商一直保持底層抽象的保密性和子 RTL 工具鏈的專(zhuān)有性,那就不可能替換 Verilog。或許只有等到硬件發(fā)展了才能找到這一問(wèn)題的長(zhǎng)期解決方案,就像 GPU 之前做過(guò)的一樣:
「GPU 和 GPGPU」相當(dāng)于「FPGA 和 ____」
如果計(jì)算 FPGA 是特定類(lèi)算法模式的加速器,那當(dāng)前的 FPGA 并不能理想地實(shí)現(xiàn)這一目標(biāo)。在這個(gè)游戲規(guī)則下能夠擊敗 FPGA 的新硬件類(lèi)型,才可能帶來(lái)全新的抽象層次結(jié)構(gòu)。新的軟件棧應(yīng)該摒棄 FPGA 在電路仿真方面的遺留問(wèn)題,以及 RTL 抽象。
審核編輯:黃飛
?
評(píng)論