電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著摩爾定律失效,高性能計(jì)算芯片的規(guī)模進(jìn)一步擴(kuò)大,數(shù)據(jù)中心集群龐大的功耗已經(jīng)成為我們不得不面臨的問(wèn)題。早在2015年SIA的預(yù)測(cè)中,到2040年全球計(jì)算資源的能源供給就不再具有可持續(xù)性,而如今隨著人工智能的爆發(fā),計(jì)算資源的需求更是猛漲。
以用于訓(xùn)練AI大模型的計(jì)算資源為例,每六個(gè)月翻倍的速度已經(jīng)遠(yuǎn)超高性能計(jì)算集群的組建速度。無(wú)需等到2040年,到了2030年訓(xùn)練單個(gè)大模型所需的資源就將超過(guò)TOP500所有超算的算力總和,而所需要的電力供應(yīng)也將達(dá)到國(guó)家級(jí)。解決能源可持續(xù)的問(wèn)題已經(jīng)避無(wú)可避了,但除非我們放緩發(fā)展速度,或是顛覆計(jì)算方式,是很難實(shí)現(xiàn)這一目標(biāo)的。
對(duì)于應(yīng)用層還沒(méi)進(jìn)入商業(yè)模式成熟和完全盈利的人工智能來(lái)說(shuō),放緩發(fā)展速度自然是不可取的。那么也就只剩下顛覆計(jì)算方式一途,而大幅降低能耗的超導(dǎo)計(jì)算,也就理所當(dāng)然地成了多數(shù)研究的重點(diǎn)方向。
顯著降低功耗,最大開(kāi)銷成為冷卻
2020年,日本國(guó)立橫濱大學(xué)的一個(gè)研究小組就展示了一個(gè)超導(dǎo)CPU,并成功實(shí)現(xiàn)了流片。該處理器主要采用約瑟夫森結(jié)架構(gòu)打造,這是一種經(jīng)典的超導(dǎo)三層器件架構(gòu),也是超導(dǎo)邏輯單元中取代晶體管的基礎(chǔ)元件。因?yàn)槠洫?dú)特的物理特性,該器件工作時(shí)的開(kāi)關(guān)功耗只有10-21J左右,這樣一來(lái)動(dòng)態(tài)功耗相比傳統(tǒng)CMOS器件極大降低,加之超導(dǎo)體無(wú)電阻的特性,靜態(tài)功耗無(wú)限趨近于零。
超導(dǎo)體的出現(xiàn)為降低功耗提供了最大的可能性,因?yàn)槠湓谕ㄟ^(guò)電流時(shí)并不會(huì)消耗能量。最大的能耗開(kāi)支莫過(guò)于需要在低溫下工作的冷卻方案供電,比如超導(dǎo)芯片的處理單元,往往需要低至4K的冷卻溫度。但即便如此,幾乎零電阻的互聯(lián)、基于超短脈沖構(gòu)建的數(shù)字邏輯,都為現(xiàn)代計(jì)算資源大規(guī)模擴(kuò)展提供了足夠的優(yōu)勢(shì)。
而且隨著計(jì)算資源規(guī)模的擴(kuò)大,冷卻方案開(kāi)銷的邊際成本也會(huì)越小,據(jù)imec研究表明,一旦達(dá)到數(shù)十petaflops,超導(dǎo)計(jì)算機(jī)相比傳統(tǒng)的計(jì)算機(jī)就要節(jié)能了,而這樣的算力要求,TOP500中排名前30的超算已經(jīng)可以做到了。
而Imec近期發(fā)布了他們采用標(biāo)準(zhǔn)CMOS工藝制造的超導(dǎo)計(jì)算單元,基于該技術(shù)打造的處理器能效將是當(dāng)下最高效芯片的100倍,甚至可以將一個(gè)數(shù)據(jù)中心級(jí)別的計(jì)算資源塞進(jìn)鞋盒大小的系統(tǒng)中。
將超導(dǎo)帶出實(shí)驗(yàn)室的方法——兼容現(xiàn)有的CMOS制造技術(shù)
盡管超導(dǎo)可以降低功耗提高計(jì)算密度,但對(duì)于目前的大部分研究來(lái)說(shuō),都只停留在實(shí)驗(yàn)室階段,要想真正實(shí)現(xiàn)大規(guī)模量產(chǎn)無(wú)異于癡人說(shuō)夢(mèng)。比如上文提到的橫濱國(guó)立大學(xué)超導(dǎo)CPU,就是基于超導(dǎo)鈮實(shí)現(xiàn)的,這種材料在可預(yù)測(cè)的實(shí)驗(yàn)室環(huán)境中表現(xiàn)良好,但要想用于制造工藝中就存在不少難題了。
鈮對(duì)傳統(tǒng)半導(dǎo)體加工溫度及其周圍材料都很敏感,一加熱就會(huì)失去超導(dǎo)能力,因此與標(biāo)準(zhǔn)CMOS工藝流程不兼容。為此,imec改用了氮化鈮鈦?zhàn)鳛榛A(chǔ)超導(dǎo)材料。氮化鈮鈦可以承受CMOS制造工藝所用的溫度,而且與周圍層的反應(yīng)較少。
同時(shí)imec還為約瑟夫森結(jié)的勢(shì)壘層選擇了一個(gè)新材料,無(wú)定形硅。傳統(tǒng)的約瑟夫森結(jié)勢(shì)壘層材料,比如氧化鋁等,可以在可控的條件下生長(zhǎng),但為了達(dá)到遠(yuǎn)高于CMOS工藝芯片的密度,就必須進(jìn)一步壓縮其厚度,可這么薄的氧化物已經(jīng)到了無(wú)法制造的程度。無(wú)定形硅的出現(xiàn),則允許使用更厚的勢(shì)壘層,實(shí)現(xiàn)210nm這樣的臨界尺寸。
在電路層面,同樣需要對(duì)邏輯和存儲(chǔ)結(jié)構(gòu)重新設(shè)計(jì)。Imec設(shè)計(jì)出了一種全新的邏輯架構(gòu),名為脈沖守恒邏輯,輸入和輸出的數(shù)量保持一致,且SFQ(單通量量子)的總數(shù)保持守恒。通過(guò)不同約瑟夫森結(jié)和電容的組合將SFQ引導(dǎo)至不同輸出,從而產(chǎn)生我們常見(jiàn)的邏輯OR和AND。在Imec的設(shè)計(jì)中,SRAM也是基于約瑟夫森結(jié)重新設(shè)計(jì)的,不過(guò)DRAM還是采用傳統(tǒng)的硅工藝,但也需要從室溫降低至77K的低溫環(huán)境,用于提高效率。
鞋盒大小的數(shù)據(jù)中心,也需要3D堆疊實(shí)現(xiàn)
在基于CMOS工藝打造的數(shù)字芯片上,隨著縮小晶體管變得越來(lái)越困難,我們已經(jīng)開(kāi)始廣泛利用3D堆疊技術(shù)提高性能。但由于芯片內(nèi)部的超大功率和熱量,堆疊方案已經(jīng)逐漸面臨更大的挑戰(zhàn),如何做好散熱成了多數(shù)3D堆疊方案必須解決的首要問(wèn)題。
對(duì)于基于超導(dǎo)體的芯片設(shè)計(jì)而言,同樣可以借助3D堆疊來(lái)實(shí)現(xiàn)更高的密度。結(jié)合硅中介層和玻璃基板這樣的先進(jìn)封裝技術(shù),將超導(dǎo)處理單元與嵌入式超導(dǎo)SRAM和DRAM堆疊在一起。芯片的大部分都將浸沒(méi)在液氮中,冷卻至4K。
在imec的模擬中,他們將100塊超導(dǎo)體芯片板打造堆疊在一起,中間只留出極小的空間,整個(gè)系統(tǒng)的體積大小只有20x20x12厘米,與一個(gè)鞋盒大小近似。但正是這樣一個(gè)鞋盒大小的系統(tǒng),總功耗只有500kW,卻可以提供將近20exaflops(BF16)的算力。
而這僅僅是Imec路線圖中第一套方案,在后續(xù)的產(chǎn)品中,會(huì)進(jìn)一步縮小約瑟夫森結(jié)和互聯(lián)的尺寸。未來(lái)通過(guò)進(jìn)一步提高邏輯芯片的密度,芯片板的數(shù)量也會(huì)隨之減少,這樣提高性能的同時(shí),也會(huì)降低工藝復(fù)雜性和成本。
寫在最后
盡管超導(dǎo)計(jì)算讓我們看到了可行的技術(shù)路線,但即便是imec也不認(rèn)為超導(dǎo)數(shù)據(jù)技術(shù)會(huì)取代傳統(tǒng)的CMOS計(jì)算,而只是作為部分特定應(yīng)用補(bǔ)充。這一技術(shù)的主要應(yīng)用場(chǎng)景還是在大型的數(shù)據(jù)中心,為人工智能和機(jī)器學(xué)習(xí)處理提供基于云端的訓(xùn)練推理等,因?yàn)橹挥羞@樣的環(huán)境內(nèi)才能有條件實(shí)現(xiàn)超導(dǎo)所需的冷卻技術(shù)。在消費(fèi)電子領(lǐng)域,傳統(tǒng)的CMOS硅工藝依然不可取代。
值得一提的是,這一技術(shù)與Imec基于CMOS制造工藝的超導(dǎo)量子比特技術(shù)同樣可以做到無(wú)縫集成,可以說(shuō)是電子計(jì)算與量子計(jì)算的完美結(jié)合。但即便搞定了基礎(chǔ)材料工程設(shè)計(jì),以及架構(gòu)的設(shè)計(jì),還有電路開(kāi)發(fā)設(shè)計(jì)這一環(huán)目前沒(méi)有打通,需要EDA廠商為其開(kāi)發(fā)特定的流程工具。
-
處理器
+關(guān)注
關(guān)注
68文章
19372瀏覽量
230434 -
CMOS
+關(guān)注
關(guān)注
58文章
5727瀏覽量
235763 -
算力
+關(guān)注
關(guān)注
1文章
999瀏覽量
14877
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
走進(jìn)北大 | 算能RISC-V通用處理器設(shè)計(jì)成功開(kāi)課
![走進(jìn)北大 | <b class='flag-5'>算</b>能RISC-V通用<b class='flag-5'>處理器</b>設(shè)計(jì)成功開(kāi)課](https://file1.elecfans.com/web2/M00/A6/4A/wKgaomUTnHiADnB2AAAtr1gPdQM010.png)
算力基礎(chǔ)篇:從零開(kāi)始了解算力
![<b class='flag-5'>算</b><b class='flag-5'>力</b>基礎(chǔ)篇:從零開(kāi)始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>](https://file1.elecfans.com/web1/M00/F5/1F/wKgZoWc26EKAG7z7AAA0E3Nf2hk998.png)
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽
名單公布!【書籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
算力的分類與現(xiàn)代生活
![<b class='flag-5'>算</b><b class='flag-5'>力</b>的分類與現(xiàn)代生活](https://file1.elecfans.com/web2/M00/05/1F/wKgaombMKQSAWk8oABK0dkSZfRQ049.png)
用ARMxy ARM工業(yè)控制器自帶的1Tops算力實(shí)現(xiàn)高性能圖像處理
![用ARMxy ARM工業(yè)控制<b class='flag-5'>器</b>自帶的1Tops<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>實(shí)現(xiàn)</b>高性能圖像<b class='flag-5'>處理</b>](https://file1.elecfans.com/web2/M00/04/68/wKgaombEEzWAcH_PAACv1bOeghA124.png)
算力服務(wù)器為什么選擇GPU
![<b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)<b class='flag-5'>器</b>為什么選擇GPU](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書
imec推出超導(dǎo)處理器,基于現(xiàn)有的CMOS制造工具
中國(guó)第三代自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”入駐國(guó)家超算互聯(lián)網(wǎng)
![中國(guó)第三代自主<b class='flag-5'>超導(dǎo)</b>量子計(jì)算機(jī)“本源悟空”入駐國(guó)家超<b class='flag-5'>算</b>互聯(lián)網(wǎng)](https://file.elecfans.com/web2/M00/3F/9D/poYBAGJo-maAOH8MAAIB_hk2Mno583.png)
iBeLink KS MAX 10.5T大算力領(lǐng)跑KAS新領(lǐng)域
智能算力規(guī)模超通用算力,大模型對(duì)智能算力提出高要求
![](https://file1.elecfans.com/web2/M00/BF/50/wKgaomWyBbOAFMs7AAbAHCNVM2U248.jpg)
評(píng)論