電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)3月3日,Graphcore發(fā)布最新一代IPU,性能比上一代提升40%,電源效率提升16%,這是全球首款基于臺積電3D Wafer-on-Wafer的處理器。從上一代IPU到新的IPU,開發(fā)者無需修改代碼,價(jià)格保持不變,現(xiàn)在已經(jīng)上市。
世界首顆基于臺積電3D Wafer-on-Wafer的處理器
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤向媒體介紹,新一代IPU名叫Bow IPU,是一個(gè)3D封裝的芯片,單個(gè)封裝中有超過600億個(gè)晶體管,具有350 TeraFLOPS的人工智能計(jì)算的性能,上一代MK2 IPU是250 TeraFLOPS。
Bow IPU在供電方面也做了很多優(yōu)化,片內(nèi)存儲保持了0.9 GB的容量,但吞吐量從47.5TB/s提高到65TB/s。
處理器內(nèi)核個(gè)數(shù)、獨(dú)立線程個(gè)數(shù)等等,包括外部的一些接口,Bow IPU跟上一代處理器相比都沒有變化。相比上一代,Bow IPU變化主要體現(xiàn)在它是一個(gè)3D封裝的處理器,晶體管的規(guī)模有所增加,以及算力和吞吐量有所提升。
Bow IPU由2顆裸片疊在一起構(gòu)成,使用了臺積電的SoIC-WoW技術(shù)。一個(gè)IPU的裸片在下面,另一個(gè)裸片在上面。上面的裸片為供電、節(jié)能等功能提供幫助。
盧濤表示,跟之前的處理器相比,這個(gè)設(shè)計(jì)使得新產(chǎn)品在實(shí)際運(yùn)算算力提高的情況下,能效方面也有所提升。
從某種意義來說,這是Graphcore跟臺積電一起聯(lián)合創(chuàng)新的結(jié)果。
基于Bow IPU的Bow系統(tǒng)性能大幅提升
除了BowIPU,Graphcore同時(shí)發(fā)布了基于Bow IPU的Bow系統(tǒng),包括Bow Pod16、Bow Pod32、Bow Pod64、Bow Pod256,以及Bow Pod1024。以Bow Pod16為例,Bow Pod16中包括4臺1U的Bow-2000,還包括1臺CPU服務(wù)器,能提供5.6 PetaFLOPS算力。
以Bow Pod16縱向擴(kuò)展的Bow Pod32、Bow Pod64分別包括8臺Bow-2000、16臺Bow-2000?;贐ow Pod64可以再橫向擴(kuò)展到Bow Pod256、Bow Pod1024等。Bow Pod1024包括256臺Bow-2000,可以提供358.4 PetaFLOPS的人工智能計(jì)算。目前,除了Bow Pod1024在早期訪問階段外,Bow Pod16、Bow Pod32、Bow Pod64、Bow Pod256均已量產(chǎn)。
性能擴(kuò)展方面,以IPU-POD16的性能作為基準(zhǔn),Bow Pod16的性能可以提升1.4倍,Bow Pod256可以提升18倍。
盧濤介紹,Bow-2000 IPUMachine使用了4顆Bow IPU。此前,在這樣一個(gè)1U刀片里,Graphcore提供了1 PetaFLOPS的算力,現(xiàn)在Graphcore提供了1.4 PetaFLOPS的算力。Bow-2000具有3.6 GB處理器內(nèi)存儲,吞吐量為260TB/s,IPU流存儲多達(dá)256 GB,IPU-Fabric為2.8 Tbps。
100%軟件兼容,開箱即用無需更改代碼
盧濤強(qiáng)調(diào),新一代產(chǎn)品跟前一代產(chǎn)品百分之百軟件兼容,基本上能做到開箱即用。用戶得到性能提升的同時(shí)不需要修改代碼,不僅是應(yīng)用軟件,包括底層軟件、驅(qū)動(dòng)等都不需要做任何修改,可以無縫集成到正在不斷變得更加廣泛的IPU軟件合作伙伴生態(tài)中。
這一點(diǎn)特別關(guān)鍵。很多產(chǎn)品在從一代往另一代演進(jìn)的時(shí)候,在實(shí)現(xiàn)性能提升的同時(shí),還需要很多的軟件適配工作。而100%的軟件兼容,意味著已經(jīng)使用Graphcore上一代IPU的用戶在未來購置新的Bow IPU后,不需要做任何軟件適配工作就能獲得性能提升。
提供完整軟件棧生態(tài)系統(tǒng)
Graphcore中國工程副總裁、AI算法科學(xué)家金琛對媒體表示,上述的這些性能提升,除了硬件新架構(gòu)外,也要?dú)w功于Graphcore的軟件棧和生態(tài)系統(tǒng),其中的核心部分就是Poplar SDK。
金琛表示,Poplar SDK包括driver,上層XLA的backend,以及Graphcore自研的PopART等,這些軟件的加持使得Graphcore能夠?qū)崿F(xiàn)在不同應(yīng)用的性能上的廣泛和通用的提升。
除此之外,Graphcore還提供比較豐富的生態(tài)。比如AI軟件框架,支持PyTorch、TensorFlow、HALO、PaddlePaddle,以及Keras等。在用戶方面,支持Jupyter NoteBook,以及Inference Deployment Toolkit等,幫助客戶實(shí)現(xiàn)推算一體的部署。
在開發(fā)者社區(qū)方面,Graphcore提供廣泛的代碼用例,以及各種文檔、視頻的示范。Graphcore在機(jī)器學(xué)習(xí)應(yīng)用上提供了特別多模型范例,覆蓋了不同的AI垂直領(lǐng)域,如圖像識別、物體檢測,語音模型、語言模型等,這個(gè)模型庫還在不停迭代和增加。
在云上,Graphcore也提供了廣泛的部署。此外,Graphcore的PopVision工具可以幫助用戶和Poplar編程者更有效地提升應(yīng)用在Graphcore的平臺上的性能優(yōu)化。
提供10倍的總體擁有成本優(yōu)勢
Graphcore不僅提供高效的性能,在性價(jià)比上也有比較顯著的優(yōu)勢。比如,上圖左邊是Bow Pod的一個(gè)形態(tài),右邊是DGX-A100的一個(gè)形態(tài)??梢钥吹剑贒GX-A100上需要70個(gè)小時(shí)的訓(xùn)練時(shí)間,在Bow Pod16上,EfficientNet-B4的backbone的訓(xùn)練只需要14個(gè)小時(shí)左右,基本快了5倍,性價(jià)比又有優(yōu)勢,總體擁有成本(TCO)的增益可以達(dá)到接近10倍左右。
Graphcore未來還要做什么?
人的大腦大概有860億個(gè)神經(jīng)元,100萬億個(gè)突觸,這個(gè)突觸相當(dāng)于人工智能里面模型的參數(shù)個(gè)數(shù)。也就是說,最大的人工智能模型的參數(shù)跟真正的人的大腦比較起來,還有100倍左右的差距。
盧濤談到,目前Graphcore正在開發(fā)一款可以用來超越人腦處理的超級智能機(jī)器——Good Computer,即古德計(jì)算機(jī)。這個(gè)命名有兩層含義,一層是好的計(jì)算機(jī),希望計(jì)算機(jī)能夠帶來正面的影響,另外也是向前輩致敬——JackGood是一位非常知名的計(jì)算機(jī)科學(xué)家。
Good Computer大概能夠達(dá)到8192個(gè)未來的IPU,提供超過10 Exa-Flops的AI算力,未來也許會(huì)繼續(xù)向3D Wafer-on-Wafer演進(jìn),可以實(shí)現(xiàn)4 PB的存儲,可以助力超過500萬億參數(shù)規(guī)模的人工智能模型的開發(fā),Poplar SDK完全支持。
預(yù)計(jì)價(jià)格取決于不同的配置,大概在100萬美元到1.5億美元的規(guī)模。盧濤表示,從Bow IPU往前展望,這是Graphcore正在做的一個(gè)產(chǎn)品。
-
臺積電
+關(guān)注
關(guān)注
44文章
5751瀏覽量
169731 -
IPU
+關(guān)注
關(guān)注
0文章
35瀏覽量
15800
發(fā)布評論請先 登錄
臺積電CoWoS產(chǎn)能未來五年穩(wěn)健增長
臺積電擴(kuò)大先進(jìn)封裝設(shè)施,南科等地將增建新廠
臺積電CoWoS封裝A1技術(shù)介紹

TAS3103 EVM用于具有3D效果的數(shù)字音頻處理器

Monitor Wafer的核心功能、特點(diǎn)、生產(chǎn)流程和應(yīng)用
谷歌Tensor G系列芯片代工轉(zhuǎn)向臺積電
WAFER連接器在現(xiàn)代電子領(lǐng)域的多樣化應(yīng)用
WAFER線對板連接器的特點(diǎn)與應(yīng)用分析

評論