英特爾在Hot Chips大會(huì)上發(fā)布了首款AI處理器,專(zhuān)為大型計(jì)算中心設(shè)計(jì)。該芯片基于10納米Ice Lake處理器,專(zhuān)為大型數(shù)據(jù)中心設(shè)計(jì),可以用最少的能耗來(lái)處理高工作負(fù)載。本文帶來(lái)這款芯片的詳細(xì)設(shè)計(jì)細(xì)節(jié)。
近日在Hot Chips 2019大會(huì)上,英特爾發(fā)布了首款A(yù)I處理器,專(zhuān)為大型計(jì)算中心設(shè)計(jì)。
英特爾表示,該芯片由位于以色列海法的研發(fā)中心開(kāi)發(fā),名為Nervana NNP-I或Springhill,基于10納米Ice Lake處理器,可以用最少的能耗來(lái)處理高工作負(fù)載。
英特爾表示,隨著AI領(lǐng)域?qū)?fù)雜計(jì)算的需求日益增加,這款新的硬件芯片將有助于大型企業(yè)使用英特爾Xeon處理器。
在Hot Chips大會(huì)上,他們提供了這款A(yù)I芯片的更多設(shè)計(jì)細(xì)節(jié)。
英特爾首款A(yù)I芯片設(shè)計(jì)細(xì)節(jié)
英特爾正采取數(shù)項(xiàng)不同的舉措,通過(guò)其“無(wú)處不在的AI”('AI everywhere)戰(zhàn)略,擴(kuò)大其在蓬勃發(fā)展的AI市場(chǎng)的影響力。該公司廣泛的產(chǎn)品包括GPU,FPGA和定制ASIC,用于應(yīng)對(duì)AI領(lǐng)域的不同挑戰(zhàn),其中一些解決方案專(zhuān)為計(jì)算密集型的訓(xùn)練任務(wù)而設(shè)計(jì),用于為目標(biāo)識(shí)別、語(yǔ)音翻譯、語(yǔ)音合成等工作負(fù)載創(chuàng)建復(fù)雜的神經(jīng)網(wǎng)絡(luò),將產(chǎn)生的訓(xùn)練模型作為輕量級(jí)代碼運(yùn)行的單獨(dú)解決方案稱(chēng)為推理。
英特爾的Spring Hill Nervana神經(jīng)網(wǎng)絡(luò)推理處理器(NNP-I) 1000,我們?cè)谙挛闹泻?jiǎn)稱(chēng)為NNP-I,用于處理數(shù)據(jù)中心的輕量級(jí)推理工作負(fù)載。這款芯片足夠小,可以安裝在標(biāo)準(zhǔn)的M.2設(shè)備上,然后插入主板上的標(biāo)準(zhǔn)M.2端口,從而將Xeon服務(wù)器從推理密集型工作負(fù)載中解放出來(lái),將更大的芯片釋放出來(lái)用于一般計(jì)算任務(wù)。用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)處理器 (NPP-T)作為英特爾的Nervana解決方案用于訓(xùn)練工作負(fù)載,但這兩種設(shè)備的底層架構(gòu)有很大的不同。
英特爾修改了10nm Ice Lake處理器,去掉了兩個(gè)計(jì)算核心和圖形引擎,以適應(yīng)12個(gè)推理計(jì)算引擎(ICE)。ICE加速器具有基于硬件的單元間同步,與兩個(gè)IA核共享一個(gè)連貫的結(jié)構(gòu)和24MB的L3緩存,這兩個(gè)IA核具有Sunny Cove微架構(gòu)。
IA核心是標(biāo)準(zhǔn)的Ice Lake核心,支持AVX-512和VNNI指令,可加速卷積神經(jīng)網(wǎng)絡(luò),而一個(gè)完全集成的電壓調(diào)節(jié)模塊(FIVR)動(dòng)態(tài)地向組件供電,將更多的功率預(yù)算分配給最活躍的on-die單元。該芯片配備了兩個(gè)LPDDR4X內(nèi)存控制器,連接到封裝內(nèi)存,你可以將其視為M.2 PCB左下方的單個(gè)組件。控制器提供高達(dá)4.2 GT/s (68 GB/s)的吞吐量,并支持 in-band ECC。
英特爾尚未透露LPDDR4的容量,也沒(méi)有透露有關(guān)M.2設(shè)備的其他細(xì)節(jié)。我們知道英特爾將這個(gè)軟件包安裝在不同形式的插入卡上,比如上面的M.2版本,它可以插入服務(wù)器主板上的標(biāo)準(zhǔn)M.2端口,或者插入標(biāo)準(zhǔn)的PCIe插槽的更大的附加卡。與谷歌的TPU等為人AI設(shè)計(jì)的定制芯片不同,這款設(shè)備基本上與所有現(xiàn)有的現(xiàn)代服務(wù)器硬件兼容。這種方法也是可擴(kuò)展的:你可以根據(jù)需要向服務(wù)器添加盡可能多的NNP-I,特別是對(duì)于包含多個(gè)M.2端口的PCIe提升板。
該設(shè)備通過(guò)PCIe 3.0 x4或x8接口與主機(jī)通信,但不使用NVMe協(xié)議。相反,它作為一個(gè)標(biāo)準(zhǔn)的PCIe設(shè)備運(yùn)行。英特爾將提供一種軟件,可以將推理“作業(yè)”完全編排到加速器上,當(dāng)工作完成時(shí),該軟件將通知Xeon CPU。卸載消除了Xeon與其他類(lèi)型的加速器在PCIe總線上的來(lái)回通信,這對(duì)CPU來(lái)說(shuō)是一種負(fù)擔(dān),因?yàn)樗鼤?huì)生成中斷并需要數(shù)據(jù)移動(dòng)。相反,NNP-I是一個(gè)獨(dú)立的系統(tǒng),具有自己的I/O調(diào)節(jié)(PCH),允許它訪問(wèn)處理所需的數(shù)據(jù)。
該設(shè)備可以支持從10W到50W的不同功率范圍,這對(duì)性能有影響。M.2接口的15W限制阻礙了插入標(biāo)準(zhǔn)M.2插座的設(shè)備的功率傳輸,但NNP-I在更大的外接卡中可以在最高TDP額定值下運(yùn)行,這意味著它們提供了更好的性能。在INT8操作中,TOP/s的范圍從48到92。根據(jù)配置的TDP,芯片的效率為每瓦特2~4.8 TOP/s,但該指標(biāo)不包括總包功率。
推理計(jì)算引擎內(nèi)部
深入研究ICE引擎可以發(fā)現(xiàn),每個(gè)ICE單元都有額外的4MB SRAM,有助于減少芯內(nèi)數(shù)據(jù)移動(dòng),這在功耗和時(shí)間方面總是比實(shí)際的計(jì)算操作更昂貴。深度學(xué)習(xí)計(jì)算網(wǎng)格(DL Compute Grid)是一個(gè)張量引擎,通過(guò)數(shù)據(jù)和控制結(jié)構(gòu)連接到SRAM和VP6 DSP。DSP引擎可以用于沒(méi)有專(zhuān)門(mén)針對(duì)固定功能DL計(jì)算網(wǎng)格進(jìn)行優(yōu)化的算法。此外,其他代碼可以在Ice Lake核心上使用VNNI運(yùn)行,使多個(gè)模型可以同時(shí)在設(shè)備上運(yùn)行,也為快速移動(dòng)的AI空間提供了一些必需的前向兼容性。
DL Compute Grid支持FP16和INT8,但也支持INT4、2和1,以支持未來(lái)可能對(duì)AI算法進(jìn)行的調(diào)整。令人驚訝的是,它不支持bfloat16。通過(guò)調(diào)整工作負(fù)載在ICE單元之間的分布方式,可以優(yōu)化fabric的帶寬或延遲,如下表所示。
這里我們可以看到DL Compute Grid的特寫(xiě)視圖,它被設(shè)計(jì)得很靈活,以最大化其4D并行計(jì)算能力,以及用于矢量處理的Tensilicon Vision P6 DSP。Tensilica DSP引擎是一個(gè)廣泛的VLIW機(jī)器,支持INT8, 16, 32,和FP16。該引擎是完全可編程的,并具有一個(gè)雙向管道和DL Compute Grid,可在兩個(gè)硬件同步單元之間快速傳輸數(shù)據(jù)。。
芯片的內(nèi)存子系統(tǒng)
回到內(nèi)存子系統(tǒng),可以看到每個(gè)計(jì)算單元中所做的設(shè)計(jì)決策背后的許多合理化。這里我們可以看到硬件控制的L3緩存被分成8個(gè)3MB的片段,在AI核心和ICE單元之間共享。該設(shè)計(jì)經(jīng)過(guò)優(yōu)化,使數(shù)據(jù)盡可能接近計(jì)算引擎,并具有四個(gè)不同的層。
圖表左側(cè)的一系列blocks量化了通過(guò)內(nèi)存結(jié)構(gòu)的每一層移動(dòng)數(shù)據(jù)的延遲。從DRAM到DLCompute Grid的數(shù)據(jù)傳輸被設(shè)置為基線,我們可以看到分層結(jié)構(gòu)中的每一層將數(shù)據(jù)傳輸?shù)膃ngine的速度是多么快。從L3緩存訪問(wèn)比DRAM快10倍,而存儲(chǔ)在DL Compute Grid中的數(shù)據(jù)比DRAM快1000倍。
總之,分層設(shè)計(jì)允許Xeon向設(shè)備卸載幾種不同類(lèi)型的神經(jīng)網(wǎng)絡(luò),每一層都支持一定的精度。請(qǐng)注意,上面的金字塔是根據(jù)每瓦特的性能排列的。
英特爾與ResNet50共享性能數(shù)據(jù),運(yùn)行速度為每秒3600 次推理,芯片設(shè)置為10W TDP。這相當(dāng)于每瓦特4.8 TOP/s的效率測(cè)量,符合公司的設(shè)計(jì)目標(biāo)。值得注意的是,芯片在較低的TDP范圍內(nèi)效率更高,因此在較高的性能設(shè)置下效率可能會(huì)有所不同。這些數(shù)字也只適用于ASIC,不包括整個(gè)M.2設(shè)備的功耗。英特爾表示,未來(lái)將分享更多的性能數(shù)據(jù)。
英特爾提供了一個(gè)編譯器,可以為NNP-I的加速器定制代碼,并正在與Facebook合作,以確保Glo編譯器也支持NNP-I的加速器。Facebook是英特爾在開(kāi)發(fā)期間的“定義”合作伙伴。該設(shè)備還支持所有標(biāo)準(zhǔn)框架,如PyTorch和TensorFlow等,幾乎沒(méi)有任何更改。英特爾堅(jiān)持認(rèn)為,任何能夠使用Xeons進(jìn)行推理的人都可以使用NNP-I。
在數(shù)據(jù)中心,推理應(yīng)用遠(yuǎn)比訓(xùn)練普遍,價(jià)格合理的低功耗設(shè)備將集體銷(xiāo)售給超大規(guī)模和云服務(wù)提供商(CSP),意思是這可以成為英特爾的一個(gè)利潤(rùn)豐厚的細(xì)分市場(chǎng)。該公司本身并沒(méi)有打算將這些設(shè)備推向零售市場(chǎng),但確實(shí)希望CSP在未來(lái)通過(guò)基于云的實(shí)例來(lái)公開(kāi)它們。
英特爾已經(jīng)研發(fā)了兩代NNP-I。該公司將在今年年底前開(kāi)始批量生產(chǎn),NNP-I已經(jīng)開(kāi)始提供樣品。
-
芯片
+關(guān)注
關(guān)注
459文章
52291瀏覽量
437601 -
英特爾
+關(guān)注
關(guān)注
61文章
10182瀏覽量
174133 -
AI處理器
+關(guān)注
關(guān)注
0文章
92瀏覽量
9708
原文標(biāo)題:英特爾首款A(yù)I芯片終于面世!10nm工藝,以色列團(tuán)隊(duì)設(shè)計(jì)細(xì)節(jié)曝光
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
英特爾發(fā)布全新GPU,AI和工作站迎來(lái)新選擇
自然語(yǔ)言提示原型在英特爾Vision大會(huì)上首次亮相
英特爾CES 2025發(fā)布全新酷睿Ultra處理器
英特爾18A制程芯片Panther Lake處理器下半年發(fā)布
英特爾帶您解鎖云上智算新引擎
英特爾與火山引擎飛連攜手升級(jí)AI時(shí)代企業(yè)IT管理體驗(yàn)
英特爾向聯(lián)想交付首款18A工藝CPU樣品
英特爾至強(qiáng)品牌新戰(zhàn)略發(fā)布
英特爾攜手百度智能云加速AI落地
英特爾發(fā)布酷睿Ultra 200S系列臺(tái)式機(jī)處理器
英特爾發(fā)布至強(qiáng)6性能核處理器,攜手生態(tài)加速數(shù)據(jù)中心算力升級(jí)

英特爾發(fā)布至強(qiáng)6處理器產(chǎn)品
英特爾亮相2024云棲大會(huì),共話AI時(shí)代發(fā)展新機(jī)

評(píng)論