在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CPU處理器未來(lái)技術(shù)演進(jìn)方向

智能計(jì)算芯世界 ? 來(lái)源:智能計(jì)算芯世界 ? 2023-04-26 10:37 ? 次閱讀

本文選自“2022年國(guó)產(chǎn)服務(wù)器CPU研究框架”。后摩爾定律時(shí)代,單靠制程工藝的提升帶來(lái)的性能受益已經(jīng)十分有限,Dennard Scaling規(guī)律約束,芯片功耗急劇上升,晶體管成本不降反升;單核的性能已經(jīng)趨近極限,多核架構(gòu)的性能提升亦在放緩。

1)從通用到專(zhuān)用:面向不同的場(chǎng)景特點(diǎn)定制芯片,XPU、FPGA、DSA、ASIC應(yīng)運(yùn)而生。

2)從底層到頂層:軟件、算法、硬件架構(gòu)。架構(gòu)的優(yōu)化能夠極大程度提升處理器性能,例如AMD Zen3將分離的兩塊16MB L3 Cache合并成一塊32MB L3 Cache,再疊加改進(jìn)的分支預(yù)測(cè)、更寬的浮點(diǎn)unit等,便使其單核心性能較Zen2提升19%。

3)異構(gòu)與集成:蘋(píng)果M1 Ultra芯片的推出帶來(lái)啟迪,利用逐步成熟的3D封裝、片間互聯(lián)等技術(shù),使多芯片有效集成,似乎是延續(xù)摩爾定律的最佳實(shí)現(xiàn)路徑。

主流芯片廠(chǎng)商已開(kāi)始全面布局:

Intel已擁有CPU、FPGA、IPU產(chǎn)品線(xiàn),正加大投入GPU產(chǎn)品線(xiàn),推出最新的Falcon Shores架構(gòu),打磨異構(gòu)封裝技術(shù);

NVDIA則接連發(fā)布多芯片模組(MCM,Multi-Chip Module)Grace系列產(chǎn)品,預(yù)計(jì)即將投入量產(chǎn);

AMD則于近日完成對(duì)塞靈思的收購(gòu),預(yù)計(jì)未來(lái)走向CPU+FPGA的異構(gòu)整合。

此外,英特爾、AMD、Arm高通、臺(tái)積電、三星、日月光、Google云、Meta、微軟等十大行業(yè)主要參與者聯(lián)合成立了Chiplet標(biāo)準(zhǔn)聯(lián)盟,正式推出通用Chiplet的高速互聯(lián)標(biāo)準(zhǔn)“Universal Chiplet InterconnectExpress”(通用小芯片互連,簡(jiǎn)稱(chēng)“UCIe”)。

在UCIe的框架下,互聯(lián)接口標(biāo)準(zhǔn)得到統(tǒng)一。各類(lèi)不同工藝、不同功能的Chiplet芯片,有望通過(guò)2D、2.5D、3D等各種封裝方式整合在一起,多種形態(tài)的處理引擎共同組成超大規(guī)模的復(fù)雜芯片系統(tǒng),具有高帶寬、低延遲、經(jīng)濟(jì)節(jié)能的優(yōu)點(diǎn)。

b353ae8e-e3a7-11ed-ab56-dac502259ad0.png

以多核提升性能功耗比:多核處理器把多個(gè)處理器核集成到同一個(gè)芯片之上,每個(gè)單元的計(jì)算性能密度得以大幅提升。同時(shí),原有的外圍部件可以被多個(gè)CPU系統(tǒng)共享,可帶來(lái)更高的通信帶寬和更短的通信時(shí)延,多核處理器在并行性方面具有天然的優(yōu)勢(shì),通過(guò)動(dòng)態(tài)調(diào)節(jié)電壓/頻率、負(fù)載優(yōu)化分布等,可有效降低功耗,提升性能。

以多線(xiàn)程提升總體性能:通過(guò)復(fù)制處理器上的結(jié)構(gòu)狀態(tài),讓同一個(gè)處理器上的多個(gè)線(xiàn)程同步執(zhí)行并共享處理器的執(zhí)行資源,可以極小的硬件代價(jià)獲得相當(dāng)比例的總體性能和吞吐量提高。

微架構(gòu)的改進(jìn)

眾多算數(shù)單元、邏輯單元、寄存器在三態(tài)總線(xiàn)和單項(xiàng)總線(xiàn),以及各個(gè)控制線(xiàn)的連接下共同組成CPU微架構(gòu)。不同的微架構(gòu)設(shè)計(jì),對(duì)CPU性能和效能的提升發(fā)揮著直觀重要的作用。

微架構(gòu)的升級(jí),一般涉及到指令集拓展、硬件虛擬化、大內(nèi)存、亂序執(zhí)行等等一系列復(fù)雜的工作,還涉及到編譯器、函數(shù)庫(kù)等軟件層次的修改,牽一發(fā)而動(dòng)全身。

摩爾定律放緩

摩爾定律于上世紀(jì)60年代提出,直至2011年前,計(jì)算機(jī)元器件的小型化是提升處理性能的主要因素。2011年后,摩爾定律開(kāi)始放緩,制硅工藝的改進(jìn)將不再提供顯著的性能提升。

Tick-Tock”模式失效

自2007年開(kāi)始,英特爾開(kāi)始實(shí)施“Tick-Tock”發(fā)展模式,以?xún)赡隇橹芷冢谄鏀?shù)年(Tick)推出新制成工藝,在偶數(shù)年(Tock)推出新架構(gòu)的微處理器

b368b19e-e3a7-11ed-ab56-dac502259ad0.png

在14nm轉(zhuǎn)10nm接連推遲后,英特爾自2016年起宣布停止 “Tick-Tock”處理器升級(jí)周期,改為處理器升級(jí)的三步戰(zhàn)略:制程工藝(Process)-架構(gòu)更新(Architecture)-優(yōu)化(Optimization)。

后摩爾時(shí)代,頂層優(yōu)化或更為重要

新的底層優(yōu)化路徑被提出,例如3D堆疊、量子計(jì)算、光子學(xué)、超導(dǎo)電路、石墨烯芯片等,技術(shù)目前仍處于起步階段,但后續(xù)有望突破現(xiàn)有想象空間。

b3719796-e3a7-11ed-ab56-dac502259ad0.png

根據(jù)MIT在《Science》發(fā)布的文章,后摩爾定律時(shí)代,算力提升將更大程度上來(lái)源于計(jì)算堆棧的「頂層」,即軟件、算法和硬件架構(gòu)。

通用指令集為了覆蓋更多應(yīng)用,往往需要支持上千條指令,導(dǎo)致流水線(xiàn)前端設(shè)計(jì)(取指、譯 碼、分支預(yù)測(cè)等變得十分復(fù)雜),對(duì)性能功耗會(huì)產(chǎn)生負(fù)面影響。

領(lǐng)域?qū)S弥噶罴纱蟠鬁p少指令數(shù)量,并且能夠增大操作粒度,融合訪(fǎng)存優(yōu)化,實(shí)現(xiàn)數(shù)量級(jí)提高性能功耗比。

新興場(chǎng)景出現(xiàn),CPU從通用向?qū)S冒l(fā)展

1972年,戈登·貝爾(Gordon Bell)提出,每隔10年,會(huì)出現(xiàn)新一類(lèi)計(jì)算機(jī)(新編程平臺(tái)、 ,新網(wǎng)絡(luò)連接、新用戶(hù)接口,新使用方式且更廉價(jià)),形成新的產(chǎn)業(yè)。1987 年, 原日立公司總工程師牧村次夫(Tsugio Makimoto) 提出,半導(dǎo)體產(chǎn)品未來(lái)可能將沿著“標(biāo)準(zhǔn)化”與“定制化”交替發(fā)展的路線(xiàn)前進(jìn),大約每十年波動(dòng)一次。

b393ec74-e3a7-11ed-ab56-dac502259ad0.png

經(jīng)歷了桌面PC、互聯(lián)網(wǎng)時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代后,“萬(wàn)物智聯(lián)”已成為新的風(fēng)向標(biāo),AIoT正掀起世界信息產(chǎn)業(yè)革命第三次浪潮。而AIoT最明顯的特征是需求碎片化,現(xiàn)有的通用處理器設(shè)計(jì)方法難以有效應(yīng)對(duì)定制化需求。

通用與性能,難以兼得

CPU是最通用的處理器引擎,指令最為基礎(chǔ),具有最好的靈活性。Coprocessor,是基于CPU的擴(kuò)展指令集的運(yùn)行引擎,如ARM的NEON、Intel的AVX、AMX擴(kuò)展指令集和相應(yīng)的協(xié)處理器。

GPU,本質(zhì)上是很多小CPU核的并行,因此NP、Graphcore的IPU等都和GPU處于同一層次的處理器類(lèi)型。

b39d4058-e3a7-11ed-ab56-dac502259ad0.png

FPGA,從架構(gòu)上來(lái)說(shuō),可以用來(lái)實(shí)現(xiàn)定制的ASIC引擎,但因?yàn)橛布删幊痰哪芰Γ梢郧袚Q到其他ASIC引 擎,具有一定的彈性可編程能力。

DSA,是接近于ASIC的設(shè)計(jì),但具有一定程度上的可編程。覆蓋的領(lǐng)域和場(chǎng)景比ASIC要大,但依然存在太多的領(lǐng)域需要特定的DSA去覆蓋。

ASIC,是完全不可編程的定制處理引擎,理論上最復(fù)雜的“指令”以及最高的性能效率。因?yàn)楦采w的場(chǎng)景非常小,因此需要數(shù)量眾多的ASIC處理引擎,才能覆蓋各類(lèi)場(chǎng)景。

后摩爾定律時(shí)代,展望CPU未來(lái)發(fā)展之路

不可逆轉(zhuǎn)的SoC集成:由于集成電路集成度不斷提高,將完整計(jì)算機(jī)所有不同的功能塊一次直接集成于一顆芯片上的 SoC 片上就成為整個(gè)半導(dǎo)體行業(yè)發(fā)展的一個(gè)趨勢(shì),可以顯著降低系統(tǒng)成本和功耗,提高系統(tǒng)可靠性。M1 并不是傳統(tǒng)意義上的 CPU,而是一顆SoC。CPU采用了8核心,包括4個(gè)高性能核心和4個(gè)高能效核心。每個(gè)高性能核心都提供出色的單線(xiàn)程任務(wù)處理性能,并在允許的范圍內(nèi)將能耗降至最低。

b3b25f1a-e3a7-11ed-ab56-dac502259ad0.png

異構(gòu)能力的大幅提升:M1還采用了統(tǒng)一內(nèi)存架構(gòu)(UMA),CPU、GPU、神經(jīng)引擎、緩存、DRAM內(nèi)存全部通過(guò)Fabric高速總線(xiàn)連接在一起,得益于此,SoC中的所有模塊都可以訪(fǎng)問(wèn)相同的數(shù)據(jù),而無(wú)需在多個(gè)內(nèi)存池之間復(fù)制數(shù)據(jù),帶寬更高、延遲更低,大大提高了處理器的性能和電源效率。此外,最新一代的M1 Ultra本質(zhì)上是兩個(gè)M1 MAX的有效組合,通過(guò)UltraFusion架構(gòu),提供高達(dá)128G統(tǒng)一內(nèi)存,相較M1的GPU性能提高8倍。

蘋(píng)果M1處理器完成了一次從多芯片走向一體化的過(guò)程,這也是蘋(píng)果打造完整PC生態(tài)鏈的必經(jīng)之路,讓我們看見(jiàn)了CPU未來(lái)發(fā)展的更多可能性。

后摩爾時(shí)代,異構(gòu)與集成

海外芯片巨頭積極布局異構(gòu)計(jì)算:英特爾現(xiàn)已布局CPU、FPGA、IPU、GPU產(chǎn)品線(xiàn),并接連公布Alder Lake、Falcon Shores等新架構(gòu);英偉達(dá)接連發(fā)布多芯片模組(MCM,Multi-ChipModule)Grace系列產(chǎn)品,預(yù)計(jì)即將投入量產(chǎn);AMD則于近日完成對(duì)塞靈思的收購(gòu),預(yù)計(jì)未來(lái)走向CPU+FPGA的異構(gòu)整合。

b3ba0dbe-e3a7-11ed-ab56-dac502259ad0.png

晶圓廠(chǎng)和封裝廠(chǎng)亦積極投入異構(gòu)集成:異構(gòu)計(jì)算需要有先進(jìn)的集成封裝技術(shù),得益于近十年來(lái)先進(jìn)封裝與芯片堆疊技術(shù)的發(fā)展,例如3D堆疊、SiP等,也使得異構(gòu)集成成為了大幅存在可能。目前,2.5D封裝技術(shù)已發(fā)展較為成熟,例如臺(tái)積電的CoWoS,三星的I-Cube,3D封裝成為各大晶圓廠(chǎng)發(fā)力方向。英特爾已開(kāi)始量產(chǎn)Foveros技術(shù),三星已完成X-Cube的驗(yàn)證,臺(tái)積電亦提出了SoiC的整合方案。

CPU+XPU已廣泛應(yīng)用,但仍有優(yōu)化空間。傳統(tǒng)的異構(gòu)計(jì)算架構(gòu)存在IO路徑較長(zhǎng),輸入輸出資源損耗等固有問(wèn)題,并且仍然無(wú)法完全兼顧極致性能與靈活性。

Chiplet聯(lián)盟組建,探索超異構(gòu)可能性。2022年3月3日,英特爾、AMD、Arm、高通、臺(tái)積電、三星、日月光、Google云、Meta、微軟等十大行業(yè)巨頭聯(lián)合成立了Chiplet標(biāo)準(zhǔn)聯(lián)盟,正式推出了通用Chiplet的高速互聯(lián)標(biāo)準(zhǔn)“Universal Chiplet Interconnect Express”(通用小芯片互連,簡(jiǎn)稱(chēng)“UCIe”)。

b3c692a0-e3a7-11ed-ab56-dac502259ad0.png

在UCIe的框架下,互聯(lián)接口標(biāo)準(zhǔn)得到統(tǒng)一。各類(lèi)不同工藝、不同功能的Chiplet芯片,有望通過(guò)2D、2.5D、3D等各種封裝方式整合在一起,多種形態(tài)的處理引擎共同組成超大規(guī)模的復(fù)雜芯片系統(tǒng),具有高帶寬、低延遲、經(jīng)濟(jì)節(jié)能的優(yōu)點(diǎn)。

邊緣計(jì)算服務(wù)器是解決AIoT時(shí)代“算力荒”的必備產(chǎn)物

云計(jì)算無(wú)法滿(mǎn)足海量、實(shí)時(shí)的處理需求。伴隨人工智能5G物聯(lián)網(wǎng)等技術(shù)的逐漸成熟,算力需求從數(shù)據(jù)中心不斷延伸至邊緣,以產(chǎn)生更快的網(wǎng)絡(luò)服務(wù)響應(yīng),滿(mǎn)足行業(yè)在實(shí)時(shí)業(yè)務(wù)、應(yīng)用智能、安全與隱私保護(hù)等方面的基本需求。

b3d5bbae-e3a7-11ed-ab56-dac502259ad0.png

市場(chǎng)規(guī)模爆發(fā)式增長(zhǎng)。根據(jù)IDC,中國(guó)邊緣計(jì)算服務(wù)器整體市場(chǎng)規(guī)模達(dá)到33.1億美元,較2020年增長(zhǎng)23.9%,預(yù)計(jì)2020-2025年CAGR將達(dá)到22.2%,高于全球的20.2%。

定制服務(wù)器快速增加。當(dāng)前通用服務(wù)器和邊緣定制服務(wù)器占比分別為87.1%和12.9%,隨著邊緣應(yīng)用場(chǎng)景的逐漸豐富,為適應(yīng)復(fù)雜多樣的部署環(huán)境和業(yè)務(wù)需求,對(duì)于具有特定外形尺寸、低能耗、更寬工作溫度以及其他特定設(shè)計(jì)的邊緣定制服務(wù)器的需求將快速增加。IDC預(yù)計(jì)邊緣定制服務(wù)器將保持76.7%的復(fù)合增速,2025年滲透率將超過(guò)40%。

根據(jù)業(yè)務(wù)場(chǎng)景多樣定制,集成化是趨勢(shì)

區(qū)別于數(shù)據(jù)中心服務(wù)器,邊緣服務(wù)器配置并不一味追求最高計(jì)算性能、最大存儲(chǔ)、最大擴(kuò)展卡數(shù)量等參數(shù),而是在有限空間里面盡量提供配置靈活性。當(dāng)前邊緣服務(wù)器多用于工業(yè)制造等領(lǐng)域,需根據(jù)具體環(huán)境(高壓、低溫、極端天氣)等選擇主板、處理器等,下游需求呈現(xiàn)碎片化,未有統(tǒng)一的標(biāo)準(zhǔn)。

伴隨越來(lái)越多的計(jì)算、存儲(chǔ)需求被下放至邊緣端,當(dāng)前趨勢(shì)通常涉及更緊密的加速集成,以滿(mǎn)足包括AI算力在內(nèi)的多種需求。超大規(guī)模云提供商正在開(kāi)始研究分類(lèi)體系結(jié)構(gòu),為了減少熟悉的多租戶(hù)方法不可避免的碎片化,其中計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和內(nèi)存成為一組可組合的結(jié)構(gòu),機(jī)柜式架構(gòu)(RSA)分別部署了CPU、GPU、硬件加速、RAM、存儲(chǔ)和網(wǎng)絡(luò)容量。

云服務(wù)器正在全球范圍內(nèi)取代傳統(tǒng)服務(wù)器

云服務(wù)器的發(fā)展使中國(guó)成為全球服務(wù)器大國(guó)。隨著移動(dòng)終端、云計(jì)算等新一代信息技術(shù)的發(fā)展和應(yīng)用,企業(yè)和政府正陸續(xù)將業(yè)務(wù)從傳統(tǒng)數(shù)據(jù)中心向云數(shù)據(jù)中心遷移。雖然目前中國(guó)云計(jì)算領(lǐng)域市場(chǎng)相比美國(guó)相對(duì)落后,但近年來(lái)我國(guó)的云計(jì)算發(fā)展速度顯著高于全球云計(jì)算市場(chǎng)增長(zhǎng)速度,預(yù)計(jì)未來(lái)仍將保持這一趨勢(shì)。

b3ecab3e-e3a7-11ed-ab56-dac502259ad0.png

面向不同需求,提供多樣性算力。一般小型網(wǎng)站請(qǐng)求處理數(shù)據(jù)較少,多采用1、2核CPU;地方門(mén)戶(hù)、小型行業(yè)網(wǎng)站,需要4核以上的CPU;而電商平臺(tái),影視類(lèi)網(wǎng)站等,則需要16核以上的CPU。此外,云服務(wù)器亦提供靈活的擴(kuò)容、升級(jí)等服務(wù),一般均支持異構(gòu)類(lèi)算力的加載。

CPU+ASIC,云服務(wù)器異構(gòu)趨勢(shì)明顯

在傳統(tǒng)的計(jì)算機(jī)虛擬化架構(gòu)中,業(yè)務(wù)層為虛擬機(jī),管理層為宿主機(jī),業(yè)務(wù)和管理共存于CPU運(yùn)行,導(dǎo)致CPU大概只有七成的資源能夠提供給用戶(hù)。

AWS創(chuàng)造性進(jìn)行架構(gòu)重構(gòu),將業(yè)務(wù)和管理分離到兩個(gè)硬件實(shí)體中,業(yè)務(wù)運(yùn)行在CPU,管理則運(yùn)行在NITRO芯片中,既將虛擬化的損耗挪到定制的Nitro系統(tǒng)上,又提高了安全性。

b3f4e6be-e3a7-11ed-ab56-dac502259ad0.png

Nitro架構(gòu)不僅性能強(qiáng)大,而且特別靈活,可以基于一些常用的Hypervisor(如qemu-kvm,vmware)運(yùn)行虛擬機(jī),甚至可以直接裸跑操作系統(tǒng),可節(jié)省30%CPU資源。

ARM或成重要挑戰(zhàn)者,英偉達(dá)推出首款數(shù)據(jù)中心專(zhuān)屬CPU GRACE

公有云巨頭價(jià)格競(jìng)爭(zhēng)激烈,國(guó)內(nèi)一線(xiàn)城市能耗管控嚴(yán)格,ARM移動(dòng)端的優(yōu)勢(shì)和低能耗特征是超大型數(shù)據(jù)中心解決節(jié)能和成本問(wèn)題的重要方案之一;國(guó)內(nèi)自主可控趨勢(shì)背景下,若能夠搭建強(qiáng)有力的生態(tài)聯(lián)盟,是未來(lái)可能顛覆原有格局的最有力挑戰(zhàn)者。

b408e9ca-e3a7-11ed-ab56-dac502259ad0.png

英偉達(dá)宣布推出首款面向AI基礎(chǔ)設(shè)施和高性能計(jì)算的數(shù)據(jù)中心專(zhuān)屬CPU——NvDIA Grace,由兩個(gè)CPU芯片通過(guò)最新一代NVLink-C2C技術(shù)互聯(lián)組成。

Grace基于最新的ARMv9架構(gòu),單個(gè)socket擁有144個(gè)CPU核心,利用糾錯(cuò)碼(ECC)等機(jī)制提供當(dāng)今領(lǐng)先服務(wù)器芯片兩倍的內(nèi)存帶寬和能效,兼容性亦十分突出,可運(yùn)行NvDIA所有的軟件堆棧和平臺(tái),包括NvDIA RTX、HPC、Omniverse等。

從CPU到CPU+DPU

DPU,即數(shù)據(jù)處理單元(Data Processing Unit),主要作為CPU的卸載引擎,主要處理網(wǎng)絡(luò)數(shù)據(jù)和IO數(shù)據(jù),并提供帶寬壓縮、安全加密、網(wǎng)絡(luò)功能虛擬化等功能,以釋放CPU的算力到上層應(yīng)用。

b411f862-e3a7-11ed-ab56-dac502259ad0.png

2013年,AWS研發(fā)的的Nitro和阿里云研發(fā)的X-Dragon均可看作DPU前身;英偉達(dá)在2020年正式發(fā)布一款命名為“DPU”的產(chǎn)品,將其定義為CPU和GPU之后的第三顆主力芯片,DPU的出現(xiàn)是異構(gòu)計(jì)算的另一個(gè)階段性標(biāo)志。

DPU是CPU和GPU的良好補(bǔ)充,據(jù)英偉達(dá)預(yù)測(cè),每臺(tái)服務(wù)器可能沒(méi)有GPU,但必須有DPU,用于數(shù)據(jù)中心的DPU的量將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別。

從CPU到CPU+XPU

AI模型通過(guò)數(shù)千億的參數(shù)進(jìn)行訓(xùn)練,增強(qiáng)包含數(shù)萬(wàn)億字節(jié)的深度推薦系統(tǒng),其復(fù)雜性和規(guī)模正呈現(xiàn)爆炸式增長(zhǎng)。這些龐大的模型正在挑戰(zhàn)當(dāng)今系統(tǒng)的極限,僅憑CPU的優(yōu)化難以滿(mǎn)足其性能需求。

因此,AI服務(wù)器主要采用異構(gòu)形式,表現(xiàn)形態(tài)多為機(jī)架式。在異構(gòu)方式上,可以為CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多種加速卡。

b41edfb4-e3a7-11ed-ab56-dac502259ad0.png

現(xiàn)在市面上的AI服務(wù)器普遍采用CPU+GPU的形式,因?yàn)镚PU與CPU不同,采用的是并行計(jì)算的模式,擅長(zhǎng)梳理密集型的數(shù)據(jù)運(yùn)算,如圖形渲染、機(jī)器學(xué)習(xí)等。繼續(xù)擴(kuò)展模型以實(shí)現(xiàn)高度準(zhǔn)確性和實(shí)用性,需要能夠快速訪(fǎng)問(wèn)大型內(nèi)存池并使 CPU 和 GPU 緊密耦合

從CPU到CPU+TPU

TPU,即張量處理單元(Tensor Processing Unit),是Google為加速深度學(xué)習(xí)所開(kāi)發(fā)的專(zhuān)用集成電路(DSA),采用專(zhuān)用CISC指令集,自定義改良邏輯、線(xiàn)路、運(yùn)算單元、內(nèi)存系統(tǒng)架構(gòu)、片上互聯(lián)等,并針對(duì)Tensorflow等開(kāi)源框架進(jìn)行優(yōu)化。

b42c4f32-e3a7-11ed-ab56-dac502259ad0.png

2015年起,谷歌發(fā)布TPUv1,應(yīng)用于Alpha Go等特定內(nèi)部項(xiàng)目;2018年,谷歌發(fā)布TPUv3,開(kāi)始向第三方出售,TPU開(kāi)始逐漸走向商用。

2021年,谷歌發(fā)布TPUv4i,其性能相較第三代TPU提升2.7倍;256塊TPU僅用1.82分鐘便完成NLP領(lǐng)域著名的“BERT”模型訓(xùn)練,而同樣條件下,利用Nvdia A100 GPU則需要3.36分鐘。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19740

    瀏覽量

    232924
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11011

    瀏覽量

    215252
  • 摩爾定律
    +關(guān)注

    關(guān)注

    4

    文章

    638

    瀏覽量

    79607

原文標(biāo)題:CPU處理器未來(lái)技術(shù)演進(jìn)方向

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    CPU到GPU:渲染技術(shù)演進(jìn)和趨勢(shì)

    和優(yōu)缺點(diǎn)CPU(CentralProcessingUnit)是計(jì)算機(jī)的中央處理器,它負(fù)責(zé)執(zhí)行各種程序和指令。CPU渲染是指使用CPU來(lái)執(zhí)行渲染流程,包括幾何
    的頭像 發(fā)表于 02-21 11:11 ?518次閱讀
    從<b class='flag-5'>CPU</b>到GPU:渲染<b class='flag-5'>技術(shù)</b>的<b class='flag-5'>演進(jìn)</b>和趨勢(shì)

    處理器和芯片的區(qū)別是什么 處理器是指cpu

    一、處理器和芯片的區(qū)別 處理器和芯片是兩個(gè)在電子領(lǐng)域中經(jīng)常出現(xiàn)的術(shù)語(yǔ),它們雖然有一定的聯(lián)系,但在定義、功能、結(jié)構(gòu)及應(yīng)用場(chǎng)景等方面存在顯著的差異。 定義與構(gòu)成 處理器(Processor) :
    的頭像 發(fā)表于 02-01 14:59 ?2731次閱讀

    Arm帶你了解2025年及未來(lái)在不同技術(shù)市場(chǎng)的關(guān)鍵技術(shù)方向

    Arm 對(duì)未來(lái)技術(shù)的發(fā)展方向及可能出現(xiàn)的趨勢(shì)有著廣泛而深刻的洞察。在上周的文章中,我們預(yù)測(cè)了 AI 和芯片設(shè)計(jì)方面的未來(lái)趨勢(shì),本期將帶你深入了解 2025 年及未來(lái)在不同
    的頭像 發(fā)表于 01-24 16:14 ?1168次閱讀

    Arm 技術(shù)預(yù)測(cè):2025 年及未來(lái)技術(shù)趨勢(shì)

    專(zhuān)業(yè)化、互聯(lián)的全球半導(dǎo)體供應(yīng)鏈有著充分的了解,覆蓋數(shù)據(jù)中心、物聯(lián)網(wǎng)、汽車(chē)、智能終端等所有市場(chǎng)。因而,Arm 對(duì)未來(lái)技術(shù)的發(fā)展方向未來(lái)幾年可能出現(xiàn)的主要趨勢(shì)有著廣泛而深刻的洞察。 基于此,Arm 對(duì) 2025 年及
    發(fā)表于 01-14 16:43 ?238次閱讀
    Arm <b class='flag-5'>技術(shù)</b>預(yù)測(cè):2025 年及<b class='flag-5'>未來(lái)</b>的<b class='flag-5'>技術(shù)</b>趨勢(shì)

    華為發(fā)布數(shù)據(jù)通信未來(lái)技術(shù)趨勢(shì)報(bào)告

    中國(guó)工程院院士蒞臨大會(huì)作主旨報(bào)告。會(huì)上,華為發(fā)布《數(shù)據(jù)通信未來(lái)技術(shù)趨勢(shì)》報(bào)告(以下簡(jiǎn)稱(chēng)“報(bào)告”),引領(lǐng)未來(lái)網(wǎng)絡(luò)發(fā)展方向
    的頭像 發(fā)表于 11-18 11:28 ?818次閱讀

    NPU與傳統(tǒng)處理器的區(qū)別是什么

    和GPU相比,NPU在處理深度學(xué)習(xí)任務(wù)時(shí)展現(xiàn)出了顯著的優(yōu)勢(shì)。 1. 設(shè)計(jì)目的 傳統(tǒng)處理器CPU(中央處理單元): CPU是通用
    的頭像 發(fā)表于 11-15 09:29 ?937次閱讀

    NPU的未來(lái)技術(shù)發(fā)展方向

    NPU(神經(jīng)處理單元)作為專(zhuān)用的硬件加速,在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域發(fā)揮著越來(lái)越重要的作用。 一、定制化設(shè)計(jì)和靈活可編程性 定制化設(shè)計(jì) : 隨著人工智能應(yīng)用的不斷擴(kuò)展,對(duì)NPU的定制化需求也日益增加
    的頭像 發(fā)表于 11-15 09:27 ?1889次閱讀

    天馬與武進(jìn)南大未來(lái)技術(shù)創(chuàng)新研究院達(dá)成戰(zhàn)略合作

    近日,天馬新型顯示技術(shù)研究院(廈門(mén))有限公司、上海天馬微電子有限公司與武進(jìn)南大未來(lái)技術(shù)創(chuàng)新研究院就Micro LED業(yè)務(wù)、非顯傳感業(yè)務(wù)達(dá)成戰(zhàn)略合作。
    的頭像 發(fā)表于 11-14 11:53 ?635次閱讀

    FWA產(chǎn)業(yè)的發(fā)展現(xiàn)狀和演進(jìn)方向

    近日,在2024 MBBF展會(huì)期間,全球FWA演進(jìn)圓桌成功舉辦,吸引了超過(guò)80位來(lái)自全球的運(yùn)營(yíng)商、行業(yè)分析師及生態(tài)合作伙伴代表。會(huì)上,與會(huì)者分享了最新的FWA行業(yè)洞察與實(shí)踐,共同探討了FWA的當(dāng)前發(fā)展和未來(lái)演進(jìn)
    的頭像 發(fā)表于 11-06 17:21 ?825次閱讀

    處理機(jī)和微處理器的區(qū)別

    Processing Unit)或微處理器(Microprocessor),是計(jì)算機(jī)系統(tǒng)的核心部件。它是計(jì)算機(jī)內(nèi)部對(duì)數(shù)據(jù)進(jìn)行處理并對(duì)處理過(guò)程進(jìn)行控制的部件。伴隨著大規(guī)模集成電路技術(shù)
    的頭像 發(fā)表于 10-14 17:23 ?1024次閱讀

    處理器CPU的關(guān)系

    處理器(Microprocessor)與CPU(Central Processing Unit,中央處理器)之間的關(guān)系緊密且復(fù)雜,它們既相互關(guān)聯(lián)又有所區(qū)別。
    的頭像 發(fā)表于 10-05 14:57 ?2343次閱讀

    ARM處理器CPU有什么區(qū)別

    ARM處理器CPU(中央處理器)之間的關(guān)系及區(qū)別,可以從多個(gè)維度進(jìn)行深入探討。首先,需要明確的是,ARM處理器并非一種獨(dú)立的CPU類(lèi)型,而
    的頭像 發(fā)表于 09-10 11:24 ?2827次閱讀

    簡(jiǎn)述微處理器的發(fā)展歷史

    處理器的發(fā)展歷史是一部充滿(mǎn)創(chuàng)新與突破的技術(shù)演進(jìn)史,它見(jiàn)證了計(jì)算機(jī)技術(shù)的飛速發(fā)展和人類(lèi)社會(huì)的巨大變革。以下是對(duì)微處理器發(fā)展歷史的詳細(xì)回顧,內(nèi)
    的頭像 發(fā)表于 08-22 14:22 ?5252次閱讀

    處理器的定義和種類(lèi)

    處理器,作為計(jì)算機(jī)系統(tǒng)的核心部件,承載著執(zhí)行指令、處理數(shù)據(jù)的重要任務(wù)。隨著信息技術(shù)的飛速發(fā)展,處理器的種類(lèi)和性能也在不斷提升。本文將對(duì)處理器
    的頭像 發(fā)表于 05-12 18:12 ?3773次閱讀

    國(guó)產(chǎn)飛騰D2000處理器的Micro ATX工控主板GM9-2002#國(guó)產(chǎn)CPU

    處理器主板
    國(guó)產(chǎn)計(jì)算機(jī)小秦
    發(fā)布于 :2024年05月10日 11:41:37
    主站蜘蛛池模板: 欧美成人免费观看bbb | 国产婷婷 | 全国最大色成免费网站 | 色婷婷色99国产综合精品 | 国模娜娜扒开嫩木耳 | 日日噜噜夜夜狠狠久久aⅴ 日日噜噜夜夜狠狠久久丁香 | 广东毛片 | 免费亚洲视频在线观看 | 日本中文在线三级在线播放 | 人人操天天射 | 99久久婷婷国产综合精品电影 | 免费亚洲视频在线观看 | 一级特黄aaa大片29 | 亚洲欧美日韩在线观看你懂的 | 午夜精品国产 | 午夜国产精品理论片久久影院 | 男人的午夜影院 | 天天视频入口 | 美女性视频网站 | 久色网| aa在线观看 | 天堂va欧美ⅴa亚洲va一国产 | 日本黄色短片 | 国产亚洲卡二卡3卡4卡乱码 | 国产成人影院在线观看 | 女人张开腿给男人桶爽免费 | 色偷偷尼玛图亚洲综合 | 不卡一区二区在线观看 | 一级片在线观看免费 | 亚洲影视久久 | 日韩一级片免费在线观看 | 色婷婷在线视频 | 91热成人精品国产免费 | 永久免费精品影视网站 | 久久看片网 | 婷婷色六月| 天天综合网天天综合色 | avtom影院永久地址人人影院 | 精品一区二区影院在线 | 精品福利| 偷偷狠狠的日日日日 |