91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心CPU芯粒化及互聯(lián)方案分析-PART2

奇異摩爾 ? 來源: 奇異摩爾 ? 2023-12-20 18:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著生成式AI注入數(shù)據(jù)中心的步伐加快,CPU 在數(shù)據(jù)中心的部署變得愈發(fā)重要,為應(yīng)對數(shù)據(jù)中心CPU性能提升挑戰(zhàn),Chiplet和互聯(lián)技術(shù)的雙劍合璧,經(jīng)芯片巨頭在自身產(chǎn)品體系中的多次實(shí)踐,顯現(xiàn)出蓬勃的生機(jī)和其普適性的一面。

2023年1月,英特爾第四代至強(qiáng)可擴(kuò)展處理器Sapphire Rapids(SPR)首次亮相。SPR是一款專門針對AI工作負(fù)載優(yōu)化的CPU,具有典型的Multi-Die架構(gòu),其亮點(diǎn)包括更高的核心數(shù)量、改進(jìn)的緩存層次結(jié)構(gòu)以及增強(qiáng)的互聯(lián)技術(shù)。對英特爾來說,它也是劍指AMD EPYC,意在奪回HPC市場的野心之作。

更多的核心,更強(qiáng)的性能

2dca0610-9f21-11ee-8b88-92fbcf53809c.jpg

英特爾稱,ERP整體性能和每瓦性能指標(biāo)均處于領(lǐng)先地位。與前一代處理器相比,基礎(chǔ)算力提升53%,人工智能性能提升10倍,5G vRAN性能提升2倍,網(wǎng)絡(luò)&存儲性能提升2倍,數(shù)據(jù)分析性能提升3倍,科學(xué)計(jì)算性能提升3.7倍。如此卓越的性能提升主要來自核心數(shù)量的大幅增長,以及高效的互聯(lián)方案。

2dde4e0e-9f21-11ee-8b88-92fbcf53809c.jpg

1、50%核心數(shù)量增長+單核性能增強(qiáng)

SPR是英特爾首個Chiplet設(shè)計(jì)的Xeon處理器,由四個相同的die(芯粒)組成,die間通過英特爾的EMIB技術(shù)連接。其中,每個Die包含15個CPU內(nèi)核,并分別配有自己的內(nèi)存和IO控制器等各功能單元。核心部分為英特爾7工藝的Golden Cove P核(大核),設(shè)計(jì)支持60核,實(shí)際啟用56核,總核心數(shù)較上一代IceLake增長了50%。

2df4ea10-9f21-11ee-8b88-92fbcf53809c.jpg

SPR延續(xù)了英特爾的服務(wù)器處理器策略:優(yōu)先考慮擴(kuò)展核心數(shù)量,同時提供強(qiáng)大的計(jì)算能力,以大幅提高CPU在處理大量數(shù)據(jù),如進(jìn)行科學(xué)計(jì)算、機(jī)器學(xué)習(xí)、圖形處理時的性能。

最終,SPR實(shí)現(xiàn)了105MB Total LLC,307GB/s Memory Bandwidth,在SPECrate@2017_int_base基準(zhǔn)測試中,得分為495。

如前文所述,除了CPU核數(shù)提升之外,SPR在CPU單核性能上也做了優(yōu)化,如提高了CPU的各級緩存的大小,還為每個核心引入了兩個512位的FMA單元,同時支持一級對AMX指令集,旨在進(jìn)一步提升性能。

2:優(yōu)化緩存層次結(jié)構(gòu)

除了核心性能的優(yōu)化,Golden Cove的一項(xiàng)重大改進(jìn)是緩存層次結(jié)構(gòu),這也是SPR與AMD EPYC系列的顯著區(qū)別之一:每個Golden Cove核心除了包2MB L2緩存外,還搭載了1.875MB的LLC切片,每個Die總28.125M LLC為56個核心所共享(SPR總緩存達(dá)112.5 MB)。相較客戶端Golden Cove,SPR在處理大量數(shù)據(jù)的應(yīng)用程序時,能提供更好的性能表現(xiàn)。

對于需要頻繁訪問LLC的數(shù)據(jù)密集型工作負(fù)載,LLC集成在核心中可以大幅度減少LLC控制器和緩存間的連接,降低功耗。這種設(shè)計(jì)也為跨線程訪問提供了極大的靈活性。在需要時,一個核心可以訪問全部的LLC,一個LLC也可以服務(wù)于多個核心。

不過,這種跨線程訪問的缺點(diǎn)也很明顯,在某些情境,如需要跨越兩個Die以上的遠(yuǎn)端存儲訪問時,可能會增加LLC控制器的工作負(fù)載,造成較高的延遲和Workload balance的不均衡。

3、優(yōu)化設(shè)計(jì)成本

由于集成了多達(dá)60個核心(實(shí)際應(yīng)用了56個)使得英特爾制造一個SoC芯片變得不切實(shí)際,從而轉(zhuǎn)向Chiplet和2.5D先進(jìn)封裝,并通過Multi-Die架構(gòu)簡化設(shè)計(jì)和制造。

基于Multi-Die架構(gòu),英特爾只需要設(shè)計(jì)兩組鏡像的掩模,再旋轉(zhuǎn)這兩個模具即可。不過,這種架構(gòu)也為Die間的互聯(lián)帶來了挑戰(zhàn)。

互聯(lián):由繁至簡

為了連接數(shù)量繁多的核心和緩存,英特爾在EMIB鏈路上運(yùn)行了一個巨大的Mesh結(jié)構(gòu),將所有核心連接到它們各自的LLC切片,以及SPR上的其他組件,如內(nèi)存控制器、各種加速器和其他I/O設(shè)備中,形成一個多Die的系統(tǒng)結(jié)構(gòu)。

網(wǎng)絡(luò)加速單元

作為升級的重點(diǎn),SPR在每個Die中嵌入了一個DSA網(wǎng)絡(luò)加速單元,可以在特定網(wǎng)絡(luò)工作負(fù)載中實(shí)現(xiàn)數(shù)倍的效率提升。該加速單元具有400Gb/s互聯(lián)帶寬,160Gb/s壓縮帶寬,每秒能夠做出400M的負(fù)載平衡決策。

DSA全稱為Data Streaming Accelerator,主要針對內(nèi)存的搬移和傳輸?shù)牟僮鬟M(jìn)行加速,能提高存儲、網(wǎng)絡(luò)和數(shù)據(jù)密集型工作負(fù)載的性能,類似于GPU等外部加速器。

在數(shù)據(jù)中心中,DSA可以更有效地處理如進(jìn)行如壓縮/解壓縮、加/解密、內(nèi)存搬移等特定工作負(fù)載,帶來大幅的性能提升。某些場景下,只需一個核心或部分核心就能夠處理復(fù)雜的工作負(fù)載,提高芯片的能效比。這也是英特爾為代表的頭部企業(yè)開始熱衷在處理器中內(nèi)置加速器的因素之一。

基于 RoCE V2 協(xié)議自研 RDMA 技術(shù),奇異摩爾自研Domain Specific Accelerator 系列專用領(lǐng)域加速器系列,具備高速以太網(wǎng)互聯(lián)能力,提供可編程的專用數(shù)據(jù)處理加速算法,同時集成了多種通用數(shù)據(jù)處理硬件加速器,高帶寬,高吞吐,硬件靈活可配置、軟件可編程,可實(shí)現(xiàn)芯粒/芯片間的高速傳輸。

2e098ff6-9f21-11ee-8b88-92fbcf53809c.jpg

D2D:DDR5 & EMIB

互連系統(tǒng)方面,每個Die配有2個128位的DDR5內(nèi)存接口,DDD5采用優(yōu)化版的EMIB工藝,單個EMIB的D2D帶寬高達(dá)500GB/s,功耗僅為0.5pj/bit,延遲(PHY Latency end-to-end TX+RX) 2.4ns。從die間功耗和延遲的方面來看,SPR已接近一個SoC。

為了進(jìn)一步增強(qiáng)內(nèi)存帶寬,EMIB技術(shù)首次支持HBM擴(kuò)展,并特別為SPR設(shè)計(jì)了一種HBM變體,通過EMIB連接四個HBM,實(shí)現(xiàn)內(nèi)存性能方面的顯著提升。

2e1d764c-9f21-11ee-8b88-92fbcf53809c.jpg

Chip2Chip:UPI & PCIe

在SPR中,每個Die還搭載了32個PCIe 5(CXL 1.1),以及24個UPI。配置為每個插槽80xPCIeGen5通道;以及24個UPI,支持最多8個芯片的互連,也意味著Sapphire Rapids芯片最多可以組建8路計(jì)算平臺。

2e2ff2e0-9f21-11ee-8b88-92fbcf53809c.jpg

挑戰(zhàn)與解決方案

因可簡化設(shè)計(jì),Multi-Die架構(gòu)在2顆芯粒的互聯(lián)架構(gòu)中顯現(xiàn)出顯著的性價比優(yōu)勢,但一旦芯粒超過2個,就會面臨互聯(lián)挑戰(zhàn)。

2e48aa38-9f21-11ee-8b88-92fbcf53809c.jpg

2023年5月,英特爾公布了SPR的下一代處理器,Emerald Rapids(ERP)。總體來說,英特爾基于SPR 相同的平臺和較新的Raptor Cove核心,通過優(yōu)化物理設(shè)計(jì),實(shí)現(xiàn)了“巨大的PPW”改進(jìn)。但令人矚目的改變是,ERP的芯粒數(shù)量減少到兩個,這一架構(gòu)上的回退也從側(cè)面反映出Mutil die模式下,多Die互聯(lián)難度之高。

此外,因芯粒數(shù)量減少導(dǎo)致芯片尺寸過大,加之先進(jìn)工藝的使用,也帶來了成本高漲的問題;再次,在Mutil die架構(gòu)中,為了維持高帶寬和低功耗,EMIB的使用也會相應(yīng)的增加成本,ERP的生產(chǎn)成本實(shí)際上比 SPR 更高。假設(shè)成品率和芯片可回收性完美,相比 SPR-MCC,EMR 只能在每個晶圓上生產(chǎn) 34 個 CPU,低于每個 SPR 晶圓 37 個 CPU。如果考慮到完美良率之外的任何因素,EMR 的成本就會更高。

相比之下,AMD 則選擇了一種更為簡單的方案,通過獨(dú)立IO Die和CCD中的LLC集群,避免了復(fù)雜的多核互連問題。

下一站:Central IO Die

2e697e0c-9f21-11ee-8b88-92fbcf53809c.jpg

Hot Chips 2023 上,英特爾將旗下數(shù)據(jù)中心芯片分為兩類,Granite 和 Sierra ,二者都基于chiplet設(shè)計(jì),并首次使用了獨(dú)立的 I/O 芯粒,通過 EMIB技術(shù)與計(jì)算單元封裝在一起。英特爾服務(wù)器處理器正式轉(zhuǎn)向Central IO Die架構(gòu)。

隨著核心數(shù)量的增長和多die模式的流行,過去幾年中,各大計(jì)算芯片企業(yè)逐漸從Multi-Die模式轉(zhuǎn)向Central IO Die模式。以 IO Die 為代表的新興互聯(lián)技術(shù)正在打破芯片內(nèi)固有的互聯(lián)方式。片內(nèi)互聯(lián)技術(shù)向“更高的集成度、更短的距離、更高的效率”轉(zhuǎn)變。

在國內(nèi)賽道,奇異摩爾作為片內(nèi)互聯(lián)領(lǐng)域的代表企業(yè),核心產(chǎn)品涵蓋2.5D interposer、2.5D IO Die、3D Base Die、NDSA、全系列Die2Die IP及相關(guān)Chiplet系統(tǒng)解決方案。

Central IO Die通過將IO功能從算芯片中分離出來,整合多種互聯(lián)接口,讓計(jì)算單元通過IO Die進(jìn)行統(tǒng)一互聯(lián),可以極大程度的簡化互聯(lián)設(shè)計(jì),增加帶寬、并降低多Die間的互聯(lián)延遲。AMD Zen系列、Ampere 和 AWS 的 Graviton3 都在采用一個或多個不同的 IO芯粒。數(shù)據(jù)中心處理器Central IO Die 的模式正在到來。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11077

    瀏覽量

    217030
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5226

    瀏覽量

    73507
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    459

    瀏覽量

    12994
  • 奇異摩爾
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    3731
  • 芯粒
    +關(guān)注

    關(guān)注

    0

    文章

    65

    瀏覽量

    275

原文標(biāo)題:數(shù)據(jù)中心CPU芯粒化及互聯(lián)方案分析-PART2

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    的三大主流布線解決方案——高速線纜(DAC)、有源光纜(AOC)和光纖跳線,并分析它們?nèi)绾翁岣咝阅懿⒅С脂F(xiàn)代數(shù)據(jù)中心不斷增長的需求。 800G數(shù)據(jù)中心高速線纜和有源光纜解決
    發(fā)表于 03-24 14:20

    數(shù)據(jù)中心高密度MPO/MTP布線系統(tǒng)解決方案

    IEC 61754-7,TIA 604-5,Telcordia GR-1435-CORE,當(dāng)然我們可以根據(jù)客戶需求提供定制產(chǎn)品,例如光纖的數(shù)、類型、長度等。典型應(yīng)用場景--數(shù)據(jù)中心儲存區(qū)域網(wǎng)1
    發(fā)表于 01-18 15:31

    銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動、可視運(yùn)維

    實(shí)現(xiàn)Overlay網(wǎng)絡(luò)業(yè)務(wù)配置自動,運(yùn)營方只需要把控NO及其北向的業(yè)務(wù)相關(guān)系統(tǒng)就能實(shí)現(xiàn)網(wǎng)絡(luò)相關(guān)配置的自動進(jìn)程。當(dāng)互聯(lián)網(wǎng)行業(yè)進(jìn)入到云計(jì)算時代,其數(shù)據(jù)中心網(wǎng)絡(luò)需要快速響應(yīng)上層應(yīng)用的實(shí)時
    發(fā)表于 01-25 09:42

    數(shù)據(jù)中心布線方案數(shù)據(jù)中心怎樣選擇光纖布線?

    MTP光纖跳線可支持100米的數(shù)據(jù)傳輸。 上述就是易飛揚(yáng)通信為大家介紹的在數(shù)據(jù)中心選擇光纖布線解決方案。 易飛揚(yáng)提供有源光纜的長度定制服務(wù),可以滿足您多樣的需求。想了解更多詳細(xì)信息
    發(fā)表于 04-20 14:40

    數(shù)據(jù)中心互聯(lián)解決方案

      數(shù)據(jù)中心互聯(lián)解決方案  隨著數(shù)據(jù)中心在全球的大規(guī)模部署,數(shù)據(jù)中心對于100Gbps模塊的需求時代已經(jīng)到了,而對于10G/40Gbps模
    發(fā)表于 07-03 10:36

    數(shù)據(jù)中心是什么

    真正的價值作用,促使社會的快速變革。數(shù)據(jù)中心能多耗電:作為互聯(lián)網(wǎng)的物理基礎(chǔ),數(shù)據(jù)中心一直是個相對神秘的話題.
    發(fā)表于 07-12 07:10

    模塊數(shù)據(jù)中心的主要組成部分

    數(shù)據(jù)中心的組成如圖所示。二、模塊數(shù)據(jù)中心組成示意圖(1)機(jī)柜模塊數(shù)據(jù)中心最大可配置28臺機(jī)柜,機(jī)柜包括服務(wù)器機(jī)柜、網(wǎng)絡(luò)機(jī)柜和綜合布線柜。
    發(fā)表于 09-08 07:17

    互聯(lián)網(wǎng)數(shù)據(jù)中心安全管理方案

    本文介紹互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)主要特征和多層設(shè)計(jì)原則,分析互聯(lián)網(wǎng)數(shù)據(jù)中心面臨的主要安全威脅,對其安全規(guī)劃和部署實(shí)施提出
    發(fā)表于 08-12 09:56 ?1986次閱讀
    <b class='flag-5'>互聯(lián)</b>網(wǎng)<b class='flag-5'>數(shù)據(jù)中心</b>安全管理<b class='flag-5'>方案</b>

    開關(guān)電源的原理與設(shè)計(jì).part2

    開關(guān)電源的原理與設(shè)計(jì).part2!需要下載其他4個分卷才能解壓!
    發(fā)表于 11-30 11:57 ?0次下載

    全美經(jīng)典電路.part2

    全美經(jīng)典電路.part2有需要的可以下來看看
    發(fā)表于 02-19 16:51 ?0次下載

    FPGA_Verilog學(xué)習(xí)資料part2

    FPGA_Verilog學(xué)習(xí)資料 part2
    發(fā)表于 03-14 14:27 ?36次下載

    Arduino從基礎(chǔ)到實(shí)踐part2

    Arduino從基礎(chǔ)到實(shí)踐part2,資源過大,分為4部分上傳,感興趣的可以下來看看。
    發(fā)表于 12-13 15:05 ?16次下載

    電路原理(第7版).part2

    電路原理(第7版).part2
    發(fā)表于 03-01 21:31 ?0次下載

    STM32 USB培訓(xùn)_Part2 USB IP及其庫的使用

    STM32 USB培訓(xùn)_Part2 USB IP及其庫的使用
    發(fā)表于 09-21 09:52 ?5次下載
    STM32 USB培訓(xùn)_<b class='flag-5'>Part2</b> USB IP及其庫的使用

    電子設(shè)計(jì)常用表格Part2

    ? ? 電子設(shè)計(jì)常用表格,Part2,上傳大小受限,分4份
    發(fā)表于 04-25 09:45 ?2次下載
    主站蜘蛛池模板: 啪啪黄色片 | 三级天堂 | 亚洲资源最新版在线观看 | 在线观看国产日本 | 97色在线 | 9久久99久久久精品齐齐综合色圆 | 种子天堂bt| 国产日韩精品一区二区在线观看 | 黄色毛片播放 | 手机看片1024在线 | 2o18国产大陆天天弄 | 久久国内精品视频 | 色老头一区二区三区在线观看 | 免费午夜视频在线观看 | 久久久美女视频 | 天天干天天摸天天操 | 色婷婷综合久久久 | 极品美女写真菠萝蜜视频 | 国产成人a一区二区 | 扒开双腿猛进湿润18p | 免费看一级大片 | 神马午夜影视 | 男人搡女人视频免费看 | 我不卡老子影院午夜伦我不卡四虎 | 欧美一区二区三区大片 | 男女交性视频播放 视频 视频 | 在线色站 | 在线免费国产 | 精品久久香蕉国产线看观看亚洲 | 163黄页网又粗又长又舒服 | 永久福利盒子日韩日韩免费看 | 黄视频在线免费看 | 黄视频网站免费 | 成人做视频免费 | 最近2018中文字幕免费看在线 | 欧美成人天天综合天天在线 | 老师叫我揉她内裤越快越好 | 国产精品免费久久久免费 | 日本xxxx色视频在线观看免费 | 黄色国产精品 | 全免费午夜一级毛片真人 |