異構計算已經成了半導體業界不得不思考的一個話題,傳統通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算單元層出不窮,無論是神經網絡處理器還是圖像處理器。
異構計算的存在可以說創造了另一個維度,這個維度上我們又有了堆性能的空間,小至手機SoC、汽車芯片,大到服務器芯片和超算處理器,異構帶來了更大的算力。但與此同時,異構計算也帶來了一些潛在的問題。
異構計算的崛起
異構計算其實早在計算機時代的早期就開始零星出現了,比如英特爾在80年代推出的浮點協處理器(FPU)i487,Inmos./ST在1996年推出的多媒體加速器Chameleon等等。轉眼進入了新世紀,異構出現的頻率也越來越高,2010年蘋果推出了首個自研的處理器A4,將CPU、GPU和其它加速器集成至一起。在超算領域,加速器和協處理器也數量也在逐步增加。
![](https://file.elecfans.com/web2/M00/26/75/poYBAGG76cKAUjzJAANUiN0HUhg208.png)
全球超算系統加速器/協處理器的應用趨勢 / TOP500
2020年以后,各國的超級計算機計劃都定位在了Exascale的百億億級別,要想實現目標,要么靠堆核心規模來堆性能,要么就是選擇異構計算。如今前十的超算系統中,有一半以上都采用了CPU+GPU的異構設計。
明眼人都能看出,這種CPU+GPU的異構設計也開始變得愈發緊密,比如英偉達今年宣布的Arm CPU Grace,該處理器靠著英偉達專利互聯技術NVLink的加持,成功將CPU與GPU之間的互聯速度做到了夸張的900GB/s,是傳統PCIe的10倍以上,CPU更是靠LPDDR5X實現了500GB/s的內存帶寬。
非傳統的架構更是層出不窮,Graphcore的IPU、谷歌的TPU、矢量引擎和FPGA等等,相信XPU的命名形式馬上就要用完26個字母了。促使大家選擇異構的動力究竟是什么?答案很簡單,異構給到了一個更高效的方案,能夠實現的算力更高。既然你CPU在計算上落后了,我GPU自然要上位,更何況我還有這么多成熟的I/O和互聯技術為我撐腰。
異構計算真就完美無缺?
異構計算就真的如此完美嗎?并非如此。異構計算的存在其實也引出了不少隱患,比如極度差異化的編程模型,從過去的單向編程轉為了多向編程。因為異構系統中存在多個計算設備,又有著不同的系統架構、指令集和編程模型,因此異構系統的編程與傳統的CPU編程相比有很大的差距。通常來說,異構混合計算系統需要多套不同的代碼,這增大了應用開發的難度,紙面參數是好看了,卻苦了軟件開發者。
![](https://file.elecfans.com/web2/M00/26/75/poYBAGG76cyAbCW0AAGetPbRSbY701.jpg)
IPU / Graphcore
其次,GPU、FPGA和AI處理器廠商都推出了截然不同的加速器方案,這些方案不僅僅采用了自己專用的處理器架構,還有自己的執行指令和編譯器。在這樣不統一的架構下,將并行程序移植到異構處理器上需要的可不只是重新編譯,還有代碼重寫。也正因如此,HPC的代碼生態雖然不弱,但近半數以上可能永遠都不會被移植到其他加速器上,甚至這一部分工作量還分攤到了加速器廠商的軟件開發工作量上。
所以,必須得使用優秀的軟件棧,這樣才能讓開發者充分利用異構處理器的計算資源,而不用在編程時考慮復雜的硬件細節。現在已經有了不少跨平臺的編程標準,比如C++/Fortran、OpenMP、SYCL和Kokkos等。
最后是復雜的數據存取過程,異構帶來的不僅是不同層級的計算架構,還有不同層級的存儲架構,比如主存儲、主緩存、設備主存、設備緩存和寄存器等等。數據要在多種存儲類型之間移動,程序執行要在同時對多種存儲進行存取,這些存儲方式的帶寬和延遲也不盡相同。
異構計算的未來
在近期舉辦的CIUK 2021大會上,HPC研究組的Simon McIntosh-Smith教授發表了他自己對異構計算未來的看法。他認為異構計算的趨勢還將繼續發展下去,差異化不會消失,但也不會出現極度差異化的情況。
其次CPU與GPU的關系將更加緊密,比如緩存一致和封裝集成等,其他加速器在特定場景下聲稱的性能數據都很優秀,但要說通用計算性能,GPU還是要略勝一籌。而且依目前的趨勢來看,CPU也在慢慢汲取GPU上的優點,比如HBM、寬矢量處理器的核心、核心內部的加速器等等。編程的困境固然已經有了改善的跡象,但還有一段長路要走。
異構計算的存在可以說創造了另一個維度,這個維度上我們又有了堆性能的空間,小至手機SoC、汽車芯片,大到服務器芯片和超算處理器,異構帶來了更大的算力。但與此同時,異構計算也帶來了一些潛在的問題。
異構計算的崛起
異構計算其實早在計算機時代的早期就開始零星出現了,比如英特爾在80年代推出的浮點協處理器(FPU)i487,Inmos./ST在1996年推出的多媒體加速器Chameleon等等。轉眼進入了新世紀,異構出現的頻率也越來越高,2010年蘋果推出了首個自研的處理器A4,將CPU、GPU和其它加速器集成至一起。在超算領域,加速器和協處理器也數量也在逐步增加。
![](https://file.elecfans.com/web2/M00/26/75/poYBAGG76cKAUjzJAANUiN0HUhg208.png)
全球超算系統加速器/協處理器的應用趨勢 / TOP500
2020年以后,各國的超級計算機計劃都定位在了Exascale的百億億級別,要想實現目標,要么靠堆核心規模來堆性能,要么就是選擇異構計算。如今前十的超算系統中,有一半以上都采用了CPU+GPU的異構設計。
明眼人都能看出,這種CPU+GPU的異構設計也開始變得愈發緊密,比如英偉達今年宣布的Arm CPU Grace,該處理器靠著英偉達專利互聯技術NVLink的加持,成功將CPU與GPU之間的互聯速度做到了夸張的900GB/s,是傳統PCIe的10倍以上,CPU更是靠LPDDR5X實現了500GB/s的內存帶寬。
非傳統的架構更是層出不窮,Graphcore的IPU、谷歌的TPU、矢量引擎和FPGA等等,相信XPU的命名形式馬上就要用完26個字母了。促使大家選擇異構的動力究竟是什么?答案很簡單,異構給到了一個更高效的方案,能夠實現的算力更高。既然你CPU在計算上落后了,我GPU自然要上位,更何況我還有這么多成熟的I/O和互聯技術為我撐腰。
異構計算真就完美無缺?
異構計算就真的如此完美嗎?并非如此。異構計算的存在其實也引出了不少隱患,比如極度差異化的編程模型,從過去的單向編程轉為了多向編程。因為異構系統中存在多個計算設備,又有著不同的系統架構、指令集和編程模型,因此異構系統的編程與傳統的CPU編程相比有很大的差距。通常來說,異構混合計算系統需要多套不同的代碼,這增大了應用開發的難度,紙面參數是好看了,卻苦了軟件開發者。
![](https://file.elecfans.com/web2/M00/26/75/poYBAGG76cyAbCW0AAGetPbRSbY701.jpg)
IPU / Graphcore
其次,GPU、FPGA和AI處理器廠商都推出了截然不同的加速器方案,這些方案不僅僅采用了自己專用的處理器架構,還有自己的執行指令和編譯器。在這樣不統一的架構下,將并行程序移植到異構處理器上需要的可不只是重新編譯,還有代碼重寫。也正因如此,HPC的代碼生態雖然不弱,但近半數以上可能永遠都不會被移植到其他加速器上,甚至這一部分工作量還分攤到了加速器廠商的軟件開發工作量上。
所以,必須得使用優秀的軟件棧,這樣才能讓開發者充分利用異構處理器的計算資源,而不用在編程時考慮復雜的硬件細節。現在已經有了不少跨平臺的編程標準,比如C++/Fortran、OpenMP、SYCL和Kokkos等。
最后是復雜的數據存取過程,異構帶來的不僅是不同層級的計算架構,還有不同層級的存儲架構,比如主存儲、主緩存、設備主存、設備緩存和寄存器等等。數據要在多種存儲類型之間移動,程序執行要在同時對多種存儲進行存取,這些存儲方式的帶寬和延遲也不盡相同。
異構計算的未來
在近期舉辦的CIUK 2021大會上,HPC研究組的Simon McIntosh-Smith教授發表了他自己對異構計算未來的看法。他認為異構計算的趨勢還將繼續發展下去,差異化不會消失,但也不會出現極度差異化的情況。
其次CPU與GPU的關系將更加緊密,比如緩存一致和封裝集成等,其他加速器在特定場景下聲稱的性能數據都很優秀,但要說通用計算性能,GPU還是要略勝一籌。而且依目前的趨勢來看,CPU也在慢慢汲取GPU上的優點,比如HBM、寬矢量處理器的核心、核心內部的加速器等等。編程的困境固然已經有了改善的跡象,但還有一段長路要走。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
異構
+關注
關注
0文章
40瀏覽量
13165 -
異構計算
+關注
關注
2文章
104瀏覽量
16345
發布評論請先 登錄
相關推薦
RK3399處理器:高性能多核異構計算平臺
RK3399是一款高性能的多核異構計算平臺,集成了強大的CPU、GPU以及豐富的多媒體和接口功能。其獨特的雙Cortex-A72+四Cortex-A53大小核CPU結構,使得RK3399在處理復雜
異構計算的概念、核心、優勢、挑戰及考慮因素
異構計算就像是一支由“多才多藝”處理器組成的團隊,每個成員都有自己的強項和責任。 ? 什么是異構計算????? “異構計算”指的是在同一個計算平臺中,部署多種不同類型的處理單元(比如
安泰功率放大器應用:納米材料的前世今生
,因此在各個領域具有廣泛的應用前景。那么你知道納米材料是如何被發現,又是如何走入我們的生活,獲得長足發展的嗎?今天Aigtek安泰電子帶大家詳細了解一下。 納米材料的前世今生 1861年,隨著膠體化學的建立,科學家們開始了對直徑為
![安泰功率放大器應用:納米材料的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>](https://file1.elecfans.com/web3/M00/02/DB/wKgZO2diPg2AD2FxAACuag_ag4Q268.png)
【一文看懂】什么是異構計算?
隨著人工智能、深度學習、大數據處理等技術的快速發展,計算需求的復雜性不斷提升。傳統的單一計算架構已難以滿足高效處理復雜任務的要求,異構計算因此應運而生,成為現代計算領域的一個重要方向。
![【一文看懂】什么是<b class='flag-5'>異構計算</b>?](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
詳解Arm計算平臺的優勢
對于人工智能 (AI) 而言,任何單一硬件或計算組件都無法成為適合各類工作負載的萬能解決方案。AI 貫穿從云端到邊緣側的整個現代計算領域,為了滿足不同的 AI 用例和需求,一個可以靈活使用 CPU、GPU 和 NPU 等不同計算
深入了解Java泛型——從前世今生到PECS原則
本文主要介紹泛型誕生的前世今生,特性,以及著名PECS原則的由來。 在日常開發中,必不可少的會使用到泛型,這個過程中經常會出現類似“為什么這樣會編譯報錯?”,“為什么這個列表無法添加
![深入了解Java泛型——從<b class='flag-5'>前世</b><b class='flag-5'>今生</b>到PECS原則](https://file1.elecfans.com/web1/M00/F5/88/wKgZoWc-yI-AH3xTAAAGKrj46JM836.jpg)
淺談國產異構雙核RISC-V+FPGA處理器AG32VF407的優勢和應用場景
關于國產異構雙核RISC-V+FPGA處理器AG32VF407的具體優勢和應用場景淺談如下:
優勢
異構計算能力 :
異構雙核設計結合了RISC-V的高效指令集和FPGA的靈活可編程性,能夠針對特定
發表于 08-31 08:32
打造異構計算新標桿!國數集聯發布首款CXL混合資源池參考設計
參考設計是首個支持異構計算架構的CXL硬件設備,標志著CXL技術在數據中心領域迎來異構計算新階段。 ? 國數集聯基于FPGA與自主研發的CXL協議IP的先進特性,可實現CPU、GPU、DDR、SSD
![打造<b class='flag-5'>異構計算</b>新標桿!國數集聯發布首款CXL混合資源池參考設計](https://file1.elecfans.com//web2/M00/01/AD/wKgaomaxwHGASN8EAADEBPV28E8265.png)
AvaotaA1全志T527開發板AMP異構計算簡介
Avaota SBC 的部分平臺內具有小核心 CPU,與大核心一起組成了異構計算的功能。
在異構多處理系統中,主核心和輔助核心的存在旨在共同協作,以實現更高效的任務處理。這種協作需要系統采取一系列
發表于 07-24 09:54
異構計算:解鎖算力潛能的新途徑
在這個數據爆炸的時代,計算力是推動社會與科技創新的核心。從日常智能設備的流暢運行到超級計算機的尖端模擬,均依賴強大的計算能力。但面對多樣化的復雜計算任務,單一處理器難以勝任。于是,
![<b class='flag-5'>異構計算</b>:解鎖算力潛能的新途徑](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
智能時代的路,將由異構計算鋪就
AI時代,在計算支持領域,云計算、邊緣計算等相繼崛起,我們能看到的算力形態逐漸多樣化。同時,在我們看不到的地方,算力需求依然旺盛。隨著“十四五”規劃的不斷落地,加快數字化發展,打造具有國際競爭
![智能時代的路,將由<b class='flag-5'>異構計算</b>鋪就](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
華夏芯被申請破產清算,倒在AI芯片異構計算爆發前夜
清算一案。 ? 華夏芯的輝煌戰績 ? 華夏芯成立于2014年,是一家創新的異構處理器IP提供商和芯片解決方案提供商。公司擁有完全自主知識產權的CPU、DSP、GPU 和 AI 處理器 IP,基于創新的“統一指令集架構”、微架構和工具鏈,面向物聯網、邊緣
嵌入式系統的前世今生
一、初始階段(1960-1970)1960年代末:嵌入式系統的概念開始形成,最初用于專業的軍事和航天應用,例如用于導彈控制的計算機系統。微處理器的誕生:1971年,英特爾推出了4004芯片,這是
![嵌入式系統的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>](https://file.elecfans.com/web2/M00/20/B3/pYYBAGGfNNmAK-PZAAJsGM5Cgk0227.jpg)
高通NPU和異構計算提升生成式AI性能?
異構計算的重要性不可忽視。根據生成式AI的獨特需求和計算負擔,需要配備不同的處理器,如專注于AI工作負載的定制設計的NPU、CPU和GPU。
評論