在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU平臺生態(tài),英偉達(dá)CUDA和AMD ROCm對比分析

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:架構(gòu)師技術(shù)聯(lián)盟 ? 2023-05-18 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

成熟且完善的平臺生態(tài)是 GPU 廠商的護(hù)城河。相較于持續(xù)迭代的微架構(gòu)帶來的技術(shù)壁壘硬實(shí)力,成熟的軟件生態(tài)形成的強(qiáng)大用戶粘性將在長時間內(nèi)塑造 GPU廠商的軟實(shí)力。以英偉達(dá) CUDA 為例的軟硬件設(shè)計架構(gòu)提供了硬件的直接訪問接口,不必依賴圖形 API 映射,降低 GPGPU 開發(fā)者編譯難度,以此實(shí)現(xiàn)高粘性的開發(fā)者生態(tài)。目前主流的開發(fā)平臺還包括 AMD ROCm 以及 OpenCL。

CUDA(Compute Unified Device Architectecture),是 NVIDIA 于 2006 年推出的通用并行計算架構(gòu),包含 CUDA 指令集架構(gòu)(ISA)和 GPU 內(nèi)部的并行計算引擎。該架構(gòu)允許開發(fā)者使用高級編程語言(例如 C 語言)利用 GPU 硬件的并行計算能力并對計算任務(wù)進(jìn)行分配和管理,CUDA 提供了一種比 CPU 更有效的解決大規(guī)模數(shù)據(jù)計算問題的方案,在深度學(xué)習(xí)訓(xùn)練和推理領(lǐng)域被廣泛使用。

b8d6af22-f50a-11ed-90ce-dac502259ad0.png

CUDA 除了是并行計算架構(gòu)外,還是 CPU 和 GPU 協(xié)調(diào)工作的通用語言。在CUDA 編程模型中,主要有 Host(主機(jī))和 Device(設(shè)備)兩個概念,Host 包含 CPU 和主機(jī)內(nèi)存,Device 包含 GPU 和顯存,兩者之間通過 PCI Express 總線進(jìn)行數(shù)據(jù)傳輸。在具體的 CUDA 實(shí)現(xiàn)中,程序通常劃分為兩部分,在主機(jī)上運(yùn)行的 Host 代碼和在設(shè)備上運(yùn)行的 Device 代碼。Host 代碼負(fù)責(zé)程序整體的流程控制和數(shù)據(jù)交換,而 Device 代碼則負(fù)責(zé)執(zhí)行具體的計算任務(wù)。

一個完整的 CUDA程序是由一系列的設(shè)備端函數(shù)并行部分和主機(jī)端的串行處理部分共同組成的,主機(jī)和設(shè)備通過這種方式可以高效地協(xié)同工作,實(shí)現(xiàn) GPU 的加速計算。

b907a262-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Host 運(yùn)行的函數(shù)庫包括了開發(fā)庫(Libraries)、運(yùn)行時(Runtime)和驅(qū)動(Driver)三大部分。其中,Libraries 提供了一些常見的數(shù)學(xué)和科學(xué)計算任務(wù)運(yùn)算庫,Runtime API 提供了便捷的應(yīng)用開發(fā)接口和運(yùn)行期組件,開發(fā)者可以通過調(diào)用 API 自動管理 GPU 資源,而 Driver API 提供了一系列 C 函數(shù)庫,能更底層、更高效地控制 GPU 資源,但相應(yīng)的開發(fā)者需要手動管理模塊編譯等復(fù)雜任務(wù)。

b9216454-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Device 上執(zhí)行的函數(shù)為內(nèi)核函數(shù)(Kernel)通常用于并行計算和數(shù)據(jù)處理。在 Kernel 中,并行部分由 K 個不同的 CUDA 線程并行執(zhí)行 K 次,而有別于普通的 C/C++函數(shù)只有 1 次。每一個 CUDA 內(nèi)核都以一個聲明指定器開始,程序員通過使用內(nèi)置變量__global__為每個線程提供一個唯一的全局 ID。一組線程被稱為 CUDA 塊(block)。CUDA 塊被分組為一個網(wǎng)格(grid),一個內(nèi)核以線程塊的網(wǎng)格形式執(zhí)行。每個 CUDA 塊由一個流式多處理器(SM)執(zhí)行,不能遷移到 GPU 中的其他 SM,一個 SM 可以運(yùn)行多個并發(fā)的 CUDA 塊,取決于CUDA 塊所需的資源,每個內(nèi)核在一個設(shè)備上執(zhí)行,CUDA 支持在一個設(shè)備上同時運(yùn)行多個內(nèi)核。

b950e29c-f50a-11ed-90ce-dac502259ad0.png

b99494b0-f50a-11ed-90ce-dac502259ad0.png

豐富而成熟的軟件生態(tài)是 CUDA 被廣泛使用的關(guān)鍵原因。

(1)編程語言:CUDA 從最初的 1.0 版本僅支持 C 語言編程,到現(xiàn)在的 CUDA 12.0 支持 C、C++、Fortran、Python 等多種編程語言。此外,NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈,不斷提升開發(fā)者的使用體驗(yàn)。

(2)庫:NVIDIA 在 CUDA 平臺上提供了名為 CUDA-X 的集合層,開發(fā)人員可以通過 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領(lǐng)域常用庫。

(3)其他:NVIDIA 還為 CUDA 開發(fā)人員提供了容器部署流程簡化以及集群環(huán)境擴(kuò)展應(yīng)用程序的工具,讓應(yīng)用程序更易加速,使得CUDA 技術(shù)能夠適用于更廣泛的領(lǐng)域。

ROCm (Radeon Open Compute Platform )是 AMD 基于開源項(xiàng)目的 GPU計算生態(tài)系統(tǒng),類似于 NVIDIA 的 CUDA。ROCm 支持多種編程語言、編譯器、庫和工具,以加速科學(xué)計算、人工智能機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用。ROCm還支持多種加速器廠商和架構(gòu),提供了開放的可移植性和互操作性。

ROCm 支持HIP(類 CUDA)和 OpenCL 兩種 GPU 編程模型,可實(shí)現(xiàn) CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括TensorFlow 1.x、PyTorch 1.8、MXNet 等,同時改進(jìn)了 ROCm 庫和工具的性能和穩(wěn)定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。

b9cd4288-f50a-11ed-90ce-dac502259ad0.png

b9f20fc8-f50a-11ed-90ce-dac502259ad0.png

OpenCL(Open Compute Language),是面向異構(gòu)系統(tǒng)通用并行編程、可以在多個平臺和設(shè)備上運(yùn)行的開放標(biāo)準(zhǔn)。OpenCL 支持多種編程語言和環(huán)境,并提供豐富的工具來幫助開發(fā)和調(diào)試,可以同時利用 CPU、GPU、DSP 等不同類型的加速器來執(zhí)行任務(wù),并支持?jǐn)?shù)據(jù)傳輸和同步。

ba0f6302-f50a-11ed-90ce-dac502259ad0.png

ba2f7e30-f50a-11ed-90ce-dac502259ad0.png

此外,OpenCL 支持細(xì)粒度和粗粒度并行編程模型,可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限,不同平臺和設(shè)備的功能支持和性能表現(xiàn)存在一定差異,與 CUDA相比缺少廣泛的社區(qū)支持和成熟的生態(tài)圈。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4928

    瀏覽量

    130967
  • 指令集
    +關(guān)注

    關(guān)注

    0

    文章

    228

    瀏覽量

    23769
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3935

    瀏覽量

    93400

原文標(biāo)題:GPU平臺生態(tài),英偉達(dá)CUDA和AMD ROCm對比分析

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    國內(nèi)外電機(jī)結(jié)構(gòu) 工藝對比分析

    純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:國內(nèi)外電機(jī)結(jié)構(gòu) 工藝對比分析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 05-29 14:06

    主流汽車電子SoC芯片對比分析

    主流汽車電子SoC芯片對比分析 隨著汽車智能化、電動化趨勢加速,系統(tǒng)級芯片(SoC)已成為汽車電子核心硬件。本文從技術(shù)參數(shù)、市場定位、應(yīng)用場景及國產(chǎn)化進(jìn)程等維度,對主流汽車電子SoC芯片進(jìn)行對比分析
    的頭像 發(fā)表于 05-23 15:33 ?1624次閱讀

    新思科技攜手英偉達(dá)加速芯片設(shè)計,提升芯片電子設(shè)計自動化效率

    宣布在英偉達(dá) Grace Blackwell 平臺上實(shí)現(xiàn)高達(dá) 30 倍的預(yù)期性能提升,加速下一代半導(dǎo)體的電路仿真 ? 摘要: 在今年GTC主題演講中,新思科技作為生態(tài)系統(tǒng)的一部分,展示
    發(fā)表于 03-19 17:59 ?262次閱讀

    新思科技亮相英偉達(dá)GTC 2025大會

    為了實(shí)現(xiàn)這一速度提升,新思科技在GTC全球AI大會上宣布,正在使用英偉達(dá) CUDA-X庫優(yōu)化其下一代半導(dǎo)體開發(fā)解決方案。公司還在擴(kuò)大對英偉達(dá)
    的頭像 發(fā)表于 03-19 17:53 ?782次閱讀

    荷蘭與英偉達(dá)AMD商討共建人工智能設(shè)施

    荷蘭政府正在積極尋求與全球領(lǐng)先的科技公司英偉達(dá)AMD的合作,共同推動荷蘭人工智能設(shè)施的建設(shè)與發(fā)展。 據(jù)荷蘭政府官方網(wǎng)站的消息,荷蘭經(jīng)濟(jì)事務(wù)大臣迪爾克·貝爾亞爾茨于近日對美國硅谷進(jìn)行了訪問,期間
    的頭像 發(fā)表于 01-10 13:36 ?699次閱讀

    英偉達(dá)與谷歌攜手加速量子計算設(shè)備設(shè)計

    英偉達(dá)近日宣布,將與谷歌量子AI團(tuán)隊展開合作,共同推進(jìn)量子計算軟硬件工具的研發(fā)。雙方將利用英偉達(dá)CUDA-Q
    的頭像 發(fā)表于 11-19 16:21 ?510次閱讀

    英偉達(dá)計劃2025年推出基于Arm架構(gòu)的消費(fèi)級CPU,挑戰(zhàn)英特爾和AMD

    ,這款CPU將融合英偉達(dá)的CPU和GPU設(shè)計,專注于高端設(shè)備市場,并預(yù)計在2026年3月左右進(jìn)一步擴(kuò)大推廣范圍。這一舉措標(biāo)志著英偉達(dá)試圖打破
    的頭像 發(fā)表于 11-05 15:29 ?1472次閱讀

    軟銀升級人工智能計算平臺,安裝4000顆英偉達(dá)Hopper GPU

    軟銀公司宣布,其正在擴(kuò)展的日本頂級人工智能計算平臺已安裝了約4000顆英偉達(dá)Hopper GPU。這一舉措顯著提升了平臺的計算能力。據(jù)悉,該
    的頭像 發(fā)表于 11-04 16:18 ?815次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    應(yīng)用上具有獨(dú)特優(yōu)勢和技術(shù)特點(diǎn),英偉達(dá)GPU上具有技術(shù)引領(lǐng)優(yōu)勢。這部分也是比較理論框架化些,通過閱讀可以對GPU有些整體了解與熟悉。
    發(fā)表于 11-03 12:55

    Inflection AI轉(zhuǎn)向英特爾Gaudi 3,放棄英偉達(dá)GPU

    近日,人工智能技術(shù)公司Inflection AI宣布了一項(xiàng)重要決策,其最新的企業(yè)平臺將放棄采用英偉達(dá)(Nvidia)的GPU,轉(zhuǎn)而選擇英特爾的Gaudi 3加速器。
    的頭像 發(fā)表于 10-10 17:21 ?747次閱讀

    英偉達(dá)Blackwell GPU量產(chǎn)加速,Q4營收沖刺百億美元大關(guān)

    近日,全球領(lǐng)先的圖形處理單元(GPU)及人工智能芯片制造商英偉達(dá)傳來重大利好消息。據(jù)摩根士丹利最新發(fā)布的行業(yè)分析報告指出,英偉
    的頭像 發(fā)表于 09-26 15:58 ?611次閱讀

    網(wǎng)關(guān)和路由器的對比分析

    網(wǎng)關(guān)和路由器作為計算機(jī)網(wǎng)絡(luò)中的關(guān)鍵設(shè)備,各自承擔(dān)著不同的角色和功能。下面將從定義、功能、應(yīng)用場景、性能等多個方面對網(wǎng)關(guān)和路由器進(jìn)行對比分析
    的頭像 發(fā)表于 08-27 10:20 ?2562次閱讀

    英偉達(dá)將全面轉(zhuǎn)向開源GPU內(nèi)核模塊

    英偉達(dá)公司近期宣布了一項(xiàng)重大決策,即全面轉(zhuǎn)向開源GPU內(nèi)核模塊,并計劃最終以此取代閉源驅(qū)動程序。這一戰(zhàn)略轉(zhuǎn)變標(biāo)志著英偉達(dá)在開源領(lǐng)域邁出了重要
    的頭像 發(fā)表于 07-19 15:26 ?838次閱讀

    打破英偉達(dá)CUDA壁壘?AMD顯卡現(xiàn)在也能無縫適配CUDA

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)一直以來,圍繞CUDA打造的軟件生態(tài),是英偉達(dá)GPU領(lǐng)域最大的護(hù)城河,尤其是隨著目前AI領(lǐng)域的發(fā)展加速,市場
    的頭像 發(fā)表于 07-19 00:16 ?5846次閱讀

    英國公司實(shí)現(xiàn)英偉達(dá)CUDA軟件在AMD GPU上的無縫運(yùn)行

    7月18日最新資訊,英國創(chuàng)新科技企業(yè)Spectral Compute震撼發(fā)布了其革命性GPGPU編程工具包——“SCALE”,該工具包實(shí)現(xiàn)了英偉達(dá)CUDA軟件在AMD
    的頭像 發(fā)表于 07-18 14:40 ?1027次閱讀
    主站蜘蛛池模板: 国产免费人成在线视频视频 | 日本亚洲欧美国产日韩ay高清 | 性欧美zoz0另类xxxx | 国产簧片 | 天天视频天天爽 | 久久免费精品国产72精品剧情 | 欧洲亚洲一区 | 国产美女视频黄a视频全免费网站 | 天天干天天操天天做 | 亚洲www网站 | 一区二区三区四区在线观看视频 | 九九99久久精品午夜剧场免费 | 成人种子 | 欧美大片一区 | 日本一区二区三区视频在线观看 | 午夜私人影院 | 日本不卡毛片一二三四 | 欧美激欧美啪啪片免费看 | 中文字幕1区2区 | 四虎影库网址 | 天天天操| 中文字幕网资源站永久资源 | 国产又色又爽又黄的网站在线一级 | 午夜视频在线免费看 | 国产小视频在线免费观看 | 国产综合成色在线视频 | 日本四虎影院 | 日日夜夜天天久久 | 五月婷婷色丁香 | 欧美精品影院 | a4yy私人毛片在线 | 天天玩天天干 | 在线观看免费视频一区 | 免费恐怖片 | 34pao强力打造免费永久视频 | 午夜美女影院 | 国外一级毛片 | 狠狠色噜噜狠狠狠狠色综合久 | 成人在线一区二区三区 | 免费二级c片观看 | 一本一本大道香蕉久在线精品 |