在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

剖析GPU分支分歧對性能的影響

B4Pb_gh_6fde77c ? 來源:GPU and Computing ? 作者: GPUComputing ? 2021-08-13 16:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在先前文章中,我們談到現代GPU發展出SIMT(Single Instruction Multiple Thread)的執行結構,硬件線程池的線程們有相對獨立的運行上下文,以Warp為單位分發到一組處理單元按SIMD的模式運行。

這些Warp內的線程共享同樣的PC,以鎖步的方式執行指令,但是每個線程又可以有自己的執行分支。很自然衍生的一個問題就是現代GPU如何有效的處理Branch Divergence(分支分歧)?

一方面為適應復雜圖形渲染以及通用計算的要求,GPU編程語言像其它高級語言一樣需要支持各種各樣的流控制(Flow Control)指令,比如ifswitchdoforwhile等等,這些指令都會導致分支分歧。

另一方面GPU并行計算的特點要求所有處理單元整齊劃一地執行相同指令,才能夠取得性能最大化。如何較好地解決這兩種不同要求導致的沖突,一直是GPU研究中的熱點難點問題。在這里筆者沒有能力深入探討,只是淺嘗輒止做一般介紹,主要求這個系列內容完整,不足甚至謬誤之處,請各位看官不吝指正。

一,分支分歧對性能的影響

這一節我們首先來討論下分支分歧對GPU性能的影響。以如下ifelse代碼為例,我們看下GPU一般是如何來處理分支分歧的?

if (cond) {。。。} else {。。。}

假設一個Warp中有16個線程判斷條件為真,另外16個線程條件為假,所以一半線程會執行if中的語句,另一半線程執行else中的語句。這看起來像個悖論,我們知道Warp中的線程同一時刻只能執行相同的指令。

實際上遇到分支分歧時GPU會順序執行每個分支路徑,而禁用不在此路徑上的線程,直到所有有線程使能的分支路徑都走完,線程再重新匯合到同一執行路徑。每個分支都有些線程不干活或者干無用功,Warp實際上需要執行的指令數目大增。

假設每個分支任務量大致相同,分支分歧造成的性能損失少則原先的一半,最壞的情況如果每個線程執行分支都不一致,性能下降為最高時候的1/32。

所以無論在設計算法還是分配處理數據的時候,我們都要小心盡量避免同一個Warp內線程出現分支分歧的狀況,在遇到流控制指令的時候,最好能夠選擇同樣的路徑。

二,如何實現Reconvergence

上一節我們講了Warp的線程產生了分支分歧之后,為求性能最佳,不可能讓它們一直放任自流,最終還是要盡可能在合適時機把它們重新匯合(Reconverge)起來。但這一切是如何實現的呢?

按照參考1的說法,“The SM uses a branch synchronization stack to manage independent threads that diverge and converge” 。下面根據可接觸到的文獻我們看看大概是如何實現的,不一定跟GPU產商的實際做法一致。

我們稱這個Warp運行時棧為SIMT Stack,每個Warp擁有一個SIMT棧用于處理SIMT執行模式中的分支分歧。

首先我們需要先確定分支分歧的最近重匯合點(Reconvergence Point),一般可以選用造成分支分歧節點的直接后序支配節點(Immediate post-dominator,若控制流圖的節點n 到終結節點的每一條路徑均要經過節點d,則稱節點d后序支配節點n,如d與n之間沒有任何其他節點后序支配n,則稱節點d直接后序支配節點n)。

這可以通過編譯時的控制流分析得到。左邊是我們假想的一段GPU偽代碼,右邊是對應的控制流圖,我們假設SIMD通道的數目是4,每個節點邊上的掩碼數字代表通道上線程在該節點基本塊有沒有使能。

SIMT棧結構每個條目由執行指令PC、分支重匯合PC(RPC)和使能線程掩碼三部分組成。執行流從節點B分支分歧到節點E重新匯合時SIMT棧的更新過程。執行的時候,遇到流控制指令,我們將各個分支依次入棧,棧頂條目的PC會被送到取指單元開始相應分支路徑的處理。

只有條目掩碼中使能的線程會處于活躍狀態,當下一條PC等于棧頂條目RPC的時候,說明該分支已經到了匯合點,棧頂條目會被彈出,開始下一分支的處理以至所有執行線程匯合并共同執行接下來的指令。值得注意的是真實環境下GPU都設計有一些特殊指令來維護SIMT棧。

下圖表示上面代碼在時間軸上的執行過程,實心箭頭表示對應線程在該執行節點處于活躍狀態,反之空心箭頭代表不活躍狀態。

ada94e44-fbb9-11eb-9bcf-12bb97331649.png

基于SIMT棧的Reconvergence方案并不完美,其中一個很大的問題是Warp內線程細粒度同步的時候很容易引發死鎖。按照Nvidia的說法,“algorithms requiring fine-grainedsharing of data guarded by locks or mutexes can easily lead to deadlock,depending on which warp the contending threads come from.”。

以下面代碼為例,某幸運線程拿到鎖之后,在最近重匯合點C等著與大部隊接頭,不幸的是它無法執行下面的Exch指令以釋放鎖,導致其它線程只能在B處空轉,形成死鎖。

adb72852-fbb9-11eb-9bcf-12bb97331649.png

從更高的層次上理解,分支分歧導致的順序執行只發生在Warp內的線程,Warp之間卻相互不受干擾,這種不一致的處理方式對算法移植的適應性還是可預測性都會帶來影響。Nvidia從Volta GPU開始做出了改進。

提出了“Independent Thread Scheduling”的方法,使得所有線程無關所在Warp可以具有同樣并發執行能力,為此相比之前的GPU其Warp內所有線程共享PC以及運行棧,Volta GPU的線程都分別有各自的PC和運行棧,如下圖所示。

adc43d30-fbb9-11eb-9bcf-12bb97331649.png

如此針對同樣的GPU程序以及分支分歧,Volta與之前的GPU相比有截然不同的調度行為。我們注意到在Volta中所有的Warp線程并沒有一起強制匯合執行Z基本塊,主要考慮到Z可能作為生產者需要提供其它執行分支依賴的的數據。

回到我們先前死鎖的例子,在Volta中這個死鎖便可迎刃而解。如果我們明顯了解相關分支不存在同步行為,為優化性能計,CUDA提供了 __syncwarp() 函數以便強制匯合。

add48e2e-fbb9-11eb-9bcf-12bb97331649.png

主要參考資料:

NVIDIA Tesla: A Unified Graphics and Computing Architecture

Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow

https://developer.nvidia.com/blog/inside-volta/

General-Purpose Graphics Processor Architectures

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4923

    瀏覽量

    130860
  • PC
    PC
    +關注

    關注

    9

    文章

    2144

    瀏覽量

    156224
  • 編程
    +關注

    關注

    88

    文章

    3686

    瀏覽量

    94996

原文標題:近距離看GPU計算(3)

文章出處:【微信號:gh_6fde77c41971,微信公眾號:FPGA干貨】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了芯片架構的基礎知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
    發表于 06-18 19:31

    ?為什么GPU性能效率比峰值性能更關鍵

    在評估GPU性能時,通常首先考察三個指標:圖形工作負載的紋理率(GPixel/s)、浮點運算次數(FLOPS)以及它們能處理計算和AI工作負載的每秒8-bittera運算次數(TOPS)。這些關鍵
    的頭像 發表于 03-13 08:34 ?337次閱讀
    ?為什么<b class='flag-5'>GPU</b><b class='flag-5'>性能</b>效率比峰值<b class='flag-5'>性能</b>更關鍵

    GPU 性能原理拆解

    「迷思」是指經由人們口口相傳,但又難以證明證偽的現象。由于GPU硬件實現、驅動實現是一個黑盒,我們只能通過廠商提供的API、經過抽象的架構來了解并猜測其原理。因此坊間流傳著各種關于與GPU打交道
    的頭像 發表于 02-08 14:29 ?616次閱讀
    <b class='flag-5'>GPU</b> <b class='flag-5'>性能</b>原理拆解

    BNC接頭技術原理與工程應用剖析:從結構到性能優化

    在現代電子通信和射頻領域,BNC接頭作為一種廣泛應用的連接器件,發揮著至關重要的作用。它以其可靠的連接性能、優異的電氣特性和廣泛的兼容性,成為眾多電子設備和系統中不可或缺的一部分。本文將深入剖析
    的頭像 發表于 12-31 16:07 ?1282次閱讀
    BNC接頭技術原理與工程應用<b class='flag-5'>剖析</b>:從結構到<b class='flag-5'>性能</b>優化

    《CST Studio Suite 2024 GPU加速計算指南》

    問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行工具nvidia
    發表于 12-16 14:25

    NPU與GPU性能對比

    NPU(Neural Processing Unit,神經網絡處理單元)與GPU(Graphics Processing Unit,圖形處理單元)在性能上各有千秋,它們各自的設計初衷和優化方向決定了
    的頭像 發表于 11-14 15:19 ?3979次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

    本篇閱讀學習第七、八章,了解GPU架構演進及CPGPU存儲體系與線程管理 █從圖形到計算的GPU架構演進 GPU圖像計算發展 ●從三角形開始的幾何階段 在現代圖形渲染中,三角形是最常用的基本圖形元素
    發表于 11-03 12:55

    常見GPU問題及解決方法

    各種問題。以下是一些常見的GPU問題及其解決方法: GPU驅動程序過時或不兼容 問題描述:GPU驅動程序是GPU與操作系統之間的橋梁,負責將操作系統的指令轉換為
    的頭像 發表于 10-27 14:12 ?3462次閱讀

    如何提高GPU性能

    在當今這個視覺至上的時代,GPU(圖形處理單元)的性能對于游戲玩家、圖形設計師、視頻編輯者以及任何需要進行高強度圖形處理的用戶來說至關重要。GPU不僅是游戲和多媒體應用的心臟,它還在科學計算、深度
    的頭像 發表于 10-27 11:21 ?2315次閱讀

    如何選擇適合的GPU

    在現代計算領域,GPU(圖形處理單元)的作用已經遠遠超出了傳統的圖形渲染。從深度學習到科學計算,再到視頻編輯,GPU都在發揮著越來越重要的作用。然而,市場上的GPU型號繁多,性能和價格
    的頭像 發表于 10-27 11:07 ?953次閱讀

    GPU性能服務器配置

    GPU性能服務器作為提升計算速度和效率的關鍵設備,在各大應用場景中發揮著越來越重要的作用。在此,petacloud.ai小編為你介紹GPU性能服務器的配置要點。
    的頭像 發表于 10-21 10:42 ?790次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    GPU、NPU,給我們剖析了算力芯片的微架構。書中有對芯片方案商處理器的講解,理論聯系實際,使讀者能更好理解算力芯片。 全書共11章,由淺入深,較系統全面進行講解。下面目錄對全書內容有一個整體了解
    發表于 10-15 22:08

    名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析

    紙質媒體的高質量和專業網絡媒體的信息更新速度。 算力芯片在最近15年有著巨大性能突破,這些年Intel的CPU芯片從雙核128位SIMD到眾核512位SIMD;NVIDIA的GPU產品從第一次實現頂點
    發表于 09-02 10:09

    探索巔峰性能 | 迅為RK3588開發板深度剖析

    探索巔峰性能 | 迅為RK3588開發板深度剖析
    的頭像 發表于 08-12 14:07 ?1531次閱讀
    探索巔峰<b class='flag-5'>性能</b> | 迅為RK3588開發板深度<b class='flag-5'>剖析</b>

    深入剖析石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越性能

    深入剖析石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越性能
    的頭像 發表于 08-08 10:14 ?677次閱讀
    深入<b class='flag-5'>剖析</b>石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越<b class='flag-5'>性能</b>
    主站蜘蛛池模板: 失禁h啪肉尿出来高h | 欧美人成a视频www | 182tv免费视视频线路一二三 | 欧美日本色 | 人与牲动交xxxxbbb | 免费一级特黄视频 | 天堂在线www | 久久草在线视频国产一 | 中文在线1区二区六区 | 美女流白浆网站 | 九九福利 | 日本一本在线视频 | 亚洲第一黄色网 | 萌白酱白丝护士服喷水铁牛tv | 国产婷婷色 | 99久久久久国产精品免费 | 青青青久97在线观看香蕉 | 四虎1515hh永久久免费 | 国内自拍露脸普通话对白在线 | 国产三级在线观看播放 | 国产性老妇女做爰在线 | 一区二区三区无码高清视频 | kkkbo色综合 lsj老司机精品视频在线观看 | 四虎在线视频 | 91大神在线观看精品一区 | 天天干天天天天 | 抽搐一进一出gif免费男男 | 久久天堂网 | 久操视频网| 天堂网在线最新版官网 | 午夜精品福利影院 | 天天射夜夜操 | 午夜免费片在线观看不卡 | 欧洲综合网 | 午夜爽爽视频 | 免费看大黄 | 一区二区免费播放 | 你懂的网站在线播放 | 天天操天天操天天操香蕉 | 激情五月婷婷久久 | 天天透天天干 |