在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談GPU: 衡量計算效能的正確姿勢(2)

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-16 11:12 ? 次閱讀

這次我們準(zhǔn)備聊下決定系統(tǒng)計算性能的兩大關(guān)鍵指標(biāo),1. 浮點運算能力(FLOPS), 2. 內(nèi)存帶寬(Memory Bandwidth)。

一· 為什么這兩個指標(biāo)很重要

目前無論是嵌入式系統(tǒng),PC還是大型服務(wù)器都遵循了馮。諾依曼結(jié)構(gòu)。

fe1778c8-9e22-11eb-8b86-12bb97331649.png

CPU密集型程序來說,執(zhí)行時候系統(tǒng)的內(nèi)部交互主要在處理器(包括控制器和運算器)和存儲器之間展開,大概是如下圖過程。

fe2a96c4-9e22-11eb-8b86-12bb97331649.jpg

所以CPU的處理能力以及訪存的效率對程序的性能起到了關(guān)鍵作用。大家知道計算一個程序執(zhí)行時間的公式如下(假設(shè)該程序是CPU Bound),

程序執(zhí)行時間(time) = 程序指令數(shù)目(Intructions) * 指令的平均時鐘數(shù)(CPI, Clock cycles/Instruction) * 時鐘周期(Seconds/Clock cycle)

為支持計算所需的精度和廣度,CPU/GPU ALU支持浮點運算,單精度甚至雙精度都是必須的要求。這里我們引入FLOPS(floating point operations per second)的概念來表征CPU/GPU浮點運算能力,所以針對浮點計算密集型程序,把FLOPS套到上面公式,我們可以用浮點運算數(shù)目/FLOPS來估摸程序大概執(zhí)行時間。

訪存效率的重要性我們這里也可以再提一下,以GPU為例,無論是游戲還是深度學(xué)習(xí),都有大量的內(nèi)存讀寫數(shù)據(jù)量。比如graphics里,有三角面片模型裝載,紋理采樣,深度測試(depth test),Alpha混合,以及圖像輸出等等。深度學(xué)習(xí)訓(xùn)練的時候,巨大的訓(xùn)練集/測試集輸入,迭代過程幾十萬,百萬級別參數(shù)讀寫。如果訪存成為瓶頸(Memory Bound),強大的計算能力也無從發(fā)揮。

二,如何知道FLOPS 和內(nèi)存帶寬

我們先看下如何得到兩個指標(biāo)的理論數(shù)值。

關(guān)于內(nèi)存帶寬,假設(shè)某款GPU,其顯示內(nèi)存的時鐘頻率為1546 MHZ,顯存的位寬(Interface Width)為384 bit, 則其帶寬的理論峰值計算如下,具體也可以參考https://en.wikipedia.org/wiki/Memory_bandwidth。

BW = 1546(clocks per second) * 384(memory interface width) * 2(DDR) / 8(In bytes) = 148GB/s

而GPU的理論FLOPS計算就要微妙很多,各個廠家對演算過程諱莫如深,一般不會公開,我們這里也不多著墨,大家參考廠家給出的數(shù)據(jù)罷了。ARM的網(wǎng)站寫過一篇文章探討FLOPS營銷噱頭一地雞毛的狀態(tài),F(xiàn)lipping the FLOPS - how ARM measures GPU compute performance,搜來看看,可以起到心理預(yù)防的作用。

相比理論數(shù)值,對碼農(nóng)來說,我們更關(guān)心是我們程序運行的實際性能數(shù)值,這才是關(guān)系我們飯碗的要緊之處。假設(shè)一個程序的核心運算是如下SAXPY,恰當(dāng)?shù)夭渴鸬紾PU或者多核CPU后,比如平均運行時間為1us,我們該如何計算實際訪存帶寬和FOPS?

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 n; ++i)

y[i] = a*x[i] + y[i];

}

我們可以看到每次迭代,有三次內(nèi)存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次)。所以實際BW和FOPS的計算如下,

BW = (3 * N * 4) / (1 / 1e9) = 120GB/s

FOPS = (2 * N) / (1 / 1e9) = 20GFLOPS

我們可以把實際數(shù)值和理論峰值比較下,確認(rèn)運算瓶頸在何處,是memory bound還是cpu bound,然后進一步優(yōu)化,關(guān)于這部分內(nèi)容,我們以后介紹roofline模型的時候還會涉及。

三,ALU和訪存的功耗水平

下圖來自David A. Patterson的另一本著作《計算機體系結(jié)構(gòu):量化研究方法》,羅列45nm制程各種類型ALU和訪存的功耗大小以及他們相對水平,可以看到32b的內(nèi)存訪問的功耗遠超同樣位寬大小的運算。

fe39f16e-9e22-11eb-8b86-12bb97331649.png

為什么我們要在這里留意功耗水平?移動設(shè)備由于電池供電,尺寸大小散熱限制,對功耗異常敏感,功耗大小直接決定設(shè)備的使用價值。以后我們談到移動GPU的設(shè)計的時候,可以了解如何在消除減少內(nèi)存訪問方面極盡所能。另外比特幣礦場礦機,數(shù)據(jù)中心的服務(wù)器,其數(shù)目都是以萬記,它們更是電老虎,每天的電力消耗才是運營的最大費用,會極大地影響了投資回報率,所以功耗水平有很重要的經(jīng)濟效果。最后目前全民倡導(dǎo)碳中和,綠色計算,身處產(chǎn)業(yè)鏈的我們,從硬件和軟件角度,努力提升功耗水平,也有很大社會意義。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11055

    瀏覽量

    216307
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4923

    瀏覽量

    130829
  • ALU
    ALU
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    13292

原文標(biāo)題:GPU: 衡量計算效能的正確姿勢(2)

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    常見傳動機構(gòu)負(fù)載慣量計算方法及實例

    傳動機構(gòu)負(fù)載慣量計算方法 1. 絲桿傳動機構(gòu) 絲桿傳動機構(gòu)廣泛應(yīng)用于精密定位系統(tǒng)中。其負(fù)載慣量的計算需要考慮負(fù)載質(zhì)量、絲桿導(dǎo)程、絲桿直徑以及摩擦系數(shù)等因素。 假設(shè)負(fù)載質(zhì)量為m,絲桿導(dǎo)程為Pb,絲桿直徑為Db,負(fù)載移動速度為
    的頭像 發(fā)表于 04-23 17:38 ?606次閱讀
    常見傳動機構(gòu)負(fù)載慣<b class='flag-5'>量計算</b>方法及實例

    淺談電磁流量計的常見故障及排除方法

    電磁流量計作為常用的流量測量儀表,在使用過程中可能會遇到各種故障。以下是對電磁流量計常見故障及排除方法的淺談: 一、儀表顯示最小或無顯示 當(dāng)電磁流量計顯示最小或無顯示時,通常意味著傳感
    的頭像 發(fā)表于 04-20 17:56 ?366次閱讀

    GPU加速計算平臺的優(yōu)勢

    傳統(tǒng)的CPU雖然在日常計算任務(wù)中表現(xiàn)出色,但在面對大規(guī)模并行計算需求時,其性能往往捉襟見肘。而GPU加速計算平臺憑借其獨特的優(yōu)勢,吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面,AI部落小編為
    的頭像 發(fā)表于 02-23 16:16 ?376次閱讀

    GPU計算服務(wù)怎么樣

    在當(dāng)今數(shù)字化快速發(fā)展的時代,高性能計算需求日益增長。為滿足這些需求,GPU計算服務(wù)應(yīng)運而生。那么,GPU計算服務(wù)怎么樣呢?接下來,AI部
    的頭像 發(fā)表于 02-05 15:01 ?423次閱讀

    調(diào)理電路的噪聲余量計算如何計算

    調(diào)理電路的噪聲余量計算 請問各位,在數(shù)據(jù)采集系統(tǒng)中,2Msps要達到12bit分辨率,選用14bit的ADC。前端調(diào)理電路的噪聲理論余量如何計算。根據(jù)什么條件確定前端調(diào)理放大器的噪聲指標(biāo)。。。比如調(diào)理電路的總噪聲不能夠超過多
    發(fā)表于 01-21 07:55

    算智算中心的算力如何衡量

    (ComputationalPower)是指智算中心通過其內(nèi)部的計算設(shè)備(如CPU、GPU、AI芯片等)對數(shù)據(jù)進行處理和計算的能力。它體現(xiàn)了智算中心在單位時間內(nèi)能夠完成的計算任務(wù)量,
    的頭像 發(fā)表于 01-16 14:03 ?2064次閱讀
    算智算中心的算力如何<b class='flag-5'>衡量</b>?

    電磁流量計正確調(diào)試步驟

    電磁流量計在自來水、生活用水、制藥等行業(yè)有著非常多的應(yīng)用,但是很多用戶們采購后根據(jù)專業(yè)復(fù)雜的說明書并不能正確的調(diào)試好產(chǎn)品并使用它。經(jīng)過我司售后部門的統(tǒng)計。百分之七十及以上的客戶朋友們收到貨后都會致電
    的頭像 發(fā)表于 01-12 09:19 ?1376次閱讀

    云端超級計算機使用教程

    云端超級計算機是一種基于云計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計算服務(wù)。下面,AI部落小編為
    的頭像 發(fā)表于 12-17 10:19 ?522次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    2. 操作系統(tǒng)支持:CST Studio Suite在不同操作系統(tǒng)上持續(xù)測試,可在支持的操作系統(tǒng)上使用GPU計算,具體參考相關(guān)文檔。 3. 許可證:GPU
    發(fā)表于 12-16 14:25

    靶式流量計的工作原理 靶式流量計和渦街流量計比較

    位移可以計算出流量。 流體沖擊 :流體流過靶板,對靶板施加力。 位移測量 :靶板的位移通過位移傳感器(如差分電容式傳感器)測量。 信號處理 :位移信號被轉(zhuǎn)換成電信號,并通過電子電路處理。 流量計算 :根據(jù)位移和流體的
    的頭像 發(fā)表于 12-11 16:49 ?1216次閱讀

    平衡流量計計算公式

    量計計算公式的重要性及應(yīng)用你了解嗎? 一、管道流速公式 這是平衡流量計中最基本的計算公式之一,它基于流體的質(zhì)量守恒定律。通過測量管道中的壓力差和密度,可以
    的頭像 發(fā)表于 10-25 14:14 ?685次閱讀
    平衡流<b class='flag-5'>量計</b><b class='flag-5'>計算</b>公式

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學(xué)計算、數(shù)據(jù)分析、機器學(xué)習(xí)等復(fù)雜
    的頭像 發(fā)表于 10-25 09:23 ?557次閱讀

    GPU計算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板 視頻處理 相機信號

    GPU計算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板 視頻處理 相機信號
    的頭像 發(fā)表于 10-23 10:09 ?585次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板 信號<b class='flag-5'>計算</b>主板 視頻處理 相機信號

    云端超級計算機怎么用

    云端超級計算機是一種基于云計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計算服務(wù)。
    的頭像 發(fā)表于 10-18 10:14 ?448次閱讀

    大模型單卡的正確使用步驟

    、注意事項等方面進行介紹,以幫助用戶更好地掌握大模型單卡的使用技巧。 第一部分:大模型單卡概述 1.1 大模型單卡的定義 大模型單卡是一種集成了大量計算資源和存儲資源的硬件設(shè)備,通常用于處理大規(guī)模數(shù)據(jù)集和執(zhí)行復(fù)雜計
    的頭像 發(fā)表于 07-05 14:32 ?1069次閱讀
    主站蜘蛛池模板: 多男一女一级淫片免费播放口 | 欧美成人精品欧美一级乱黄 | 欧美一级一一特黄 | 播五月综合 | 欧美色频| 又大又粗进出白浆直流动态图 | 免费看一级特黄a大片 | 福利视频一区二区 | 色妞综合 | 黄色片啪啪 | 天天艹夜夜艹 | 国产午夜视频在线观看 | 欧美影院一区二区 | 黄色软件入口 | 色多多免费视频 | 欧美日韩国产成人精品 | 婷婷综合久久中文字幕蜜桃三 | 午夜久 | 国产免费高清福利拍拍拍 | 国产伦精品一区二区免费 | 色综合中文字幕 | 欧美综合国产精品日韩一 | 91精品国产色综合久久不卡蜜 | 亚洲三级电影在线播放 | 日本二区免费一片黄2019 | 亚洲va久久久久综合 | 欧美女同网站 | 久久88色综合色鬼 | 欧美日本俄罗斯一级毛片 | 凹厕所xxxxbbbb偷拍视频 | 日本xxxx69hd| 亚洲国产精品婷婷久久久久 | 天堂在线中文无弹窗全文阅读 | 中文字幕亚洲综合久久2 | 精品国产自在在线在线观看 | 久久精品免看国产 | 久久久综合色 | 日本免费一区二区老鸭窝 | 狠狠色影院 | 欧美1024 | 口述他拿舌头进去我下面好爽 |