CPU緩存與內(nèi)存延遲測試,相信大家都有所耳聞,但是GPU同樣的測試卻幾乎沒人做過。
ChipsAndCheese就做了一次特別的測試,對比考察了AMD、NVIDIAGPU架構(gòu)的緩存、顯存遲問題。
首先是AMDRDNA2、NVIDIAAmpere兩家最新架構(gòu)的比拼,代表是RX6900XT、RTX3090,前者在幾乎所有階段都完勝。
RNDA2架構(gòu)創(chuàng)新性地加入了InfinityCache無限緩存,提升帶寬的同時,延遲也可圈可點(diǎn),二級緩存命中率上只增加了大約20ns的延遲,明顯低于Ampere。
更驚人的是,RDNA2顯存延遲和Ampere幾乎一模一樣,但是別忘了,Ampere只有兩個層級的緩存,RDNA2卻有四個。
Ampere的緩存架構(gòu)更加傳統(tǒng),SM陣列私有一級緩存到二級緩存要增加超過100ns的延遲,RDNA2從零級緩存到二級緩存則只增加了約66ns。看起來,GA102核心面積過大,也直接增加了延遲。
這正好可以解釋AMDRDNA2架構(gòu)在低分辨率下性能、能效更優(yōu)秀,因?yàn)槎壘彺妗⑷壘彺嫜舆t很低,更適合執(zhí)行較小的負(fù)載。Ampere則相反,高負(fù)載下優(yōu)勢明顯,比如說4K分辨率。
說完了GPU之間的對比,那么GPU、CPU放在一起怎么樣呢?這里以RX6900XT、Intel四代酷睿i7-4770為例來看看。
CPU的緩存自然不是一個級別的,所以這里Y軸用了線性數(shù)據(jù),可以看到全程大大低于RDNA2,搭配DDR3-1600CL9內(nèi)存延遲只有63ns,RX6900XT、GDDR6的組合則有226ns,另外末級緩存平均延遲分別是53.42ns、123.2ns。
再看看前幾代的NVIDIAGPU,包括Maxwell架構(gòu)的GTX980Ti、Pascal架構(gòu)的GTX1080、Turing架構(gòu)的RTX2060Mobile。
Maxwell、Pascal其實(shí)差不多,前者整體略高一些,可能是受制于芯片面積較大、核心頻率較低。
Turing則已經(jīng)有了Ampere的樣子,一級緩存延遲低得多,二級差不多,奇怪的是顯存延遲在32MB之后偏高,原因未知。
AMD考察了TeraScale架構(gòu)的HD5850/6950、GCN架構(gòu)的HD7970,再加上RX6900XT,很明顯在逐代降低,而且是各級緩存都在同時進(jìn)步。
編輯:jq
-
amd
+關(guān)注
關(guān)注
25文章
5570瀏覽量
135987 -
cpu
+關(guān)注
關(guān)注
68文章
11049瀏覽量
216129 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7246瀏覽量
91163 -
gpu
+關(guān)注
關(guān)注
28文章
4916瀏覽量
130729
發(fā)布評論請先 登錄
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
專訪AMD王啟尚 從RDNA 4到FSR 4,AMD GPU技術(shù)創(chuàng)新引領(lǐng)行業(yè)新發(fā)展

NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對比
納米銅燒結(jié)為何完勝納米銀燒結(jié)?

ADC12D1600和ADC12D1600RF這兩種型號之間有什么區(qū)別?
《CST Studio Suite 2024 GPU加速計(jì)算指南》
兩種轉(zhuǎn)換控制模式Zone 1 Transfer和Zone 2 Transfer怎么區(qū)分使用?
AMD確認(rèn)2025年推出RDNA 4顯卡,光追與AI性能大幅提升
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
嵌入式MXM模塊(NVIDIA安培架構(gòu))
晶閘管的阻斷狀態(tài)有兩種是什么

評論