我欲封天耳根小说零,盗墓笔记同人小说,有声小说打包下载

一種同時(shí)解決目標(biāo)獨(dú)立光柵化和可變頻率的像素著色器的通用實(shí)現(xiàn)方法

0 引言

多點(diǎn)采樣抗鋸齒（MSAA），目標(biāo)獨(dú)立光柵化（TIR），和可變頻率像素著色器（VRS）是三種不同的DirectX 特性。

多點(diǎn)采樣抗鋸齒是一個(gè)像素有多個(gè)采樣點(diǎn)，來(lái)達(dá)到抗鋸齒效果。

目標(biāo)獨(dú)立光柵化是Direct11.3提出的新特性，旨在使Direct2D能夠?qū)鸥窕襟E從CPU移動(dòng)到GPU，同時(shí)仍然保留Direct2D抗鋸齒需求。抗鋸齒路徑的渲染將在GPU上進(jìn)行2次渲染。第一遍將把每個(gè)像素的覆蓋率寫(xiě)入一個(gè)中間渲染目標(biāo)紋理。路徑將被鑲嵌成不重疊的三角形。該GPU將編程使用目標(biāo)獨(dú)立光柵化和添加劑混合在第一次通過(guò)。第一次使用的像素著色器將簡(jiǎn)單地計(jì)算覆蓋掩碼中設(shè)置的比特?cái)?shù)，并輸出規(guī)范化為[0.0,1.0]的結(jié)果。在第二次過(guò)程中，GPU將從中間紋理讀取數(shù)據(jù)并寫(xiě)入應(yīng)用程序的渲染目標(biāo)。此遍歷將路徑顏色乘以第一次遍歷期間計(jì)算的覆蓋率。

可變頻率的像素著色器是Direct12提出的新特性，由于性能的限制，像素著色器不能總是在輸出圖像的每個(gè)部分都提供相同的質(zhì)量水平。可變速率著色，或粗略像素著色，是一種機(jī)制，使分配渲染性能/功率在不同速率的渲染圖像。在視覺(jué)上，有些情況下陰影率可以降低，而在可感知的輸出質(zhì)量上幾乎沒(méi)有降低，從而導(dǎo)致“自由”的性能。

一般來(lái)說(shuō)在GPU上對(duì)這三種特性進(jìn)行支持需要不同的邏輯門(mén)。多點(diǎn)采樣抗鋸齒特性提出時(shí)間比較早，在很多GPU的功能上已經(jīng)涵蓋了，如何將目標(biāo)獨(dú)立光柵化以及可變頻率像素著色器這兩個(gè)特性在已經(jīng)支持多點(diǎn)采樣抗鋸齒特性的GPU上實(shí)現(xiàn)對(duì)架構(gòu)設(shè)計(jì)師提出了新的挑戰(zhàn)。

1 現(xiàn)有方案存在的問(wèn)題

在D3D管線(xiàn)中，OM（Output Merger）會(huì)收到經(jīng)過(guò)光柵化（Rasterizer）的mask，用來(lái)確定哪些像素（Pixel）需要更新，哪些不需要更新；同時(shí)OM會(huì)收到經(jīng)過(guò)PS（Pixel Shader）計(jì)算之后輸出的每個(gè)像素（Pixel）的顏色值，并將顏色值按照mask輸出到對(duì)應(yīng)的內(nèi)存空間中。

為了得到更好的圖形渲染效果，D3D運(yùn)用了各種反走樣算法，其中最常見(jiàn)的就是MSAA（MultiSampling Anti-Aliasing）。簡(jiǎn)單來(lái)說(shuō)就是將1個(gè)像素（Pixel）用多個(gè)點(diǎn)去采樣，這些新的采樣點(diǎn)我們稱(chēng)為Sample，目前1個(gè)pixel包含的sample個(gè)數(shù)可以是1，2，4，8，16. 因?yàn)橄袼乇患?xì)化，所以可以有效降低圖形邊界的鋸齒現(xiàn)象。按照D3D Spec要求，MSAA 在3D管線(xiàn)中各個(gè)階段的sample個(gè)數(shù)如表1所示。

其中N的取值是1，2，4，8，16，Rasterizer和OM RT的Sample必須是一樣的。RT是指Render Target。

D3D11.3在MSAA的基礎(chǔ)上提出了TIR（Target Independent Rasterization）。這個(gè)新的特性可以幫助GPU處理2D的反走樣。TIR在3D管線(xiàn)中各個(gè)階段的sample個(gè)數(shù)要求如表2。

其中N的取值是1，2，4，8，16.TIR和MSAA 最大的區(qū)別有兩點(diǎn)：（1）TIR的時(shí)候不要求Rasterizer的sample數(shù)和OM RT相同；（2）PS 只能運(yùn)行在Pixelfrequency模式下，即每個(gè)pixel不論包含了多少個(gè)sample只能調(diào)用一次PS。

D3D12為了兼顧圖像質(zhì)量和硬件性能，對(duì)反走樣算法提出了更高的要求—VRS(Variable Rate Shading). 這個(gè)新的特性主要思想是節(jié)省PS的調(diào)用，不再是按照pixel或者sample的粒度去調(diào)用PS，而是按照coarse pixel的粒度去調(diào)用PS，即N個(gè)pixel調(diào)用一次PS（N可以是2，4，8，16），D3D12稱(chēng)其為Subsampling.VRS在3D管線(xiàn)中各個(gè)階段sample個(gè)數(shù)要求如表3。

PS調(diào)用粒度我們用分?jǐn)?shù)表示，比如1/2表示2個(gè)pixel調(diào)用一次PS。除了表中列出的組合，其他的情況D3D12不要求支持。

MSAA，TIR和VRS是三個(gè)不同的特性，都需要GPU hardware支持。MSAA,TIR和VRS是三個(gè)不同的特性，不會(huì)同時(shí)開(kāi)啟，OM需要支持它們需要三塊不同的邏輯單元，如圖1所示。

MSAA, TIR 和VRS是三個(gè)不同的特性，不會(huì)同時(shí)開(kāi)啟，OM如果用三個(gè)不同的邏輯單元去處理會(huì)增加硬件設(shè)計(jì)的邏輯門(mén)。

2 算法設(shè)計(jì)

本文希望實(shí)現(xiàn)一種統(tǒng)一的算法能處理這三個(gè)不同的特性，達(dá)到簡(jiǎn)化邏輯節(jié)省gatecount的目的。

在OM入口處增加兩個(gè)簡(jiǎn)單的處理單元，一個(gè)處理單元根據(jù)Rasterizer的samplemode調(diào)整coveragemask和坐標(biāo)；另一個(gè)處理單元根據(jù)PS的samplemode調(diào)整輸出的data。然后將經(jīng)過(guò)調(diào)整的coveragemask和color輸入到一個(gè)統(tǒng)一的邏輯單元，這個(gè)邏輯單元可以用一套邏輯處理所有MSAA,TIR, VRS情況。具體設(shè)計(jì)如圖2。

Unitive Unit只用處理MSAA的所有Case。Rasterizer到OM的帶寬是固定的，也就是說(shuō)Rasterizer輸出的maskbit位是不變的，在這種情況下Unitive Unit需要能處理各種sample mode的情形。我們約定Rasterizer送出門(mén)的mask代表的第一個(gè)pixel為左上點(diǎn)，那么這個(gè)左上點(diǎn)的坐標(biāo)(x,y)必須根據(jù)Rasterizer到OM的帶寬滿(mǎn)足對(duì)齊（aligned）的規(guī)則。

假設(shè)Rasterizer到OM帶寬是maskWidth, 一般來(lái)說(shuō)maskWidth大于等于16并且是2的冪，否則就沒(méi)辦法在16x的情況下一次性表示一個(gè)完整的pixel。N是Rasterizer的samplenum.

Raster mask能表示的RT pixel個(gè)數(shù)：

rasterPixelNum＝(maskWidth>>log2N)

x對(duì)齊規(guī)則：

1<<(((log2rasterPixelNum)>>1)+

((log2 rasterPixelNum)&1))

y對(duì)齊規(guī)則：

1<<(((log2rasterPixelNum)>>1))（1）

以Rasterizer到OM的帶寬是16bits為例，那么在不同MSAA模式下收到的pixel左上點(diǎn)坐標(biāo)和PS的color筆數(shù)如表4。

為了能讓TIR和VRS共用可以處理MSAA 的Unitive Unit，我們需要調(diào)整Rasterizer輸出的mask和左上點(diǎn)pixel的坐標(biāo)，以及PS輸出的color，使它們能滿(mǎn)足Unitive Unit的輸入要求，以16bits帶寬為例，即滿(mǎn)足表4。

2.1 Processmask Unit

首先看Processmask Unit，這個(gè)模塊需要根據(jù)Rasterizer Samplenum.和OM RT Samplenum.來(lái)調(diào)整mask和pixel坐標(biāo)。綜合前文里關(guān)于TIR和VRS的內(nèi)容，Rasterizer Sample num.和OM RT Samplenum.只有表5所示的三種組合。

Unitive Unit能處理MSAA特性，MSAA要求Rasterizer Samplenum.和OM RT Samplenum.是一樣的，所以對(duì)于TIR和VRS，在進(jìn)入U(xiǎn)nitive Unit之前需要Processmask Unit將Rasterizer輸出的mask和pixel左上點(diǎn)坐標(biāo)按照OM RT標(biāo)準(zhǔn)進(jìn)行調(diào)整。也就是需要支持兩種調(diào)整：Nx Rasterizer mask進(jìn)行down-sample調(diào)整到1x OM RT的mask，或者1x Rasterizer mask進(jìn)行up-sample調(diào)整到Nx OM RT的mask.

2.2 Down-sample

Rasterizer Sample num.是N，OM RT Samplenum.是1。假設(shè)Rasterizer輸出的mask為rasterMask，pixel左上點(diǎn)坐標(biāo)是(x,y)。

經(jīng)過(guò)Process mask Unit調(diào)整后輸出的mask為finalMask，其寬度和rasterMask相同，調(diào)整后的pixel左上點(diǎn)坐標(biāo)是(finalX, finalY)。

調(diào)整的方法用偽代碼表示如下。

index_size_x＝(log2N>>1)+(log2N&1)；

index_size_y＝(log2N>>1)；

aligned_size_x＝((log2rasterPixelNum)>>1)+((log2rasterPixelNum)&1)；

aligned_size_y＝(log2rasterPixelNum)>>1；

block_index＝0；

finalX＝(～((1<<(index_size_x+aligned_size_x))-1))&x；

finalY＝(～((1<<(index_size_y+aligned_size_y))-1)) & y；

for(i＝0；i<=index_size_x；i++)

block_index|＝((((x>>aligned_size_x)>>i)&1)<<(i*2))；

for(j＝0；j <=index_size_y；j++)

block_index|＝((((y>>aligned_size_y)>>j)&1)<<(j*2+1))；

pixel_mask＝0；

for(n0；n

{

temp_mask＝0；

for(m＝0；m

{

temp_mask|＝((rasterMask>> (m+n))&1)；

}

pixel_mask|＝(temp_mask<<(n/N))；

}

finalMask＝pixel_mask<<(block_index*(maskWidth/N))；

以Rasterizer到OM的帶寬是16bits為例。

從N個(gè)sampledown-sample到1個(gè)samplemask。把Nbit的samplemask全部用或運(yùn)算最后得到1bit的pixelmask。再根據(jù)pixel左上點(diǎn)坐標(biāo)對(duì)pixelmask進(jìn)行移位。

調(diào)整pixel左上點(diǎn)的坐標(biāo)，OM RT Samplenum.為1時(shí)，16bit的mask是(4,4)對(duì)齊的，所以需要將表5-1？？？中Rasterizersamplenum.等于N對(duì)齊的坐標(biāo)調(diào)整成(4, 4)對(duì)齊的pixel坐標(biāo)。

以N＝4為例，假設(shè)Rasterizer輸出的mask是b’0100 1011 0000 1111, pixel 坐標(biāo)(6,12)， Pixel坐標(biāo)要從(2,2)對(duì)齊調(diào)整到(4,4)對(duì)齊，那么兩個(gè)坐標(biāo)分別在低兩位與上b'00，調(diào)整為(4,12)。mask每4bit調(diào)整成1bit，變成b'1101，然后根據(jù)坐標(biāo)確定這個(gè)2×2是4×4里的第幾個(gè)2×2，將mask移位，最后得到b'0000 0000 1101 0000。如圖3。

2.3 Up-sample

Rasterizer Sample num.是1，OM RT Samplenum.是N。一筆Rasterizer的輸出會(huì)被Processmask Unit拆成N筆送進(jìn)Unitive Unit。

假設(shè)Rasterizer輸出的mask為rasterMask，pixel左上點(diǎn)坐標(biāo)是(x,y)。

經(jīng)過(guò)Process mask Unit調(diào)整后輸出N筆mask分別為finalMask_i,i∈[0,N-1],其寬度均和rasterMask相同，調(diào)整后的N筆pixel左上點(diǎn)坐標(biāo)分別是(finalX_i, finalY_i)，i∈[0,N-1]。

調(diào)整的方法用下面?zhèn)未a來(lái)表示。

sample_mask_per_pixel＝(1<

aligned_size_x＝((log2rasterPixelNum)>>1)+((log2rasterPixelNum)&1)；

aligned_size_y＝(log2rasterPixelNum)>>1；

x_stride＝1<

y_stride＝1<

for(i＝0；i

{

for(j＝0；j

{

if((rasterMask>>(i*N+j))==1)

finalMask_i＝sample_mask_per_pixel<<(j*N)；

}

x_offset＝((i&1)|(((i>>2)&1)<<1))；

y_offset＝(((i>>1)&1)| (((i>>3)&1)<<1))；

finalX_i＝x+x_offset*x_stride；

finalY_i＝y(tǒng)+y_offset*y_stride；

}

以Rasterizer到OM的帶寬是16bits，N＝4為例，假設(shè)Rasterizer輸出的mask是b'0100 1011 0000 1111, pixel 坐標(biāo)(24,12).這一筆數(shù)據(jù)會(huì)被拆分成4筆數(shù)據(jù)送進(jìn)Unitive Uint，如圖4所示。

2.4 Processcolor Unit

Process color Unit需要根據(jù)PS sample mode和OM RT samplemode將PS 輸出的color進(jìn)行復(fù)制，匹配Unitive Unitdataentry的輸入。綜合表1、表2、表3，只需要對(duì)VRS的color進(jìn)行展開(kāi)，將PS 輸出的coarse pixel的color轉(zhuǎn)成pixel的color。

PS是1/2samplemode，一個(gè)color復(fù)制成兩份轉(zhuǎn)成1samplemode。

PS是1/4samplemode，一個(gè)color復(fù)制成四份轉(zhuǎn)成1samplemode。

PS是1/8samplemode，一個(gè)color復(fù)制成八份轉(zhuǎn)成1samplemode。

PS是1/16samplemode，一個(gè)color復(fù)制成十六份轉(zhuǎn)成1samplemode。

經(jīng)過(guò)上述的轉(zhuǎn)化Unitive Unit會(huì)認(rèn)為PS 是MSAA 的Pixel frequency，然后進(jìn)行相應(yīng)的處理。設(shè)計(jì)的時(shí)候也可以根據(jù)Unitive Unit的具體實(shí)現(xiàn)將color復(fù)制更多份（和OM RT sample mode相對(duì)應(yīng)），使Unitive Unit認(rèn)為PS是MSAA的Samplec frequency。

3 結(jié)語(yǔ)：算法優(yōu)點(diǎn)

對(duì)于已經(jīng)支持MSAA 特性的GPU，如果想升級(jí)支持D3D11.3的TIR和D3D12的VRS，在OM模塊部分不需要設(shè)計(jì)全新的邏輯，可以對(duì)這兩種新的特性進(jìn)行巧妙的轉(zhuǎn)化，然后共用MSAA的邏輯處理單元。這樣既省去了復(fù)雜的邏輯設(shè)計(jì)和驗(yàn)證，也節(jié)省了gatecount。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

光柵

光柵

+關(guān)注

關(guān)注
0

文章
296

瀏覽量
27987
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4948

瀏覽量
131263
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41276

原文標(biāo)題：一種同時(shí)解決目標(biāo)獨(dú)立光柵化和可變頻率的像素著色器的通用實(shí)現(xiàn)方法

文章出處：【微信號(hào)：appic-cn，微信公眾號(hào)：集成電路應(yīng)用雜志】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

一種同時(shí)解決目標(biāo)獨(dú)立光柵化和可變頻率的像素著色器的通用實(shí)現(xiàn)方法

評(píng)論