本文介紹一下我組在ICCV2023的論文“S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields”。
S3IM這個(gè)工作背后的想法實(shí)際上很簡潔,從這個(gè)idea在腦海里形成到最后提交到ICCV2023不過2個(gè)月時(shí)間。
S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields
論文:arxiv.org/abs/2308.07032
代碼:github.com/Madaoer/S3IM-Neural-Fields
用一句話來總結(jié)這個(gè)工作就是——我們提出了一種即插即用的loss S3IM(隨機(jī)結(jié)構(gòu)相似性),可以近乎零成本地顯著提升現(xiàn)存NeRF類方法的性能指標(biāo)。在幾個(gè)場景里,我們甚至可以把TensoRF和DVGO這些經(jīng)典模型的Test MSE Loss下降99%,同時(shí)把NeuS的幾何重建指標(biāo)(比如Chamfer L1 Distance)改善超過60%。
這里我們先看幾組RGB和幾何重建的可視化結(jié)果。
不僅如此,還可以提高對圖像噪音的魯棒性。如下圖所示,S3IM的渲染結(jié)果明顯去掉了圖像里灰蒙蒙的噪音。
毫無疑問,S3IM極大地增強(qiáng)了現(xiàn)有的NeRF類方法。
S3IM的精髓在于以兩個(gè)像素集合之間的相似性作為訓(xùn)練損失;像素集合一般包含數(shù)千個(gè)像素,這些像素一起貢獻(xiàn)了互相關(guān)聯(lián)的、全局的結(jié)構(gòu)信息。
而NeRF傳統(tǒng)的MSE是一種以兩個(gè)獨(dú)立像素之間的point-wise error作為訓(xùn)練損失;所以MSE只包含了像素點(diǎn)孤立的信息、完全沒有遠(yuǎn)距離或者全局的信息。
上面這兩段話就是S3IM的motivation。
為什么有結(jié)構(gòu)信息更好?
這是一個(gè)很好的問題。
但我們先回答另一個(gè)相關(guān)的問題,為什么NeRF的性能指標(biāo)要有3個(gè)——PSNR、SSIM和LPIPS?
PSNR就是像素之間point-wise的度量。很早大家就發(fā)現(xiàn),PSNR好不代表真的就好。
SSIM(結(jié)構(gòu)相似性)作為一種和人類視覺感知相關(guān)性更高的度量在2004年圖像評估領(lǐng)域應(yīng)運(yùn)而生。
LPIPS則是一種通過預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取特征計(jì)算特征距離的指標(biāo)(一般叫做感知指標(biāo))。
SSIM和LPIPS其實(shí)都具備衡量兩個(gè)像素集合之間相似性的能力,而且與人類視覺感知相關(guān)性都比PSNR高。
熟悉NeRF的讀者都知道,傳統(tǒng)NeRF訓(xùn)練時(shí)是用MSE Loss。而PSNR和MSE其實(shí)就是一個(gè)簡單的對數(shù)關(guān)系。
MSE和PSNR這類point-wise指標(biāo)都是不夠好的。一方面是和人類視覺感知相關(guān)性低,另一方面則是無法捕捉多個(gè)像素(像素集合)的整體信息。
那么SSIM和LPIPS可不可以直接作為NeRF的loss訓(xùn)練呢?
其實(shí)也可以,但仍然不夠好。
因?yàn)镾SIM和LPIPS都是基于卷積核的相似性度量,它們只能捕捉相近像素的局部信息,不能捕捉更遠(yuǎn)的像素包含的結(jié)構(gòu)信息。
我們的ICCV工作就是把SSIM(Structural SIMilarity)這個(gè)經(jīng)典圖像質(zhì)量評估指標(biāo)升級,變?yōu)镾3IM(Stochastic Structural SIMilarity)。
這個(gè)升級方式也很簡單。SSIM只能在圖像local patch用卷積核對吧。
那我們把NeRF訓(xùn)練時(shí)每個(gè)minibatch的像素隨機(jī)拼接成一個(gè)patch(叫做stochastic patch),然后再用SSIM處理這些stochastic patch就行了。
有時(shí)候,真理就是這么樸實(shí)無華啊...
知名3D幾何重建開源框架SDFStudio也已經(jīng)把S3IM方法合并進(jìn)去了。
最后再放一個(gè)量化的實(shí)驗(yàn)結(jié)果。表里Multiplex即是我們的S3IM方法。
S3IM這個(gè)工作是我們Machine Learning for Fields系列工作的一環(huán)。我們在從機(jī)器學(xué)習(xí)的角度考慮場的問題。
無論是神經(jīng)輻射場還是其他什么場,廣義來說都是某個(gè)coordinate-wise的物理量。NeRF只是把輻射場的物理先驗(yàn)知識(shí)(空間中包含發(fā)光氣體)嵌入了sampling的部分而已。這對3D場景表示不是完美的,但確實(shí)非常有用,也掀起了熱潮。
-
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41063 -
Magic
+關(guān)注
關(guān)注
0文章
53瀏覽量
10711 -
可視化
+關(guān)注
關(guān)注
1文章
1250瀏覽量
21672
原文標(biāo)題:ICCV 2023 | 即插即用!百度提出S3IM:用于NeRF提點(diǎn)的Magic Loss
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
小米副總裁跳槽百度 出任百度資本CFO
即插即用和熱插拔的區(qū)別
百度總裁:百度在人工智能領(lǐng)域已有重大突破
PCI與即插即用
什么是即插即用
百度“天智平臺(tái)”發(fā)布 開放百度大腦能力
百度大數(shù)據(jù)怎么使用
新基建時(shí)代 百度如何加速百度智能云發(fā)展
百度王海峰:自研云端AI通用芯片百度昆侖1已實(shí)現(xiàn)量產(chǎn)
百度股價(jià)大漲的底層邏輯
百度Create AI開發(fā)者大會(huì):百度大腦位居中國市場第一
2022百度世界大會(huì)-百度智慧交管助力AI與交警共同成長

2022百度世界大會(huì)—百度AI助力電力安全流淌

評論