在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于NeRF的隱式GAN架構(gòu)

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-06-14 10:16 ? 次閱讀

3D對(duì)象的生成模型在VR和增強(qiáng)現(xiàn)實(shí)應(yīng)用中越來(lái)越受歡迎。但使用標(biāo)準(zhǔn)的3D表示(如體素或點(diǎn)云)來(lái)訓(xùn)練這些模型是具有挑戰(zhàn)性的,并且需要復(fù)雜的工具來(lái)進(jìn)行適當(dāng)?shù)念伾秩尽?strong>神經(jīng)輻射場(chǎng)(NeRF)在從一小部分2D圖像合成復(fù)雜3D場(chǎng)景的新視圖方面提供了最先進(jìn)的質(zhì)量。

作者提出了一個(gè)生成模型HyperNeRFGAN,它使用超網(wǎng)絡(luò)范式來(lái)生成由NeRF表示的三維物體。超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨(dú)目標(biāo)網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型。基于GAN的模型,利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重。通過(guò)NeRF渲染2D新視圖,并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個(gè)基于GAN的結(jié)構(gòu)。

提出了基于NeRF的隱式GAN架構(gòu)——第一個(gè)用于生成高質(zhì)量3D NeRF表示的GAN模型。與基于 SIREN 的架構(gòu)相比,利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。該模型允許從無(wú)監(jiān)督的2D圖像合成3D感知圖像。

筆者個(gè)人體會(huì)

這篇論文的動(dòng)機(jī)是提出一種從2D圖像生成高質(zhì)量的3D物體的新方法,并且使用NeRF(Neural Radiance Fields)表示來(lái)重建物體的3D結(jié)構(gòu),以填補(bǔ)現(xiàn)有研究中的空白并解決傳統(tǒng)方法的局限性。NeRF是一種基于神經(jīng)網(wǎng)絡(luò)的表示方法,可以通過(guò)從不同視角觀察的2D圖像重建出完整的3D物體。

傳統(tǒng)的方法通常需要大量的3D訓(xùn)練數(shù)據(jù)或者深度信息,但這些數(shù)據(jù)往往難以獲取或者成本較高。而作者的方法可以利用2D圖像生成3D物體,無(wú)需額外的深度信息或大量的3D數(shù)據(jù)集,從而降低了數(shù)據(jù)收集的難度和成本。

此外,NeRF表示能夠捕捉到物體的細(xì)節(jié)和視角變化,生成的3D物體具有高質(zhì)量和準(zhǔn)確性。

論文的核心創(chuàng)新是結(jié)合了HyperNetworks和NeRF的思想,提出了HyperNeRFGAN模型,將NeRF表示作為生成3D物體的基礎(chǔ),并利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,以實(shí)現(xiàn)從2D圖像到3D物體的映射。

HyperNetworks是一種可以生成神經(jīng)網(wǎng)絡(luò)權(quán)重的神經(jīng)網(wǎng)絡(luò),它可以用來(lái)生成NeRF網(wǎng)絡(luò)的權(quán)重。通過(guò)HyperNeRFGAN,可以從輸入的高斯噪聲生成NeRF網(wǎng)絡(luò)的權(quán)重,進(jìn)而重建出相應(yīng)的3D物體。

NeRF表示能夠提供準(zhǔn)確的3D物體重建,而HyperNetworks則提供了生成NeRF網(wǎng)絡(luò)權(quán)重的有效方式。通過(guò)結(jié)合兩者,作者能夠?qū)?D圖像與3D物體之間的映射關(guān)系建立起來(lái),并實(shí)現(xiàn)從2D圖像生成高質(zhì)量的3D物體。

架構(gòu)設(shè)計(jì)

使用NeRF作為3D物體的表示,它可以通過(guò)神經(jīng)網(wǎng)絡(luò)從2D圖像中重建出物體的3D結(jié)構(gòu)。

利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,以在生成過(guò)程中動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)的參數(shù)。

模塊設(shè)計(jì)

生成器:使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,該生成器接受高斯噪聲作為輸入,并輸出NeRF網(wǎng)絡(luò)的權(quán)重。通過(guò)從噪聲向量中生成網(wǎng)絡(luò)的權(quán)重來(lái)實(shí)現(xiàn)動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)的能力。

NeRF網(wǎng)絡(luò):接受空間位置作為輸入,并輸出物體的顏色和密度信息。通過(guò)學(xué)習(xí)從2D圖像到3D物體的映射關(guān)系,可以重建物體的顏色和密度信息。

鑒別器:使用StyleGAN2架構(gòu)作為鑒別器,用于區(qū)分真實(shí)圖像和生成圖像的差異。鑒別器使用對(duì)抗學(xué)習(xí)的思想,通過(guò)訓(xùn)練來(lái)學(xué)習(xí)將真實(shí)圖像與生成圖像區(qū)分開(kāi)來(lái)的能力。

設(shè)計(jì)原理

NeRF表示:NeRF網(wǎng)絡(luò)通過(guò)從2D圖像中學(xué)習(xí)生成物體的3D表示,能夠?qū)崿F(xiàn)高質(zhì)量的物體重建。

HyperNetworks:HyperNetworks是一個(gè)生成網(wǎng)絡(luò)權(quán)重的方法,它可以根據(jù)輸入的噪聲來(lái)生成網(wǎng)絡(luò)的參數(shù),使得網(wǎng)絡(luò)可以根據(jù)不同的輸入生成不同的結(jié)果。

實(shí)現(xiàn)過(guò)程

訓(xùn)練階段:使用未標(biāo)記的2D圖像和StyleGAN2鑒別器進(jìn)行訓(xùn)練。生成器通過(guò)對(duì)噪聲向量進(jìn)行采樣和變換來(lái)生成NeRF網(wǎng)絡(luò)的權(quán)重。生成的2D圖像被用作鑒別器的 "fake" 圖像,生成器的目標(biāo)是欺騙鑒別器。

生成階段:在生成階段,使用生成器生成NeRF網(wǎng)絡(luò)的權(quán)重,然后使用NeRF網(wǎng)絡(luò)從2D圖像中重建出3D物體。

該方法的好處包括:

無(wú)需額外的深度信息或大量的3D數(shù)據(jù)集,只需要2D圖像即可生成3D物體,降低了數(shù)據(jù)收集的難度和成本。

NeRF表示能夠捕捉到物體的細(xì)節(jié)和視角變化,生成的3D物體具有高質(zhì)量和準(zhǔn)確性。

使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,可以靈活地生成不同的3D物體,具有較強(qiáng)的泛化能力。

模型結(jié)構(gòu)簡(jiǎn)單且適用于三維物體訓(xùn)練,生成過(guò)程直接、高效。

摘要

最近,3D對(duì)象的生成模型在VR和增強(qiáng)現(xiàn)實(shí)應(yīng)用中越來(lái)越受歡迎。

使用標(biāo)準(zhǔn)的3D表示(如體素或點(diǎn)云)來(lái)訓(xùn)練這些模型是具有挑戰(zhàn)性的,并且需要復(fù)雜的工具來(lái)進(jìn)行適當(dāng)?shù)念伾秩尽?/p>

為了克服這一限制,神經(jīng)輻射場(chǎng)(NeRF)在從一小部分2D圖像合成復(fù)雜3D場(chǎng)景的新視圖方面提供了最先進(jìn)的質(zhì)量。

在本文中,作者提出了一個(gè)生成模型HyperNeRFGAN,它使用超網(wǎng)絡(luò)范式來(lái)生成由NeRF表示的三維物體。

我們的GAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF模型的權(quán)重。該模型進(jìn)一步用于呈現(xiàn)2D新視圖,并使用經(jīng)典的2D鑒別器來(lái)訓(xùn)練整個(gè)基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像,但我們使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對(duì)象。

該模型相對(duì)于現(xiàn)有方法的優(yōu)勢(shì)在于,它為對(duì)象生成專(zhuān)用的NeRF表示,而無(wú)需共享呈現(xiàn)組件的某些全局參數(shù)。在來(lái)自不同領(lǐng)域的三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上,展示了與參考基線相比,作者的方法的優(yōu)越性。

e4c0aa22-0a3e-11ee-962d-dac502259ad0.png

圖1 HyperNeRFGAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)化為NeRF模型的權(quán)重。

在此基礎(chǔ)上,利用NeRF渲染二維新視圖,并使用經(jīng)典的二維鑒別器。

架構(gòu)產(chǎn)生2D圖像,但作者使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對(duì)象。

一、引言

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)使我們能夠生成高質(zhì)量的2D圖像。另一方面,為3D對(duì)象保持類(lèi)似的質(zhì)量是具有挑戰(zhàn)性的。這主要是由于使用3D表示(如體素和點(diǎn)云) 需要大量的深層架構(gòu),并且在真正的顏色渲染方面存在問(wèn)題。

我們可以通過(guò)直接在 2D 圖像空間上操作來(lái)解決這個(gè)問(wèn)題。

我們希望我們的方法能夠從未標(biāo)記的2D視圖中提取信息以獲得3D形狀。

為了獲得這樣的效果,我們可以使用神經(jīng)輻射場(chǎng)(NeRF),它允許從一小部分2D圖像合成復(fù)雜3D場(chǎng)景的新視圖。

基于這些基礎(chǔ)圖像與計(jì)算機(jī)圖形學(xué)原理(如光線追蹤)之間的關(guān)系,該神經(jīng)網(wǎng)絡(luò)模型可以從以前未見(jiàn)過(guò)的視點(diǎn)渲染高質(zhì)量的3D物體圖像。

不幸的是,如何在 GAN 類(lèi)型架構(gòu)中使用NeRF表示并不是容易解決的。

最具挑戰(zhàn)性的問(wèn)題與NeRF的調(diào)節(jié)機(jī)制有關(guān)。因此,大多數(shù)模型使用SIREN而不是NeRF,我們可以自然地添加條件。但是3D物體的質(zhì)量卻比NeRF差。

在GRAF和π-GAN中,作者提出一個(gè)使用SIREN和調(diào)節(jié)作用機(jī)制產(chǎn)生隱式表征的模型。這樣的解決方案給出了有希望的結(jié)果,但如何在這樣的解決方案中使用NeRF而不是SIREN并不是容易解決的。

在圖2中,對(duì)模型、GRAF和π-GAN進(jìn)行了定性比較。正如我們所看到的,我們的模型可以模擬玻璃的透明度。

在本文中,作者提出了一種稱(chēng)為HyperNeRFGAN的生成模型,它結(jié)合了超網(wǎng)絡(luò)范式和NeRF表示。

超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨(dú)目標(biāo)網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型。基于GAN的模型,利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重(見(jiàn)圖1)。

之后,通過(guò)NeRF渲染2D新視圖,并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個(gè)基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像,但我們使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對(duì)象。

本文的貢獻(xiàn)包括:

作者介紹了基于NeRF的隱式GAN架構(gòu)——第一個(gè)用于生成高質(zhì)量3D NeRF表示的GAN模型。

作者表明,與基于 SIREN 的架構(gòu)相比,利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。

作者的模型允許從無(wú)監(jiān)督的2D圖像合成3D感知圖像。

e4eeff58-0a3e-11ee-962d-dac502259ad0.png

圖2 HyperNeRFGAN與HoloGAN、GRAF、π-GAN在CARLA上的比較。得到了與π-GAN相似的結(jié)果,但作者有更好的FID評(píng)分值,見(jiàn)表2。

二、相關(guān)背景

神經(jīng)表示和渲染

3D物體可以使用許多不同的方法來(lái)表示,包括體素網(wǎng)格、八樹(shù)網(wǎng)格、多視圖圖像、點(diǎn)云、幾何圖像、可變形網(wǎng)格和基于部件的結(jié)構(gòu)圖。上述表示是謹(jǐn)慎的,這在實(shí)際應(yīng)用中會(huì)引起一些問(wèn)題。相反,我們可以將三維物體表示為連續(xù)函數(shù)。

在實(shí)踐中,隱性占用,距離場(chǎng)和表面參數(shù)化模型使用神經(jīng)網(wǎng)絡(luò)來(lái)參數(shù)化3D對(duì)象。

在這種情況下,我們沒(méi)有固定數(shù)量的體素、點(diǎn)或頂點(diǎn),而是將形狀表示為連續(xù)函數(shù)。

這些模型受限于對(duì) ground truth 三維幾何的訪問(wèn)要求。隱式神經(jīng)表征(NIR)被提出來(lái)解決這一問(wèn)題。這種架構(gòu)可以從多視圖二維圖像中重建三維結(jié)構(gòu)。兩種最重要的方法是NeRF和SIREN。

NeRF使用體渲染來(lái)重建3D場(chǎng)景,使用神經(jīng)輻射和密度場(chǎng)來(lái)合成新的視圖。

SIREN用調(diào)制頻率的正弦函數(shù)取代了流行的ReLU激活函數(shù)。

大多數(shù)NeRF和基于SIREN的方法專(zhuān)注于單個(gè)3D對(duì)象或場(chǎng)景。

在實(shí)踐中,我們過(guò)擬合單個(gè)對(duì)象或場(chǎng)景。在論文中,作者專(zhuān)注于生成以NeRF表征的3D模型。

單視圖監(jiān)督的 3D 感知 GAN

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)可以生成高質(zhì)量的圖像。然而,GAN在二維圖像上運(yùn)行,而忽略了我們物理世界的三維本質(zhì)。因此,利用物體的三維結(jié)構(gòu)來(lái)生成圖像和三維物體是很重要的。

3D感知圖像合成的第一種方法,如Visual Object Networks和 prGAN,首先使用3D- GAN生成體素化的3D形狀,然后將其投影到2D中。

hooloGAN和BlockGAN在類(lèi)似的融合中工作,但使用隱式3D表示來(lái)建模世界的3D表示。不幸的是,使用顯式的體積表示限制了它們的分辨率。

在[36]中,作者提出使用網(wǎng)格來(lái)表示三維幾何。另一方面,文獻(xiàn)[15]使用基元集合進(jìn)行圖像合成。

在GRAF和π-GAN中,作者使用隱式神經(jīng)輻射場(chǎng)生成3D感知圖像和幾何圖形。

在作者的工作中,使用NeRF代替SIREN,使用超網(wǎng)絡(luò)范式代替條件反射過(guò)程。

在ShadeGAN中,作者使用了陰影引導(dǎo)的pipeline;

在GOF中,他們逐漸縮小了每條相機(jī)光線的采樣區(qū)域。

而在CIRAFFE種,首先生成低分辨率的特征圖。

在第二步中,將表示傳遞給2D CNN,以生成更高分辨率的輸出。

在StyleSDF中,作者將基于SDF的3D表示與用于圖像生成的StyleGAN2合并。

在[1]中,作者使用StyleGAN2生成器和三維物體的三平面表示。

這些方法在生成對(duì)象的質(zhì)量上優(yōu)于其他方法,但極難訓(xùn)練。

超網(wǎng)絡(luò)+生成建模

超網(wǎng)絡(luò)和生成模型的結(jié)合并不新鮮。

在[29,8]中,作者構(gòu)建了GAN來(lái)生成用于回歸或分類(lèi)任務(wù)的神經(jīng)網(wǎng)絡(luò)的參數(shù)。

HyperVAE通過(guò)生成給定分布樣本的生成模型參數(shù),對(duì)任意目標(biāo)分布進(jìn)行編碼。

HCNAF是一個(gè)超網(wǎng)絡(luò),產(chǎn)生了條件自回歸流動(dòng)模型的參數(shù)。

在[34]中,作者提出INR-GAN使用超網(wǎng)絡(luò)生成圖像的連續(xù)表示。該超網(wǎng)絡(luò)可以通過(guò)因數(shù)乘調(diào)制的低成本機(jī)制來(lái)修改共享權(quán)值。

e515c50c-0a3e-11ee-962d-dac502259ad0.png

圖3 在ShapeNet的三種類(lèi)型(汽車(chē)、飛機(jī)、椅子)上由模型訓(xùn)練生成的元素。

三、HyperNeRFGAN: 用于生成NeRF表示的超網(wǎng)絡(luò)

在本節(jié)中,介紹了HyperNeRFGAN——一種用于3D對(duì)象的新型生成模型。該方法的主要思想是將生成器作為一個(gè)超網(wǎng)絡(luò),將從已知分布中采樣的噪聲向量轉(zhuǎn)換為目標(biāo)模型的權(quán)值。

與以往的作品相比,目標(biāo)模型采用NeRF對(duì)對(duì)象進(jìn)行三維表示。因此,可以以可控的方式從不同角度生成物體的許多圖像。

此外,由于基于NeRF的圖像渲染,與基于GAN的復(fù)雜3D結(jié)構(gòu)模型相比,鑒別器可以在從多個(gè)角度生成的2D圖像上運(yùn)行。

超網(wǎng)絡(luò)

超網(wǎng)絡(luò)中介紹的超網(wǎng)絡(luò)被定義為神經(jīng)模型,用于預(yù)測(cè)為解決特定任務(wù)而設(shè)計(jì)的不同目標(biāo)網(wǎng)絡(luò)的權(quán)重。

與使用單個(gè)嵌入將附加信息注入目標(biāo)模型的標(biāo)準(zhǔn)方法相比,這種方法減少了可訓(xùn)練參數(shù)的數(shù)量。可以實(shí)現(xiàn)目標(biāo)模型大小的顯著減小,因?yàn)樗还蚕砣謾?quán)重,但它們由超網(wǎng)絡(luò)返回。

sheikh 作者將超網(wǎng)絡(luò)和生成模型進(jìn)行了類(lèi)比,使用這種機(jī)制來(lái)生成一組近似相同函數(shù)的不同目標(biāo)網(wǎng)絡(luò)。

超網(wǎng)絡(luò)廣泛應(yīng)用于許多領(lǐng)域,包括 few-shot 問(wèn)題或概率回歸場(chǎng)景。各種方法也使用它們來(lái)生成3D對(duì)象的連續(xù)表示。

例如,HyperCloud 將3D點(diǎn)云表示為一個(gè)經(jīng)典的MLP,作為目標(biāo)模型,并將點(diǎn)從高斯球上的均勻分布轉(zhuǎn)換為代表所需形狀的點(diǎn)云。

在spurek 中,目標(biāo)模型由連續(xù)歸一化流(Continuous Normalizing Flow) 表示,這是一種生成模型,它根據(jù)假定的三維空間中的基本分布創(chuàng)建點(diǎn)云。

GAN

GAN 是一個(gè)使用極大極小博弈來(lái)訓(xùn)練深度生成模型的框架。目標(biāo)是學(xué)習(xí)一個(gè)與實(shí)際數(shù)據(jù)分布 匹配的生成器分布 。

GAN學(xué)習(xí)一個(gè)生成器網(wǎng)絡(luò) ,通過(guò)將噪聲變量 (通常是高斯噪聲 ) 轉(zhuǎn)換為樣本 ,從生成器分布 中產(chǎn)生樣本。

生成器通過(guò)對(duì)抗一個(gè)對(duì)抗鑒別器網(wǎng)絡(luò)來(lái)學(xué)習(xí),目的是區(qū)分真實(shí)數(shù)據(jù)分布 和生成器分布 的樣本。

更正式地說(shuō),極大極小博弈由下式給出:

與其他方法相比,它的主要優(yōu)點(diǎn)是產(chǎn)生與真實(shí)圖像難以區(qū)分的清晰圖像。

從模型中采樣的圖像的視覺(jué)質(zhì)量方面,GAN令人印象深刻,但訓(xùn)練過(guò)程通常具有挑戰(zhàn)性和不穩(wěn)定性。

這種現(xiàn)象的產(chǎn)生是由于訓(xùn)練目標(biāo)的直接優(yōu)化難以實(shí)現(xiàn),通常是通過(guò)交替優(yōu)化鑒別器和生成器的參數(shù)來(lái)訓(xùn)練模型。

近年來(lái),許多研究人員致力于改進(jìn)傳統(tǒng)的GAN過(guò)程,以提高訓(xùn)練過(guò)程的穩(wěn)定性。

一些改進(jìn)是基于將目標(biāo)函數(shù)改為WGAN (WGAN) 、梯度懲罰限制、譜歸一化或生成器和判別器的不平衡學(xué)習(xí)率。

通過(guò)利用自注意力機(jī)制(SAGAN)和逐步增長(zhǎng)的ProGAN、style-GAN架構(gòu)(StyleGAN ),對(duì)模型架構(gòu)進(jìn)行了更深入的探索。

INR-GAN

隱式神經(jīng)表示GAN是基于GAN的模型的一種變體,它利用超網(wǎng)絡(luò)為目標(biāo)模型生成參數(shù),而不是直接生成圖像

由簡(jiǎn)單MLP表示的目標(biāo)模型以RGB格式返回給定像素位置的顏色。

該模型在架構(gòu)上非常接近StyleGAN2,并且比直接方法具有明顯的優(yōu)勢(shì),主要是因?yàn)?strong>使用INR-GAN可以在不假設(shè)任意給定分辨率的情況下生成圖像。

3D對(duì)象的NeRF表示

NeRF表示使用全連接架構(gòu)的場(chǎng)景。NeRF以5D坐標(biāo)(空間位置 ,觀察方向 作為輸入,輸出發(fā)射顏色 和體積密度 。

NeRF使用一組圖像進(jìn)行訓(xùn)練。在這種情況下,我們產(chǎn)生許多光線通過(guò)圖像和由神經(jīng)網(wǎng)絡(luò)表示的3D對(duì)象。NeRF用MLP網(wǎng)絡(luò)近似這個(gè)3D對(duì)象:

并優(yōu)化其權(quán)重,將每個(gè)輸入5D坐標(biāo)映射到相應(yīng)的體積密度和方向發(fā)射顏色。

NeRF的丟失受到經(jīng)典體渲染的啟發(fā)。渲染通過(guò)場(chǎng)景的所有光線的顏色。體積密度 可以解釋為射線的微分概率。相機(jī)射線 的期望顏色 (其中o為射線原點(diǎn),d為方向)可以用積分計(jì)算。

在實(shí)際中,這個(gè)連續(xù)積分是用求積分法在數(shù)值上估計(jì)的。我們使用分層抽樣方法,將射線 劃分為個(gè)均勻間隔的 bins,然后從每個(gè) bin 內(nèi)均勻隨機(jī)抽取一個(gè)樣本:

我們使用這些樣本來(lái)估計(jì) ,使用Max在體積渲染中討論的正交規(guī)則:

,

其中,

其中 為相鄰樣本間的距離。

從 值的集合計(jì)算 的函數(shù)是平凡可微的。

然后,我們使用體渲染過(guò)程來(lái)渲染來(lái)自兩組樣本的每條光線的顏色。與基線NeRF相反,其中兩個(gè)“粗”和“細(xì)”模型同時(shí)訓(xùn)練,我們只使用“粗”架構(gòu)。

3.1 HyperNeRFGAN

在這項(xiàng)工作中,作者提出了一種新的GAN架構(gòu),HyperNeRFGAN,用于生成3D表示。所提出的方法利用INR-GAN,隱式方法來(lái)生成樣本。

與使用MLP模型創(chuàng)建輸出圖像的標(biāo)準(zhǔn)INR-GAN架構(gòu)相比,假設(shè)使用NeRF模型作為目標(biāo)網(wǎng)絡(luò)。由于這種方法,生成器通過(guò)傳遞特定的NeRF參數(shù)來(lái)創(chuàng)建場(chǎng)景或?qū)ο蟮奶囟?D表示。

模型架構(gòu),如圖1所示。

生成器 從假定的基本分布(高斯分布)中獲取樣本,并返回一組參數(shù) 。

這些參數(shù)在NeRF模型 中進(jìn)一步使用,將空間位置 轉(zhuǎn)換為發(fā)射顏色 和體積密度 。

沒(méi)有使用標(biāo)準(zhǔn)的線性架構(gòu),而是使用因數(shù)乘調(diào)制(FMM)層。

輸入尺寸為 ,輸出尺寸為 的FMM層定義為:

其中 W 和 b 是在三維表示中共享參數(shù)的矩陣,A, b是由生成器創(chuàng)建的形狀分別為 的兩個(gè)調(diào)制矩陣。

參數(shù) k 控制著 的秩。

值越高,F(xiàn)MM層的表達(dá)能力越強(qiáng),但也會(huì)增加超網(wǎng)絡(luò)所需的內(nèi)存量。

我們?cè)O(shè)置為 。

INR模型 是基準(zhǔn)NeRF的簡(jiǎn)化版本。為了減少訓(xùn)練的計(jì)算成本,我們沒(méi)有像原始NeRF那樣優(yōu)化兩個(gè)網(wǎng)絡(luò)。

我們沒(méi)有使用較大的“精細(xì)”網(wǎng)絡(luò),只使用較小的“粗糙”網(wǎng)絡(luò)。

此外,我們通過(guò)將每個(gè)隱藏層中的通道數(shù)量從 256 個(gè)減少到 128 個(gè)來(lái)減小“粗”網(wǎng)絡(luò)的大小。

在一些實(shí)驗(yàn)中,我們還將層數(shù)從8層減少到4層。

e53b8828-0a3e-11ee-962d-dac502259ad0.png

圖4 用ShapeNet(前三行)和CARL數(shù)據(jù)集(最后兩行)的汽車(chē)、飛機(jī)和椅子圖像訓(xùn)練的模型生成的線性插值示例。

e5664f0e-0a3e-11ee-962d-dac502259ad0.png

圖5 在CARLA上訓(xùn)練的模型的例子。

我們與基線NeRF在另一個(gè)方面有所不同,因?yàn)槲覀儾皇褂靡晥D方向。

這是因?yàn)橛糜谟?xùn)練的圖像沒(méi)有像反射這樣的依賴于視圖的特征。

即使在我們的架構(gòu)中沒(méi)有使用視圖方向,也沒(méi)有理由不能將其用于將從中受益的數(shù)據(jù)集。

我們的NeRF是一個(gè)單一的MLP,它只接受空間位置作為輸入:

在這項(xiàng)工作中,我們利用StyleGAN2架構(gòu),遵循INR-GAN的設(shè)計(jì)模式。整個(gè)模型使用StyleGANv2目標(biāo)以與INR-GAN相似的方式進(jìn)行訓(xùn)練。

在每次訓(xùn)練迭代中,使用生成器對(duì)噪聲向量進(jìn)行采樣和變換,得到目標(biāo)NeRF模型 的權(quán)值。進(jìn)一步利用目標(biāo)模型從不同角度渲染二維圖像。

生成的2D圖像進(jìn)一步作為鑒別器的 fake 圖像,生成器G的作用是創(chuàng)建3D表示渲染2D圖像,欺騙鑒別器。

鑒別器旨在從數(shù)據(jù)分布中區(qū)分假渲染和真實(shí)的2D圖像。

e56f2a5c-0a3e-11ee-962d-dac502259ad0.png

圖6 在CARLA數(shù)據(jù)集上訓(xùn)練的模型和在ShapeNet的飛機(jī)和椅子上訓(xùn)練的模型生成的網(wǎng)格。

四、實(shí)驗(yàn)

在本節(jié)中,首先評(píng)估了HyperNeRFGAN生成3D物體的質(zhì)量。使用的數(shù)據(jù)集包含從ShapeNet獲得的3D物體的2D圖像。

該數(shù)據(jù)集包含來(lái)自平面、椅子和汽車(chē)類(lèi)的每個(gè)元素的50張圖像。這是最適合我們目的的數(shù)據(jù)集,因?yàn)槊總€(gè)對(duì)象都有每個(gè)元素的一些圖像。

然后使用包含汽車(chē)圖像的CARLA。在這種情況下,每個(gè)物體只有一張圖像,但仍然有物體四面八方的照片。可以制作完整的3D物體,可以用于虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)。

最后,使用了包含人臉的經(jīng)典CelebA數(shù)據(jù)集。從3D生成的角度來(lái)看,這是具有挑戰(zhàn)性的,因?yàn)槲覀冎挥心槻康恼妗T趯?shí)踐中,基于3D的生成模型可用于3D感知圖像合成。

4.1 從ShapeNet生成3D對(duì)象

在第一個(gè)實(shí)驗(yàn)中,使用ShapeNet基礎(chǔ)數(shù)據(jù)集,其中包含來(lái)自平面、椅子和汽車(chē)類(lèi)的每個(gè)元素的50張圖像。這種表示對(duì)于訓(xùn)練3D模型來(lái)說(shuō)是完美的,因?yàn)槊總€(gè)元素都可以從許多角度看到。數(shù)據(jù)取自[42],作者訓(xùn)練了一個(gè)基于自動(dòng)編碼器的生成模型。

在圖3中,展示了從我們的模型生成的對(duì)象。

在圖4中,也給出了對(duì)象的線性插值。可以看到,物品的質(zhì)量非常好,見(jiàn)表1。

表1 基于FID的HyperNeRFGAN與基于自編碼器的模型的比較。GAN與自編碼器和GAN之間的比較是困難的。但我們可以獲得更好的FID評(píng)分。

e58cc6ca-0a3e-11ee-962d-dac502259ad0.png

4.2 從CARLA數(shù)據(jù)集生成三維物體

在第二個(gè)實(shí)驗(yàn)中,我們將基于CARLA數(shù)據(jù)集的模型與其他基于GAN的模型: HoloGAN、GRAF和πGAN進(jìn)行了比較。

CARLA包含汽車(chē)圖像。每個(gè)物體只有一張圖像,但我們?nèi)匀挥形矬w四面八方的照片。因此,全3D對(duì)象可以用于VR或增強(qiáng)現(xiàn)實(shí)。

在圖2中給出了視覺(jué)對(duì)比。如圖5所示,我們可以有效地模擬汽車(chē)玻璃的透明度。

在表2中,給出了Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)的數(shù)值比較。可以看出,我們得到了比π-GAN模型更好的結(jié)果。

在NeRF表示的情況下,我們可以生成網(wǎng)格,見(jiàn)圖6。

表2 CARLA 數(shù)據(jù)集上的FID, KID 和 IS。

e5a323fc-0a3e-11ee-962d-dac502259ad0.png

4.3從CelebA合成3D感知圖像

在作者的第三個(gè)實(shí)驗(yàn)中,通過(guò)將設(shè)置更改為人臉生成,進(jìn)一步比較了與第二個(gè)實(shí)驗(yàn)相同的模型。

對(duì)于這項(xiàng)任務(wù),我們使用CelebA數(shù)據(jù)集,該數(shù)據(jù)集包含10,000名不同名人的200,000張高分辨率人臉圖像。

我們將圖像從頭發(fā)的頂部裁剪到下巴的底部,并將其大小調(diào)整為 的分辨率,就像π-GAN作者所做的那樣。

在表3中給出了定量結(jié)果。可以看到,HyperNeRFGAN和π-GAN實(shí)現(xiàn)了相似的性能,如圖7所示。

表3 CelebA數(shù)據(jù)集的FID, KID mean×100和IS。

e6076bc8-0a3e-11ee-962d-dac502259ad0.png

五、總結(jié)

在這項(xiàng)工作中,作者提出了一種從2D圖像生成NeRF表示的新方法。模型利用了超網(wǎng)絡(luò)范式和3D場(chǎng)景的NeRF表示。

HyperNeRFGAN接受高斯噪聲并返回NeRF網(wǎng)絡(luò)的權(quán)重,NeRF網(wǎng)絡(luò)可以從2D圖像中重建3D物體。

在訓(xùn)練中,作者只使用未標(biāo)記的圖像和StyleGAN2鑒別器。與現(xiàn)有的方法相比,這種表示有幾個(gè)優(yōu)點(diǎn)。

首先,可以在GAN類(lèi)型算法中使用NeRF代替SIREN表示。

其次,模型簡(jiǎn)單,可以在三維物體上進(jìn)行有效的訓(xùn)練。

最后,模型直接生成NeRF對(duì)象,而不共享渲染組件的一些全局參數(shù)。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2943

    瀏覽量

    109162
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2138

    瀏覽量

    75831
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3464

    瀏覽量

    49837

原文標(biāo)題:3D 對(duì)象生成 | NeRF+GAN的超網(wǎng)絡(luò):HyperNeRFGAN

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    mysql轉(zhuǎn)換具體描述

    mysql 轉(zhuǎn)換問(wèn)題
    發(fā)表于 08-13 06:07

    2D解析

    《Fundamentals of Computer Graphics》翻譯(三):2D直線
    發(fā)表于 09-03 12:19

    華人團(tuán)隊(duì)打造專(zhuān)為GAN量身定制架構(gòu)搜索方案AutoGAN

    生成對(duì)抗網(wǎng)絡(luò)(GAN)自其誕生以來(lái)一直盛行。它的一個(gè)最顯著的成功在于是用各種各樣的卷積結(jié)構(gòu)生成逼真的自然圖像。 近年來(lái),人們對(duì)自動(dòng)設(shè)計(jì)復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生了濃厚的興趣。神經(jīng)架構(gòu)搜索(NAS)已經(jīng)
    發(fā)表于 11-30 07:29

    基于NTFS的最小侵入寫(xiě)系統(tǒng)

    為實(shí)現(xiàn)高效安全的信息存儲(chǔ),在分析訪問(wèn)權(quán)限控制與加密技術(shù)等數(shù)據(jù)保護(hù)措施及現(xiàn)有文件寫(xiě)系統(tǒng)的基礎(chǔ)上,提出基于NTFS文件系統(tǒng)的最小侵入寫(xiě)系統(tǒng)。該系統(tǒng)可作為NTFS文件系統(tǒng)
    發(fā)表于 03-31 10:30 ?17次下載

    基于PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時(shí)延補(bǔ)償方法

    基于PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時(shí)延補(bǔ)償方法_田中大
    發(fā)表于 01-07 18:21 ?0次下載

    基于顯反饋信息的矩陣分解

    針對(duì)現(xiàn)有的基于用戶顯反饋信息的推薦系統(tǒng)推薦準(zhǔn)確率不高的問(wèn)題,提出了一種基于顯反饋信息的概率矩陣分解推薦方法。該方法綜合考慮了顯示反饋信息和
    發(fā)表于 01-04 16:22 ?0次下載

    結(jié)合顯特征交互的融合模型

    特征工程是影響杋器茡習(xí)算法性能的關(guān)鍵因素之一,隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的擴(kuò)大,傳統(tǒng)特征工程的人力成本不斷増加。為減少對(duì)特征工程的依賴,構(gòu)建一種結(jié)合顯特征交互的融合模型。將稀疏結(jié)構(gòu)單元與殘差單元
    發(fā)表于 05-12 16:13 ?5次下載

    基于機(jī)器學(xué)習(xí)的中文實(shí)體關(guān)系抽取方法

    基于機(jī)器學(xué)習(xí)的中文實(shí)體關(guān)系抽取方法
    發(fā)表于 06-02 14:42 ?4次下載

    Block nerf:可縮放的大型場(chǎng)景神經(jīng)視圖合成

    為了在大場(chǎng)景中應(yīng)用神經(jīng)輻射場(chǎng)(NeRF)模型,文章提出將大型場(chǎng)景分解為相互重疊的子場(chǎng)景 (block),每一個(gè)子場(chǎng)景分別訓(xùn)練,在推理時(shí)動(dòng)態(tài)結(jié)合相鄰 Block-NeRF 的渲染視圖。
    的頭像 發(fā)表于 10-19 15:15 ?1814次閱讀

    基于Qt 5.15源碼來(lái)聊聊共享

    在實(shí)際開(kāi)發(fā)中,Qt中很多類(lèi)可以直接作為函數(shù)參數(shù)傳遞,這是為什么?其背后的實(shí)現(xiàn)機(jī)制又是什么?這些都?xì)w功于共享
    的頭像 發(fā)表于 02-12 16:52 ?1073次閱讀

    從多視角圖像做三維場(chǎng)景重建 (CVPR'22 Oral)

    最近,有方法提出基于神經(jīng)表示做三維重建。NeRF [3] 通過(guò)可微分的體積渲染技術(shù)從圖像中學(xué)習(xí)輻射場(chǎng)。
    的頭像 發(fā)表于 02-20 10:11 ?3272次閱讀

    了解NeRF 神經(jīng)輻射場(chǎng)

    介紹 NeRF( Neural Radiance Fields )是一種先進(jìn)的計(jì)算機(jī)圖形學(xué)技術(shù),能夠生成高度逼真的3D場(chǎng)景。它通過(guò)深度學(xué)習(xí)的方法從2D圖片中學(xué)習(xí),并生成連續(xù)的3D場(chǎng)景模型。NeRF
    的頭像 發(fā)表于 06-12 09:52 ?6602次閱讀
    了解<b class='flag-5'>NeRF</b> 神經(jīng)輻射場(chǎng)

    pipeline高端玩法之Stage里的轉(zhuǎn)換

    Scala里面的轉(zhuǎn)換的好處是靈活,壞處就是太靈活。
    的頭像 發(fā)表于 08-19 10:45 ?844次閱讀
    pipeline高端玩法之Stage里的<b class='flag-5'>隱</b><b class='flag-5'>式</b>轉(zhuǎn)換

    NeurlPS&apos;23開(kāi)源 | 大規(guī)模室外NeRF也可以實(shí)時(shí)渲染

    神經(jīng)輻射場(chǎng) (NeRF)是一種新穎的三維重建方法,顯示出巨大的潛力,受到越來(lái)越多的關(guān)注。它能夠僅從一組照片中重建3D場(chǎng)景。然而,它的實(shí)時(shí)渲染能力,尤其是對(duì)于大規(guī)模場(chǎng)景的交互實(shí)時(shí)渲
    的頭像 發(fā)表于 11-08 16:41 ?1243次閱讀
    NeurlPS&apos;23開(kāi)源 | 大規(guī)模室外<b class='flag-5'>NeRF</b>也可以實(shí)時(shí)渲染

    全面總結(jié)動(dòng)態(tài)NeRF

    1. 摘要 神經(jīng)輻射場(chǎng)(NeRF)是一種新穎的方法,可以實(shí)現(xiàn)高分辨率的三維重建和表示。在首次提出NeRF的研究之后,NeRF獲得了強(qiáng)大的
    的頭像 發(fā)表于 11-14 16:48 ?850次閱讀
    全面總結(jié)動(dòng)態(tài)<b class='flag-5'>NeRF</b>
    主站蜘蛛池模板: 午夜免费福利影院 | 极品美女啪啪 | 四虎永久影院 | 日本口工福利漫画无遮挡 | 午夜肉伦伦影院 | 美国色天使| 免费无毒片在线观看 | 亚洲综合视频一区 | 五月丁香啪啪 | 色国产视频 | 操操操操操| 天天看天天射天天碰 | 四虎地址8848最新章节 | 欧美成人高清性色生活 | 欧美三级黄色 | 男人的天堂视频网站清风阁 | 天堂资源bt | 视频一区二区免费 | 男男污肉高h坐便器调教 | 五月亭亭免费高清在线 | 欧美午夜视频一区二区三区 | 国产欧美日韩综合精品一区二区 | 在线免费观看一级片 | 久操伊人网 | 99久久伊人 | 天天伊人网 | 一区二区三区四区无限乱码在线观看 | 上色天天综合网 | 8050午夜一级二级全黄 | 欧美色图在线观看 | 久久影院午夜伦手机不四虎卡 | 精品在线一区二区 | 玖玖在线国产精品 | 亚洲一区二区三区精品视频 | 天天射综合网站 | 一级一级女人18毛片 | 黄色在线网 | 一级免费片 | 国产色司机在线视频免费观看 | 狠狠色丁香婷婷第六色孕妇 | 五月婷婷深深爱 |