完美世界官网,好看的言情小说,网络小说排行榜

作者：Lin Yen-Chen， Pete Florence， Jonathan T. Barron， Alberto Rodriguez， Phillip Isola， Tsung-Yi Lin

摘要

我們提出了iNeRF，一個通過 “反轉(zhuǎn) ”神經(jīng)輻射場（NeRF）來進(jìn)行無網(wǎng)格姿勢估計的框架。NeRFs已經(jīng)被證明對合成真實世界場景或物體的逼真的新視圖非常有效。在這項工作中，我們研究了是否可以通過NeRF來應(yīng)用無網(wǎng)格、純RGB的6DoF姿態(tài)估計的分析合成法：給定一個圖像，找到攝像機(jī)相對于三維物體或場景的平移和旋轉(zhuǎn)。我們的方法假定在訓(xùn)練或測試期間沒有物體網(wǎng)格模型可用。從最初的姿勢估計開始，我們使用梯度下降法來最小化從NeRF渲染的像素和觀察到的圖像中的像素之間的殘差。在我們的實驗中，我們首先研究：1）如何在iNeRF的姿勢精化過程中對射線進(jìn)行取樣以收集信息梯度；2）不同批次的射線如何影響合成數(shù)據(jù)集上的iNeRF。然后我們表明，對于來自LLFF數(shù)據(jù)集的復(fù)雜的真實世界場景，iNeRF可以通過估計新的圖像的相機(jī)姿態(tài)和使用這些圖像作為NeRF的額外訓(xùn)練數(shù)據(jù)來改善NeRF。最后，我們展示了iNeRF可以通過反轉(zhuǎn)從單一視圖推斷出的NeRF模型，對RGB圖像進(jìn)行類別級別的物體姿態(tài)估計，包括訓(xùn)練期間未見的物體實例。

主要貢獻(xiàn)

總而言之，我們的主要貢獻(xiàn)如下。

（i）我們表明，iNeRF可以使用NeRF模型來估計具有復(fù)雜幾何形狀的場景和物體的6DoF姿態(tài)，而不需要使用3D網(wǎng)格模型或深度感應(yīng)--只使用RGB圖像作為輸入。

（ii）我們對射線采樣和梯度優(yōu)化的批量大小進(jìn)行了深入研究，以確定iNeRF的穩(wěn)健性和局限性。

（iii）我們表明，iNeRF可以通過預(yù)測更多圖像的相機(jī)姿態(tài)來改善NeRF，這些圖像可以被添加到NeRF的訓(xùn)練集中。

（iv）我們展示了對未見過的物體的類別級姿勢估計結(jié)果，包括一個真實世界的演示。

主要方法

我們現(xiàn)在提出了iNeRF，一個通過 “反轉(zhuǎn) ”訓(xùn)練過的NeRF來執(zhí)行6DoF姿態(tài)估計的框架。讓我們假設(shè)一個場景或物體的NeRF的參數(shù)化Θ已經(jīng)被恢復(fù)，并且相機(jī)的本征是已知的，但是圖像觀測I的相機(jī)位姿T還沒有確定。與NeRF不同的是，NeRF使用一組給定的相機(jī)位姿和圖像觀測值來優(yōu)化Θ，而我們要解決的是在給定權(quán)重Θ和圖像I的情況下恢復(fù)相機(jī)姿勢T的逆問題。

為了解決這個優(yōu)化問題，我們利用NeRF的能力，在NeRF模型的坐標(biāo)框架中采取一些估計的相機(jī)姿勢T∈SE（3），并渲染相應(yīng)的圖像觀察。然后，我們可以使用與NeRF相同的光度損失函數(shù)L，但我們不是通過反向傳播來更新MLP的權(quán)重Θ，而是更新姿勢T以最小化L。雖然倒置NeRF來進(jìn)行姿勢估計的概念可以簡明扼要地說明，但這樣的問題是否可以實際解決到一個有用的程度并不明顯。損失函數(shù)L在SE（3）的6DoF空間上是非凸的，而且全圖像的NeRF渲染在計算上很昂貴，特別是在優(yōu)化程序的循環(huán)中使用。

1.基于梯度的SE（3）優(yōu)化

將Θ定義為經(jīng)過訓(xùn)練的固定的NeRF的參數(shù)，先驗Ti是當(dāng)前優(yōu)化步驟i的估計相機(jī)姿勢，I是觀察到的圖像，L（Ti | I， Θ）是用于訓(xùn)練NeRF中的精細(xì)模型的損失。我們采用基于梯度的優(yōu)化來解決上面方程中定義的先驗T。為了確保在基于梯度的優(yōu)化過程中，估計的姿勢先驗Ti繼續(xù)位于SE（3）流形上，我們用指數(shù)坐標(biāo)為先驗Ti設(shè)置參數(shù)。給定一個從相機(jī)幀到模型幀的初始姿勢估計值先驗T0∈SE（3），我們將先驗Ti表示為：

我們通過MLP對損失函數(shù)進(jìn)行迭代，得到梯度?SθL（e ［S］θT0 |I， Θ），用于更新估計的相對變換。我們使用Adam優(yōu)化器，其學(xué)習(xí)率為指數(shù)衰減。對于每個觀察到的圖像，我們將Sθ初始化到0附近，其中每個元素都是從零均值正態(tài)分布N（0，σ=10-6）中隨機(jī)抽取的。在實踐中，用e［S］θ T0進(jìn)行參數(shù)化，如果利用T0e［S］θ會導(dǎo)致旋轉(zhuǎn)中心在初始估計的中心，而不是在攝像機(jī)幀的中心。這就減輕了優(yōu)化過程中旋轉(zhuǎn)和平移之間的耦合。

2.光線采樣

這里討論了三種采樣方法

隨機(jī)采樣：一個直觀的策略是在圖像平面上隨機(jī)抽取M個像素點{p i x ， piy}M i=0，并計算其對應(yīng)的射線。事實上，NeRF本身在優(yōu)化Θ時就使用了這種策略（假設(shè)不使用圖像批處理）。我們發(fā)現(xiàn)，當(dāng)射線的批處理量b較小時，這種隨機(jī)采樣策略的性能是無效的。大多數(shù)隨機(jī)采樣的像素對應(yīng)于圖像中平坦的、無紋理的區(qū)域，這些區(qū)域在姿勢方面提供的信息很少（這與著名的光圈問題一致）。

興趣特征點采樣：我們提出了興趣點抽樣來指導(dǎo)iNeRF的優(yōu)化，我們首先采用興趣點檢測器來定位觀察圖像中的一組候選像素位置。然后，我們從檢測到的興趣點中抽出M個點，如果檢測到的興趣點不夠多，就回落到隨機(jī)抽樣。雖然這種策略使優(yōu)化收斂得更快，因為引入了較少的隨機(jī)性，但我們發(fā)現(xiàn)它很容易出現(xiàn)局部最小值，因為它只考慮觀察圖像上的興趣點，而不是來自觀察圖像和渲染圖像的興趣點。然而，獲得渲染圖像中的興趣點需要O（HW n）個前向MLP通道，因此在優(yōu)化中使用的成本過高。

興趣特征區(qū)域采樣：為了防止只從興趣點取樣造成的局部最小值，我們建議使用 “興趣區(qū)域 ”取樣，這是一種放寬興趣點取樣的策略，從以興趣點為中心的擴(kuò)張掩模中取樣。在興趣點檢測器對興趣點進(jìn)行定位后，我們應(yīng)用5×5的形態(tài)學(xué)擴(kuò)張進(jìn)行I次迭代以擴(kuò)大采樣區(qū)域。在實踐中，我們發(fā)現(xiàn)當(dāng)射線的批量大小較小時，這樣做可以加快優(yōu)化速度。請注意，如果I被設(shè)置為一個大數(shù)字，興趣區(qū)域采樣就會退回到隨機(jī)采樣。

3.用iNeRF自我監(jiān)督學(xué)習(xí)NeRF

除了使用iNeRF對訓(xùn)練好的NeRF進(jìn)行姿態(tài)估計外，我們還探索使用估計的姿態(tài)來反饋到訓(xùn)練NeRF表示中。具體來說，我們首先根據(jù)一組已知相機(jī)姿勢的訓(xùn)練RGB圖像來訓(xùn)練NeRF，產(chǎn)生NeRF參數(shù)Θtrain。然后，我們使用iNeRF來接收額外的未知姿勢的觀察圖像{Ii}。Ntest i=1，并求解估計姿勢先驗Ti。Ntest i=1。鑒于這些估計的姿勢，我們可以使用自我監(jiān)督的姿勢標(biāo)簽，將加入訓(xùn)練集。這個過程允許NeRF在半監(jiān)督的情況下被訓(xùn)練。

主要結(jié)果

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴