編者按:關(guān)鍵點檢測是許多計算機視覺任務(wù)的基礎(chǔ),如人臉識別、動作檢測和自動駕駛等。而在這屆NIPS上,來自Google AI的Supasorn Suwajanakorn等人帶來了關(guān)于3D關(guān)鍵點檢測的一種新方法:端到端幾何推理。如果你沒聽說過這位一作的名字,沒關(guān)系,你一定見過SIGGRAPH 2017上震驚世界的奧巴馬造假視頻,在那篇論文中,他也是一作.
摘要
本文提出KeypointNet,這是一個端到端的幾何推理框架,可用于學(xué)習(xí)一組優(yōu)化類3D關(guān)鍵點,并對它們進行檢測。給定單個圖像,KeypointNet能針對下游任務(wù)提取優(yōu)化關(guān)鍵點集。我們通過提出一個可微的對象來展示這個關(guān)于3D姿態(tài)估計的框架,它的目的是恢復(fù)同一對象兩個視圖(2D)之間相對姿勢的最佳關(guān)鍵點集,跨視角、跨類發(fā)現(xiàn)幾何和語義一致的關(guān)鍵點。
重要的是,我們發(fā)現(xiàn)這種方法不需要任何基于ground-truth的關(guān)鍵點注釋標記,在使用同一神經(jīng)網(wǎng)絡(luò)架構(gòu)的情況下,它的效果優(yōu)于完全監(jiān)督基線。關(guān)于汽車、椅子和飛機等對象的3D關(guān)鍵點可視化,請看keypointnet.github.io。
簡介
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的研究已經(jīng)證實,特征提取和分類管道的聯(lián)合優(yōu)化可以顯著提升網(wǎng)絡(luò)的對象識別性能。但話雖如此,目前一些解決幾何視覺問題的方法,比如3D重建和shape alignment,它們都包含一個單獨的關(guān)鍵點檢測模塊,在檢測結(jié)果上再運用幾何推理。在本文中,我們探討了一個問題,即能否構(gòu)建一個端到端的幾何推理模型,把關(guān)鍵點直接聯(lián)合優(yōu)化為下游任務(wù)的一組潛在變量。
請設(shè)想這么一個例子:圖像中汽車的3D姿勢問題。按照常規(guī)做法,我們應(yīng)該先檢測所有關(guān)鍵點,然后在幾何推理框架內(nèi)應(yīng)用這些點,恢復(fù)汽車的3D姿勢或某個角度的視圖。實現(xiàn)這一點的手段有很多,比如手動注釋關(guān)鍵點,然后進行監(jiān)督學(xué)習(xí),也可以開發(fā)一組關(guān)鍵點檢測器,盡管這容易出錯。
但這種方法成本太高了,而且關(guān)鍵點的選擇也缺乏一致性和明確性。為了獲得更合理的關(guān)鍵點集,我們應(yīng)該根據(jù)下游任務(wù)的需要,直接優(yōu)化下游任務(wù)需要的關(guān)鍵點,從中獲取獨特性、易于檢測和多樣性等目標關(guān)鍵點屬性。
KeypointNet的效果
首先,我們來看看KeypointNet的具體效果,下面是“飛機”的關(guān)鍵點預(yù)測情況,可以關(guān)注最后一行,尤其是最后兩個。它們的機翼朝向難辨,因此關(guān)鍵點總是變動:
下面是“汽車”:
模型的整體預(yù)測效果很好,但請注意最后一行。其中第二輛車是黑色的,和背景顏色一致,這顯然影響了KeypointNet的預(yù)測效果;而第三輛車之所以也會出現(xiàn)關(guān)鍵點變動,是因為它的車頭和車尾太相似了,讓模型感到迷惑。
上圖是用不同數(shù)量的關(guān)鍵點[3,5,8,10,15,20]訓(xùn)練網(wǎng)絡(luò)的結(jié)果,可以發(fā)現(xiàn)網(wǎng)絡(luò)最先找到的關(guān)鍵點在飛機頭部和機翼,隨著數(shù)量增加,KeypointNet跟蹤的部分更多(顏色是獨立的,和預(yù)測結(jié)果無關(guān))。
以上都是簡單旋轉(zhuǎn)的預(yù)測結(jié)果,那么如果目標對象是個可形變的物體,KeypointNet的穩(wěn)健性會如何?
如這些動圖所示,圖中汽車會動態(tài)扭曲,但還能保持原有形狀。對于這類目標,KeypointNet預(yù)測的關(guān)鍵點還是很穩(wěn)定,效果也很好。
最后,也是最重要的,生成、檢測關(guān)鍵點的作用是用于人臉識別、姿態(tài)估計等任務(wù),那么KeypointNet在現(xiàn)實場景下是否也有上述效果:
上圖右側(cè)是成功預(yù)測關(guān)鍵點的示例,右側(cè)是失敗案例。總體而言,這個模型在大多數(shù)正常汽車圖像上表現(xiàn)出色,但它很難處理自帶廣角畸變的圖像、花紋復(fù)雜的汽車和包含鏡面高光的圖像。
端到端優(yōu)化3D關(guān)鍵點
這一節(jié)是對KeypointNet的概述。
給定已知對象類別中的單個圖像,這個模型可利用像素坐標和相關(guān)聯(lián)的深度值,預(yù)測并生成3D關(guān)鍵點的有序列表。這些關(guān)鍵點需要在幾何上和語義上保持一致,如下圖所示,即便是外形不同的椅子,KeypointNet始終可以使用相同的關(guān)鍵點,而且它們不會隨視角變化發(fā)生變動,也能預(yù)測被遮擋的部分(椅子后腿)。
KeypointNet有N個頭,因此可以提取N個關(guān)鍵點,同一個頭在提取關(guān)鍵點時主要參考語義是否一致。
和完全監(jiān)督學(xué)習(xí)方法相比,這種做法沒有事先定義關(guān)鍵點位置,相反地,它專注于訓(xùn)練時的相對姿態(tài)估計,也就是對于同一目標的兩個2D不同視圖(變換T),找到圖一中的關(guān)鍵點P1和它在圖二中的對應(yīng)關(guān)鍵點P2,用這兩個點構(gòu)建3D關(guān)鍵點列表。如下圖所示:
在訓(xùn)練期間,同一對象的兩個視圖被作為KeypointNet的輸入,已知視圖變換T=(R, t),P1和P2是一致關(guān)鍵點,可以從中提取3D關(guān)鍵點
把兩個關(guān)鍵點合并成一個3D關(guān)鍵點的目標函數(shù)是O(P1, P2),有了它,我們就能可以從圖像到關(guān)鍵點列表的參數(shù)映射。這個目標函數(shù)由兩大關(guān)鍵構(gòu)成:
多視圖一致性損失,用于在已知轉(zhuǎn)換T的情況下,衡量兩組點之間的差異。
相對姿態(tài)估計損失,用于懲罰真實旋轉(zhuǎn)R和P1、P2校正的旋轉(zhuǎn)R?之間的差異。
實驗證明,它們能幫模型發(fā)現(xiàn)重要的關(guān)鍵點,其中有一些甚至和人工特別手動標注的點一致。需要注意的是,這些具有語義意義的關(guān)鍵點不會被直接優(yōu)化,可以它們對于下游任務(wù)可能不是最佳的。
由于論文的閱讀體驗不是很好,具體計算細節(jié),感興趣的讀者可以去原文查看。
-
3D
+關(guān)注
關(guān)注
9文章
2921瀏覽量
108118 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4785瀏覽量
101273 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1701瀏覽量
46168
原文標題:NIPS 2018(oral):通過端到端幾何推理發(fā)現(xiàn)潛在3D關(guān)鍵點
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
方波有源濾波器諧波電流檢測的一種新方法
![方波有源濾波器諧波電流<b class='flag-5'>檢測</b>的<b class='flag-5'>一種</b><b class='flag-5'>新方法</b>](https://file1.elecfans.com//web2/M00/A5/1F/wKgZomUMNwaAOh00AAAX5SgbEkA651.gif)
開發(fā)以3D打印隨選制藥的新方法
3D打印紙基細胞培養(yǎng)裝置,能夠模擬血管并具有無限存放期
科學(xué)家正在研發(fā)3D打印人造器官的新方法
一種復(fù)制和粘貼URL的新方法
一種端到端的立體深度感知系統(tǒng)的設(shè)計
![<b class='flag-5'>一種</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的立體深度感知系統(tǒng)的設(shè)計](https://file1.elecfans.com/web2/M00/88/BE/wKgaomRwafKAJKWHAABkmufOUpY949.png)
評論