三維場景理解與重建技術能夠使計算機對真實場景進行高精度復現并引導機器以三維空間的思維理解整個真實世界,從而使機器擁有足夠智能參與到真實世界的生產與建設,并能通過場景的模擬為人類的決策和生活提供服務。
三維場景理解與重建技術主要包含場景點云特征提取、掃描點云配準與融合、場景理解與語義分割、掃描物體點云補全與細粒度重建等,在處理真實掃描場景時,受到掃描設備、角度、距離以及場景復雜程度的影響,對技術的精準度和穩定性提出了更高的要求,相關的技術也十分具有挑戰性。
其中,原始掃描點云特征提取與配準融合旨在將同場景下多個掃描區域進行特征匹配,從而融合得到完整的場景點云,是理解與重建技術的基石;場景點云的理解與語義分割的目的在于對場景模型進行整體感知并根據語義特征劃分為功能性物體甚至是部件的點云,是整套技術的核心組成部分;后續的物體點云細粒度補全主要研究掃描物體的結構恢復和殘缺部分補全,是場景物體點云細粒度重建的關鍵性技術。
本文圍繞上述系列技術,詳細分析了基于三維點云的場景理解與重建技術相關的應用領域和研究方向,歸結總結了國內外的前沿進展與研究成果,對未來的研究方向和技術發展進行了展望。
00引言
三維場景模型是真實世界在計算機中進行數字化后的具體表征方式,對三維場景模型的研究不僅能夠使機器模仿人類通過三維空間的思維來理解周圍環境,更能夠使機器以智能體的方式參與到真實三維世界的工業生產、城市與交通規劃以及與人體的交互中。
基于三維場景模型研究的核心在于對三維場景的語義理解以及細粒度重建,而點云作為采集設備通用的三維數據形式,常被主流的工作用于表征三維場景模型進行相關研究。
場景點云通常可以通過色彩深度(RGB-D)相機、激光雷達等設備對場景進行掃描來獲得。除此之外,室內場景點云也可以利用即時定位與地圖構建(SLAM)的技術(Hosseinzadeh等,2019),通過相機拍攝的相鄰幀間的圖像估計相機運動,并恢復場景的空間結構來得到。但是通過掃描方法得到的原始點云往往并不完整,需要后續的處理,而后續的掃描點云特征提取與融合主要包括對掃描的原始點云進行點級別的幾何特征提取,以及根據點的特征進行配準從而完成點云的融合。其中的點云配準是從掃描三維數據到完整點云場景模型的核心技術模塊(李建微和占家旺,2022)。
三維場景掃描與配準系列技術可以廣泛應用于真實場景的三維建模以及虛擬混合現實等信息化生產與數字娛樂的應用中。針對不同點云提取特征的主要挑戰在于探索局部點云幾何特征的平移旋轉不變性,找到不同掃描數據中的匹配區域。然而由于掃描設備掃描角度距離存在差異,同時受到離群噪聲點的影響,同一區域的點云也有不同,這會大幅提升特征提取與匹配的難度。
三維場景語義理解的目的是根據語義信息識別場景中不同功能的物體,從而對整個場景進行物體甚至是部件級別的劃分。對場景點云進行語義分割的技術也能直接在機器人與場景物體的交互以及自動駕駛這些場景中得到很好的運用。這個任務所包含的場景特征識別、網絡結構設計、多任務協同以及面對極少標注樣本時的應對技術也都是國內外的研究熱點。然而,三維點云的結構不規則性、不同掃描設備以及距離角度導致的不均勻性使得魯棒的三維特征提取變得十分困難,而對不同三維場景進行精準的語義分割甚至是實例分割也成為了一項十分具有挑戰性的任務(龍霄瀟等,2021)。
物體掃描點云補全的核心作用在于針對遮擋所導致的點云殘缺問題利用已有的大型完整點云數據庫學習完整點云的先驗知識,從而將殘缺的物體點云修復為完整的點云。該類方法可有效修復物體掃描時出現的殘缺,同時能夠在機器人應用中對不可視區域做出合理推理。
針對大型合成三維模型數據集以及真實掃描物體的點云補全受到了國內外的廣泛關注,吸引了眾多學者。此類技術重點研究點云編解碼方式以及跨域跨數據集之間的統一特征學習方法。由于點云本身的非結構化表征方式,仍然缺乏細粒度點云解碼與重建的方法。針對無完整點云的掃描數據,也很難僅憑借合成的完整模型數據集進行掃描點云補全。
01點云特征提取與匹配
隨著深度學習在二維圖像上的廣泛應用,其在三維數據上的拓展取得了不錯的成就。三維數據有多種表示方式,例如體素、網格以及點云等方式。
傳統的深度學習框架得益于二維卷積架構。結合現代并行計算硬件,卷積操作能夠高效地處理規則的數據結構,但圖像缺失的深度信息往往會導致語義歧義性,特別是在極端光照(Tan等,2021)或特殊光路(Tan等,2023)的條件下。
作為在三維數據的拓展,三維卷積應運而生,能夠自然地處理規則化的體素數據。然而,相較于二維圖像,處理體素這種表示方式需要的計算資源呈指數級增長。并且,三維結構是稀疏的,這導致體素這一類表示方式會造成大量的計算資源浪費。面對大場景分析任務時,體素將不再適合。
相反,點云這種無規則表征能夠簡單有效地表示稀疏的三維數據結構,在三維場景理解任務中發揮了重要作用。因此,針對點云的特征提取是面向三維場景分析流程中的重要一環。點云特征提取的技術取得了前所未有的發展。
本節圍繞傳統點云特征提取、深度學習在點云上的初應用、點云卷積、稀疏卷積和點云Transformer介紹點云特征提取的相關研究以及點云特征提取在點云匹配任務下的應用。
1.1 傳統點云特征提取
傳統點云特征提取借助三維點云的局部幾何信息進行編碼生成幾何算子,作為點云局部幾何特征。一個好的三維算子具有一些優秀的性質,如可描述性、緊密性和魯棒性等。其中,可描述性以及魯棒性被認為是三維局部特征算子最重要的屬性。算子是可描述的是指其能夠封裝三維表面中的主導信息內容。
換句話說,算子能夠提供充足的可描述內容來區分兩個不同的表面。算子的魯棒性是指其對于模型引入的噪聲和變化不敏感。在過去幾十年的發展中,研究人員提出了針對不同特性的三維幾何算子。大多數三維局部特征算子都是對局部三維表面的幾何信息進行編碼。
在這些算子中,一部分利用局部幾何統計量來表示局部表面不同的性質。具體來說,通過累計特定域(例如點坐標、幾何屬性)中幾何的或拓撲的量化值(例如點的數量)構建統計直方圖,用于表示幾何特征。這些方法依據統計的類型可以分為空間分布統計算子和幾何屬性統計算子。
基于空間分布統計算子統計了局部區域內點云分布狀態。自旋圖像(SI)算法(Johnson和Hebert,1999)利用給定關鍵點與其法向量構建局部參考坐標軸,并記錄局部區域中任意點到關鍵點切平面內、外的距離作為算子的統計量。
三維形狀上下文特征(3DSC)方法(Frome等,2004)同樣構建參考坐標軸。不同的是,其將局部空間劃分為三維球形網格,通過統計每一個網格中的點數量作為該區域的算子。唯一形狀上下文特征(USC)算法(Tombari等,2010)作為3DSC的一個拓展,通過構建局部坐標參考系,鎖定了參考坐標軸存在的繞軸旋轉的自由度,從而排除了算子歧義性。旋轉投影統計量(RoPS)構建局部參考系(Guo等,2013)。
針對每一坐標軸,RoPS都將點云繞軸旋轉多個離散角度值,并統計點云沿坐標軸的分布圖來得到最終算子。
基于幾何屬性統計算子計算局部表面上點的幾何屬性(例如法向量,曲率)統計直方圖來表示特征。
局部表面補丁(LSP)算法(Chen和Bhanu,2007)通過統計區域內每一點和關鍵點法向量夾角的余弦值來表征幾何特征。
Thrift算法(Flint等,2007)根據與關鍵點之間的偏移角進行劃分,統計不同偏移角度區間點分布情況作為幾何特征。
持久特征直方圖(PFH)算法(Rusu等,2008)依據局部區域任意兩點構成的點對的表面法向量來構建Darboux參考系,通過統計參考系中的距離角度信息作為局部幾何特征。
快速點特征直方圖(FPFH)算法(Rusu等,2009)作為PFH的改進,僅采用中心點與區域中任一點構成的點對計算特征值,降低了計算復雜度。
方向直方圖特征(SHOT)算法(Salti等,2014)首先構建局部參考系,并將局部空間根據半徑、方位角以及仰角劃分為球形網格,統計了每一個網格中點法向量分布,構成最終的算子。
點對特征(PPF)方法(Drost等,2010)依據計算任意點對的距離、法向量之間的夾角以及兩點連線與法向量之間的夾角構成4維特征來表示幾何結構。
1.2 點云深度學習
點云特征提取的先驅是Qi等人(2017a)提出的PointNet。點云數據由于其離散以及不規則性,傳統需要權重共享的卷積操作無法直接應用到點云數據上。
傳統的研究方法將點云轉換到對應的三維體素網格或多視角下的圖像數據,從而可以間接使用卷積操作構建深度網絡結構,提取特征。然而,這種方式會生成龐大而不必要的冗余數據,并引入了許多量化計算,會改變數據原本包含的信息內容。
其實,點云本身是一種簡單統一的表示方式,直接從點云提取特征可以避免不必要以及不規則的組合計算,又可以降低三維結構表征的復雜度。
PointNet是一個統一的點云處理架構,直接以點云數據的三維坐標作為輸入,可以預測完整點云的類別標簽用于點云分類任務,還能夠輸出逐點的語義標簽用于物體部件分割以及場景語意分割等任務。PointNet方法的關鍵技術是利用一個簡單的對稱函數max-pooling,使模型網絡能夠有效學習到一組優化指標。這些指標可以挑選出表示完整點云信息的關鍵特征。同時,對稱函數可以確保輸出的結果與輸入點的排列順序無關。
PointNet最后的全連接層將這些學習優化后的特征值匯聚到一個全局的描述子中用于表示整個點云,可以進一步用于預測逐點的語義標簽。點云的另一個優勢是模型可以輕易地對其進行剛體或仿射變化,因為每一個點的變換是獨立的。于是,PointNet引入一個獨立于數據的空間變換網絡(STN),使PointNet開始處理輸入數據之前,先將輸入數據標準化,從而進一步提升實驗結果。
研究人員對于處理點云數據對稱函數也展開了許多相關研究(Ravanbakhsh等,2017;Zaheer等,2017;Li等,2018a)。
PointNet開創了點云特征提取的先河,學習得到每一個輸入點的空間編碼,然后將各個單獨的點匯總成一個全局點云標志。PointNet設計的全局對稱函數造成其無法捕獲局部的結構信息。
然而,對于局部信息的探索被證實為卷積神經網絡的重要成功因素。一個標準卷積神經網絡可以在逐漸增加的尺度上不斷地提取特征,從而形成一個多尺度的分層架構來獲取不同分辨率下的局部特征。在低層的神經一般具有較小的感受野,在高層的則具有更大的感受野。
為了點云特征提取結構也能夠繼承2維卷積神經網絡的特點,獲取局部幾何信息,Qi等人(2017b)在PointNet基礎上進一步提出了分層結構的PointNet++,首先利用最遠點采樣(FPS)將輸入的點云根據距離標準劃分為若干互相重疊的球形局部區域。
與卷積神經網絡相似,每一個小的局部區域都會用PointNet提取特征,作為細粒度的局部幾何結構表征,同時不同區域可以貢獻特征提取的權重。類似的局部特征會聚集組合到一個更大的幾何單元中,從而處理得到更高層的特征。該步驟會不斷重復,直至得到完整點云的特征。
PointNet++最顯著的貢獻在于其利用在不同尺度下的鄰域幾何信息來實現魯棒的細粒度特征提取。
1.3 點云卷積
PointNet++提供了分層和多尺度提取點云局部特征的范式。不過與2維卷積操作相比,其特征提取方式與2維卷積操作仍存在差異。
傳統卷積操作針對鄰域中不同區域賦予了相互獨立的權重用于區分各自的相對位置。PointNet++對局部鄰域中的每一個點都賦予相同的權重進行特征提取,未區分各自點的在鄰域中的相對位置。后續研究均利用該信息進一步改進,并提出了點云的卷積操作。
Li等人(2018b)提出了點卷積神經網絡(PointCNN),通過在點云上的卷積操作實現了點云卷積神經網絡架構的搭建。2維卷積依據每一個像素在規則的局部網格中的位置,按順序賦予權重進行卷積操作。與2維規則的網格數據不同,三維數據局部鄰域中點云的空間分布是不規則的,其排序方式有多種方式。根據不同的排序方式,點云卷積得到的結果往往是不相等的。因此,確定鄰域中點的順序使之與權重順序相對應是PointCNN解決的一個難題。PointCNN提出了χ-卷積操作。χ-卷積首先依據輸入鄰域中心點,并將鄰域中點相對中心的位置用多層感知器進行編碼。結合位置編碼以及輸入點特征,再次利用多層感知器生成χ-變換矩陣,將鄰域中點依據變換矩陣進行排序使之產生固定的順序,從而賦予對應位置下的卷積權重。χ-卷積操作確保了點云卷積結果不受輸入點排列順序改變的影響。PointCNN最早實現了2維卷積到點云卷積的拓展,為點云特征提取打下了良好的基石。后續研究工作提出了各種各樣點云卷積的變體。
SpiderCNN(Xu等,2018)利用鄰域中點的測地信息以及三線性插值方式來生成給定鄰域中的濾波器,依據該濾波器便可對鄰域點進行卷積操作。Hua等人(2018)設計了逐點的卷積操作,通過核支持區域劃分局部空間用于卷積操作。
動態圖卷積神經網絡(DGCNN)算法(Wang等,2019)利用鄰域點中心點位置和鄰域點的相對位置生成對應點特征每一維的權重來實現卷積操作。形狀關系卷積神經網絡(RSCNN)算法(Liu等,2019b)也利用鄰域中點的相對位置生成權重來實現卷積操作。
不同于利用多層感知器生成卷積權重的方法,核心點卷積(KPConv)算法(Thomas等,2019)是一種全新的點云卷積運算。KPConv的靈感同樣來自于基于2維圖像的卷積。類似2維卷積使用像素網格作為卷積核,KPConv定義了一系列固定位置的核點用于卷積操作。卷積的權重分別由這些核點生成。每一個核點所輻射的空間根據相關函數來確定。輸入的點通過尋找與其相鄰最近的核點,利用其核點對應的權重以及到核點的距離的計算結果作為卷積操作的輸出值。值得注意的是,鄰域中核點的數量是不確定的,使得KPConv能夠靈活地適應不同的輸入點云,并且不受輸入點云密度變化的影響。在此基礎上,KPConv還拓展出可形變的形式。對于每一個核點,網絡可以針對每一個卷積區域生成對應的偏移向量去改變核點的空間位置,使其更好地適應輸入點云結構。KPConv可以構建出非常深的網絡架構,同時保持快速的訓練以及推理時間。
將點云構建成圖結構,在圖上進行卷積操作也是提取點云特征的一種方式。這種方式與直接在點云上卷積具有一定的相似性。在圖上的卷積可以使用在其光譜表示上的乘法來實現(Defferrard等,2016;Yi等,2017),也可以利用在點云表面上所構建得到的圖來實現(Masci等,2015;Bronstein等,2017;Simonovsky和Komodakis,2017;Monti等,2017)。
1.4 稀疏卷積
由于三維數據的稀疏性,完整的三維物體體素表示并不適合作為三維特征提取的輸入。借鑒點云離散表示三維場景表面的方式,將點云進一步轉化為稀疏體素,并利用稀疏卷積網絡來提取特征成為研究的熱點。稀疏卷積網絡僅對空間中非空的體素進行卷積操作,從而避免了傳統三維卷積在非空體素上浪費大量的計算和存儲資源。
Graham等人(2018)率先提出了稀疏卷積的概念,并設計了子流形稀疏卷積和網絡框架來處理稀疏的三維場景數據。Choy等人(2019a)提出了稀疏卷積網絡架構Minkowski Engine。對于傳統語音、文字以及圖像數據,特征往往是稠密地提取。然而對于三維掃描數據,甚至在更高維度的空間中,這種稠密的表示效率十分低。原因是數據在高維空間的分布往往是稀疏的。因此,Choy等人(2019a)認為可以僅保存空間中非空的部分作為其坐標以及關聯的特征,即稀疏矩陣在高維空間的拓展,名為稀疏張量。在稀疏張量上卷積的定義與傳統卷積操作一樣,僅需要給出卷積步長、稀疏張量坐標以及點云轉換成稀疏張量時的步長。實現稀疏卷積最重要的步驟就是確定輸入張量和輸出張量的映射。不同于2維卷積輸出坐標容易計算得到,稀疏張量是點任意聚集在一起的。因此,稀疏卷積需要給出輸入張量到輸出的映射來實現輸入和卷積核的卷積操作,該映射定義為核映射。最后,給定核映射、權重以及輸入輸出坐標即可實現稀疏卷積操作,從而對稀疏體素進行特征提取。
Liu等人(2019c)提出點—體素卷積(PVC),同時在點云和體素兩種表示下提取特征。PVC利用點云表示輸入三維數據來減少內存消耗,同時利用體素表示減少組合不規則數據帶來的不必要的計算浪費。對于點云處理分支,PVC對每一個點進行單獨處理;對于體素處理分支,PVC對體素化的點進行卷積處理。盡管基于PVC的神經網絡(PVCNN)能夠處理大體積的體素數據。單個體素包含大范圍的實際區域,但是PVCNN對于小個體(例如行人)的識別能力很差。因為小個體僅占用了少量的體素從而增強了識別難度。一種解決方案是將大范圍場景用滑動窗口劃分為不同的子區域,在子區域進行特征提取,然而子區域劃分的操作并不適用于實時的應用。針對PVCNN的缺陷,Tang等人(2020)在PVCNN的基礎上提出了稀疏的點—體素卷積(sparse point-voxel convolution,SPVC)。對于點云分支,SPVC依舊保持高精度的特征提取。而對于體素分支,SPVC則借鑒稀疏卷積,在不同尺度進行特征提取。兩個分支之間的信息傳遞所需要的資源是可以忽略的。
1.5 點云Transformer
基于自注意力機制的Transformer(Vaswani等,2017)網絡結構在自然語言處理任務上引發了巨大變革,確立了大模型在自然語言處理各項任務上的領先地位。與此同時,自注意力機制在圖像分析任務上的拓展也取得了不錯的成就。參考Transformer在自然語言處理和圖像分析領域上的成功,研究人員展開了在點云數據處理上的Transformer拓展。
Zhao等人(2021)和Guo等人(2021)提出了用于點云特征提取的Transformer架構。Guo等人(2021)所設計的點云Transformer架構將自注意力機制應用到全局的點云上,即輸入點云任意點之間均計算關聯度。這種全局方式受限于內存和計算資源,只能應用在點數量較少的單個物體或小場景,而無法處理大場景點云數據。Zhao等人(2020)基于向量注意力機制實現了針對局部點的Transformer架構。向量注意力機制主要計算給定點與其相鄰點之間的關聯度,從而對每個點均復用該權重。關注局部信息的Transformer顯著降低了內存資源的占用。不足的是,基于向量注意力機制網絡結構的參數量隨著深度的增加而大幅度增加,將導致嚴重的過擬合以及深度限制問題。并且,點云的坐標位置相對于2維圖像的像素位置提供了更復雜的幾何信息,對點云特征提取至關重要。傳統的用于圖像Transformer的位置編碼不再適用于點云數據。針對以上問題,Wu等人(2022)提出改進版本的點云Transformer(PTv2),利用分組向量注意力機制有效降低了模型參數量,同時設計了專門針對三維點云的位置編碼機制,提升了模型框架對點之間的幾何關聯的敏感程度。
1.6 點云旋轉不變特征提取
上述點云特征提取方法與2維卷積相似,僅具有平移不變性。但是對于三維點云,其在現實空間中會處在不同的姿態之下。同時旋轉變換會給點云特征提取帶來一定程度的影響。因此,許多工作專門針對提取點云旋轉不變特征展開研究。點云旋轉不變特征提取大致分為3類。第1類利用旋轉不變幾何特征作為模型的輸入,代替受旋轉變換影響的坐標輸入;第2類尋找表示點云旋轉不變的局部參考系來避免旋轉變化帶來的影響;第3類則是估計輸入點云的姿態并將其調整到標準姿態再提取特征。
旋轉不變卷積(RIConv)算法(Zhang等,2019)、ClusterNet(Chen等,2019)和排序Gram矩陣網絡(SGMNet)算法(Xu等,2021a)通過計算輸入點云點之間的相對距離和角度作為特征來代替點坐標作為網絡結構的輸入。由于旋轉變換為剛體變換,在整體點云經過旋轉后,點云內部幾何仍舊保持相對不變。因此局部幾何中點之間的相對距離以及角度等信息可以作為低層旋轉不變特征,從而利用神經網絡進一步提取高層特征。然而,在將點坐標轉換為這些底層特征的過程中伴隨著重要幾何信息的損失,所以這類方法面臨不同程度的結果下降。集成位置關系特征的旋轉不變網絡(PR-invNet)(Yu等,2020)方法和Li等人(2021a)提出的方法首先利用主成分分析(PCA)選取最代表點云幾何結構的3個坐標軸作為參考系表示點云的標準姿態。但是PCA存在歧義性,點云的標準姿態并不唯一。因此,這類方法利用固定數量的旋轉增強構建一個姿態空間來涵蓋所有存在歧義的標準姿態,并利用姿態選擇器挑選一個最終姿態表示該點云的旋轉不變表示。旋轉不變圖卷積網絡(RI-GCN)算法(Kim等,2020)和邊緣對齊卷積神經網絡(AECNN)算法(Zhang等,2020a)則設計不同的局部參考系提取局部的旋轉不變特征,最終匯聚得到全局的旋轉不變特征。RI-GCN利用PCA構建局部鄰域點對應的參考系,而AECNN則利用局部鄰域中心點以及請求點之間的相對位置構建局部參考系。局部參考系之所以能夠作為點云的旋轉不變特征,是因為旋轉變換不改變點云的局部幾何結構。
1.7 點云匹配
點云特征提取方法將無規則的點云結構抽取為高維包含各種結構信息的幾何特征。這些特征可以用于相似幾何結構的匹配任務,構建其對應關系,并依據對應關系實現點云的配準。在現實場景應用中,掃描得到的點云往往不是完整的,拍攝得到的點云序列需要拼接才能得到完整的場景點云數據。找到合適的點云特征用于匹配不同掃描點云之間的幾何關系極為關鍵。深度點云特征提取方式為場景點云匹配提供了新的思路。
利用預訓練的方式進行點云特征匹配是一種常用的方式。首先分別提取輸入兩塊點云的特征。接著利用對比學習,在特征空間中拉近存在對應關系點的特征對,將幾何結構相差較大的特征對互相推遠,從而使提取的點云特征能夠將相似幾何結構的區域匹配上。3DMatch(Zeng等,2017)提出了用于場景匹配的數據集,并將場景中任意兩塊互相有重疊區域的點云構建匹配對用于訓練得到匹配特征,利用三維卷積實現場景的特征提取。3DSmoothNet(Gojcic等,2019)在3DMatch基礎上引入了旋轉不變局部參考系,使提取的特征與旋轉變換不相關。全卷積幾何特征(FCGF)算法(Choy等,2019b)利用系數卷積提取點云特征,并提出了最困難樣本對比學習,使點云特征彼此更具區分度,更容易學習得到不相關特征之間的邊界。稠密三維三維局部特征檢測與描述(D3Feat)算法(Bai等,2020)利用稠密特征提取獲取更精細的點云特征,并利用關鍵點預測篩選出更具代表性的候選匹配點。SpinNet(spin network)(Ao等,2021)使用柱形卷積提取點云特征來提升匹配表現。
另一種點云匹配的方法是結合點云特征提取和點云匹配進行端到端的訓練。借助2維圖像端到端匹配的思路(Sarlin等,2020;Sun等,2021),首先提取場景點云從粗到細的特征,接著根據粗特征生成相似度矩陣進行粗匹配,再根據得到的匹配點周圍的細粒度特征進一步進行細匹配。端到端訓練的方式(Yu等,2021a;Qin等,2022;Yew和Lee,2022)在點云匹配任務上取得了不錯的成就。
點云匹配成功地實現了將真實場景下拍攝得到的離散的點云碎片拼接成完整的場景點云。
02場景點云語義分割
基于點云場景的語義分割技術是對三維場景精細化、智能化理解的關鍵技術之一。語義分割任務早先源于對數字圖像進行逐像素分類的需求(Long等,2015),后逐漸向三維視覺領域拓展。由于點云是三維場景中常用的離散化表征方式,因此逐點的語義類別預測成為三維視覺中的一項重要研究方向。與特征稠密分布的數字圖像相比,三維點云場景數據規模大、覆蓋空間廣、特征分布稀疏以及缺乏順序性,使得點云語義分割任務成為一大挑戰。本節從點云場景表征與數據集、點云語義分割方法分類、多模態融合的分割方法與場景點云的實例分割方法四方面綜述國內外研究趨勢。
2.1 場景表征與數據集
點云場景表征方式可分為室內場景表征與室外場景表征。
2.1.1 室內場景表征與相關數據集
早期點云場景分割任務大多定義在室內場景中。室內傳感器采集到的點云數據通常分布相對稠密,具備良好的幾何結構特征,適合神經網絡進行細粒度的分割。室內場景表征方法主要包括基于點特征的表征方法、基于圖網絡的表征方法和基于注意力機制的表征方法(Ye等,2022)。
基于點的特征提取網絡PointNet與PointNet++(Qi等,2017a,b)是早期的點云特征提取網絡。在此基礎上,后續工作針對室內場景分割任務特點對網絡進行優化改進。例如,為進一步挖掘點云局部區域間的上下文信息, PointWeb網絡(Zhao等,2019)在PointNet++基礎上提出自適應特征調整模塊,利用局部區域中點對點的交互改變其在特征空間中的位置,以獲取更好的區域特征向量。PointCNN(Li等,2018b)與PointConv(Wu等,2019b)等網絡致力于定義基于點特征的卷積操作,根據空間密度、距離權重等設計卷積核,并構建深度點卷積網絡提取特征等。Liu等人(2020)針對點云局部特征聚合操作,總結了基于多層感知機(MLP)、基于偽網格特征和基于相對位置加權的3種改進方式。基于點特征提取網絡能較好地捕捉點云局部信息,但是對于全場景特征提取有欠缺,且在大規模點云數據集上存儲與計算資源占用較大,不夠高效。
基于圖網絡的表征方式充分考慮空間中點、邊緣和區域等元素之間的鄰接關系,是對三維幾何結構的近似刻畫。如Wang等人(2018a)提出的譜圖卷積網絡,對局部區域內的鄰近點子集構建完全圖,通過圖傅里葉變換將特征映射到頻域空間中再進行譜濾波,增強了提取空間結構特征的能力。與之類似的正則圖卷積神經網絡(RGCNN)算法(Te等,2018)對點云的圖卷積網絡的監督函數增加了基于平滑性先驗的正則項約束,使圖卷積網絡學習到的空間特征具有更好的幾何連續性。Wang等人(2019)提出DGCNN,在每一層動態圖上增加對邊卷積網絡層,能更好地學習室內物體的形狀特征與潛在語義特征。然而,基于圖網絡的表征方式同樣面臨在大規模點云數據集上的存儲開銷和計算速度問題。
基于注意力網絡的表征方式通過注意力機制建模三維空間中點之間或區域之間的上下文關系。Feng等人(2020)針對卷積網絡難以充分提取不規則點云分布的特征的缺陷,提出了使用基于點的局部注意力和邊緣卷積網絡,通過空間注意力機制構建大范圍內長距離的關系信息。在此基礎上,之后的研究工作開始利用基于Transformer的自注意力機制來提取點云表征,進而獲取豐富的局部鄰域信息和區域之間的上下文關系。Park等人(2022)提出由輕量級的自注意力層組成的快速點云Transformer網絡,通過編碼連續的點云坐標和基于體素哈希的架構來有效地提升網絡的計算效率。Yu等人(2022)設計了一種基于掩碼Transformer的點云預訓練方法,首先將整個輸入點云切分為若干區域塊并隨機掩蓋掉部分區域塊,然后使用基于Transformer的點云網絡來恢復缺失的點云數據,從而達到預訓練的目的。除此之外,為了解決自注意力機制在大規模點云數據集上空間和時間復雜度較的問題,Zhang等人(2022)提出了基于塊注意力的點云Transformer網絡來自適應地學習更小點集的特征,并設計了輕量級的多尺度注意力網絡來構建不同場景規模下的區域注意力關系。此類基于Transformer的點云特征提取網絡利用注意力機制來獲取三維空間中點之間或區域之間的上下文關系,同樣存在對存儲空間占用高的問題。
室內點云場景數據集主要以RGB-D相機掃描得到的數據為主,包括NYUv2數據集(Silberman等,2012)、SUN RGB-D數據集(Song等,2015)、S3DIS數據集(Armeni等,2016)和ScanNet數據集(Dai等,2017)等。這些數據集涵蓋多種室內場景,包含從物體級別語義標注到全場景的高層次標注,有力支持了室內點云場景分割的研究發展。
2.1.2 室外場景表征與相關數據集
隨著智慧城市建設、自動駕駛感知等應用任務需求增加,室外場景表征方法受到廣泛關注。室外場景與室內場景相比,場景類型更加復雜,點云密度更加稀疏,室外天氣與光照影響更加明顯,各類別物體長尾分布現象更加嚴重,使得室外點云場景分割成為一項極具挑戰性的任務。
目前的室外場景表征方法大致包括基于環視圖(range view)的分割方法、基于稀疏卷積(sparse voxel)的方法、基于鳥瞰圖(bird-eye-view,BEV)的方法和基于神經輻射場(NeRF)的方法。基于環視圖的方法(Milioto等,2019;Cortinhal等,2020)將點云數據360°投影到預設半徑的環視面(range view)上,形成2維環視圖,然后使用圖像卷積網絡提取特征并預測分割結果。最后通過相關后處理算法(k近鄰采樣、雙線性插值等)將環視圖的分割結果傳播到點云上。該類方法的優勢在于可以用二維卷積網絡提取三維點云投影降維后的圖像特征,較好滿足實時性需求。缺點是將二維分割結果傳播到三維點云數據時會造成較大的精度損失。基于稀疏卷積的方法(Graham等,2018)通過將卷積計算限制在活躍區域(active region)中,避免納入空區域的計算操作,從而大幅減少計算量。在此基礎上,針對室外激光雷達數據集環形分布特點,Zhu等人(2021)采用扇形卷積的方式劃分點云,更好地滿足近密遠疏的分布特性。近年基于鳥瞰圖的場景特征提取方法日漸興起。點云場景感知中的鳥瞰圖概念源于2020年特斯拉公司公布的全自動駕駛算法,但該方案是純視覺方案,具體做法是將多視角相機拍攝的數字圖像轉化為鳥瞰圖特征。后續有很多研究者嘗試使用鳥瞰圖類似地表征激光點云場景,如Zhang等人(2020c)提出的PolarNet網絡,在極坐標系下,通過池化層將點云特征投影到固定大小的俯視圖平面上,使用卷積網絡得到2D特征并獲得預測結果,最后同一俯視圖柵格里不同高度的點云賦予相同的預測類別。雖然基于鳥瞰圖特征的表征方式在實時分割的前提下也能獲得不錯的精度,但是對于懸吊物體的預測結果通常較差。基于神經輻射場的相關表征方法(Kundu等,2022)使用多層感知機構建了從三維場景中的位置坐標(視角+距離)到語義特征(顏色+反射率)的映射函數,作為三維場景的神經輻射場用于輔助下游語義分割任務。該類方法可直接用于下游的三維場景分割任務,亦可以作為點云—圖像融合的上游特征提取器,在未來有較大的研究與應用前景。
室外場景數據集根據傳感器不同,主要分為激光雷達(light detection and ranging,LiDAR)數據集和毫米波雷達(radiodetection and ranging,RADAR)數據集。室外靜態LiDAR數據集如Semantic3D(Hackel等,2017)提供了包括城市、鄉村、廣場以及街景建筑等多種場景的三維語義數據。室外自動駕駛場景LiDAR數據集,如SemanticKitti(Behley等,2019)、nuScenes(Caesar等,2020)、Waymo Open Dataset(Sun等,2020)和Lyft L5(Houston等,2020)等提供了自動駕駛場景下的大規模點云—圖像多模態數據集,包含行人、非機動車、機動車以及各類交通標注物等類別。此外,nuScenes與Waymo Open Dataset數據集亦提供毫米波雷達的相關數據,可有效支持在雨天、雪天和霧天等極端天氣下較準確地探測到移動物體。
2.2 點云場景語義分割
2.2.1 全監督分割方法
點云場景語義分割任務需要神經網絡學習到多種場景下的三維特征表示。由于三維場景的復雜性,僅依靠數據集自身提供的全量標簽直接訓練特征提取器,難以使神經網絡快速學習到有價值的信息。因此,很多全監督分割方法會挖掘點云的先驗信息,如空間分布特征和時序特征,增強網絡對點云的識別與分割能力。Gong等人(2021b)提出了邊緣預測模塊(boundary prediction module)和邊緣幾何特征編碼模塊(boundary-awaregeometry encoding module),使得神經網絡對物體的邊緣特征更加敏感,從而提升分割準確率。Chen等人(2022)利用激光點云中的中心對稱性分布特征,提出極角正則化數據增強操作,將不同水平角下劃分的點云區域旋轉到相同的角度,減小了因角度多樣性給點云網絡訓練帶來的困難,在多種點云語義分割基線網絡中得到分割精度的提升。Schutt等人(2022)借鑒光流法的思想,提出基于多級循環神經網絡連接的前后點云幀時序融合方法,使點云網絡能夠更有效地區分靜止物體與運動物體。
此外,點云場景的表征方式多種多樣,如何充分利用不同的表征方式融合點云各項信息,從而降低語義分割的訓練難度也是研究者關注的內容。Xu等人(2021b)提出環視圖—點—體素三位一體的融合模塊,增強了同一個點在不同表征下的特征交互的能力。Ye等人(2021)在點—體素雙路感知網絡的基礎上,提出了交替轉換的訓練方法,將原先雙分支各自獨立訓練的方式改為從點云到稀疏體素,從稀疏體素到點云兩種融合模塊,并在這兩種融合模塊間進行多輪循環迭代,充分提取各個層次上的體素級與點級語義信息。Gong等人(2021a)首次提出一種層次化感受野因果推理模塊,將場景分割問題轉化成多種類別所在的子區域感受野成分分解和編碼問題。Li等人(2022b)提出了基于特征金字塔和注意力感知的點—網格融合插件模塊,對環視圖—鳥瞰圖雙路點云感知網絡進行增強,在多種數據集上達到了領先的性能。
2.2.2 有限標注條件下的分割方法
相比全監督學習,有限標注信息下的點云語義分割方法有更加豐富的應用場景和工業界落地需求,在實現精度上接近全監督方法的同時,盡可能減少人工標注的成本。根據標簽利用方式的不同,可大致分為半監督學習和弱監督學習。半監督學習的目標是在只給定部分場景標注的條件下訓練神經網絡(被選定場景下的點云標注是完整的),強化其在不同場景下的泛化能力。而弱監督學習的目標是在給定不完整標注的條件下(例如每幀點云場景只隨機挑選1%的點標注),通過學習有限區域的監督信息,傳播并習得所有區域的點云特征。
針對室內半監督分割,Li等人(2021b)提出一種基于偽標簽置信度預測的半監督分割方法,以減少對大規模高質量人工標注的依賴,在分割網絡的基礎上,額外設計判別網絡(discriminator network),該網絡目標是區分預測結果和真實標注,并對無標注點云的預測結果輸出置信度預測,對判別網絡的訓練更好地促進了整個網絡對無標注數據的分割與預測能力。面向室外激光點云數據集,Kong等人(2022)基于激光點云掃描線環視分布的特點,提出一種有標注場景和無標注場景的點云環形混合增強方法(LaserMix),在多種現有半監督方法上均取得較大的分割精度提升。
Xu和Lee(2020)首次在點云上提出弱監督語義分割任務,在理論上說明了使用不完整標簽的數據集訓練的網絡權重的梯度與全監督梯度基本近似,在室內點云數據集中,提出的基線方法在只使用約10%的點云標注條件下,精度可達到全監督方法的95%左右。此后,更多研究者開始關注如何使用更少的點云標注獲得與全監督基線更接近的分割性能。Zhang等人(2021b)提出通過加入點云排列增強模塊監督預測結果的拓撲一致性,在室內場景中使用約1%的真值獲得的mIoU(mean intersection over union)與全監督基線的結果僅相差近2%。基于混合對比學習正則化約束的增強方法,Li等人(2022a)使用極少標注(0.03%)在室內點云數據集上獲得的分割精度為全監督方法的78.3%。面向室外點云弱監督分割任務,Unal等人(2022)提出了首個室外激光雷達弱監督非精確標注數據集Scribble-Kitti,并在該數據集上使用基于教師—學生網絡(Tarvainen和Valpola,2017)改進的弱監督方法,使用約8%的真值標簽獲得的精度可達到全監督方法的96%左右。目前,已有研究工作(Sautier等,2022)在室外激光點云數據集上使用約0.8%的真值標簽獲得的精度達到了全監督方法的90%左右。
2.2.3 無監督分割方法
無標注的分割方法主要聚焦在點云自監督學習和無監督域遷移方向。鑒于點云標注非常耗費時間與人力資源,只對部分場景進行部分標注也難以適應海量增長的三維點云數據量。因此,采用自監督學習的方式對海量點云進行預訓練是一個值得深入探討的問題。Sautier等人(2022)首次提出一種室外場景下的圖像預訓練權重向點云網絡知識蒸餾的方法,在不需要任何點云與圖像標注的條件下,通過提取超級像素(super pixel)建模圖像與點云間高相似度區域間的對應關系,并通過基于對比學習的蒸餾損失函數進行監督。Afham等人(2022)在室內場景物體上提出一種簡單的跨模態三維-二維區域對應模塊,分別將點云模態和圖像模態提取的特征向量重新投影到一個公共的特征空間中,并基于最大化與模態無關的互信息的思想設計對比學習損失函數。總體來看,目前的點云自監督學習方法與全監督方法仍有巨大差距,預訓練權重對下游全監督任務的提升效果有限,有待進一步研究發掘點云自監督學習的潛力。
除了在無標注信息的條件下做網絡自監督預訓練外,另一個工業界與學術界的重大需求是克服不同域/數據集之間的特征分布差距,使模型在源域數據集上訓練達到很好的精度時,遷移到無標注的目標域上能縮小目標域特征分布與源域之間的“距離”。Wu等人(2019a)研究從大規模道路場景仿真數據集向真實數據集域遷移,通過提出的鄰域特征聚合模塊和漸進式域校正算法有效克服跨域噪聲干擾與信息丟失問題。此后,許多研究工作,如跨模態無監督域適應(xMUDA)算法(Jaritz等,2020)和點無監督域適應(PointUDA)算法(Bian等,2022),圍繞該方向提出一系列改進算法,促進了無監督分割的研究進展。
2.3 多模態融合的分割方法
單一模態的場景分割方法雖然已達到較高的精度性能,但也面臨著與模態相關的固有缺陷。如純圖像的場景分割容易受光照、遮擋因素影響;RGB-D點云數據受限于室內小規模場景掃描;激光點云數據在室外容易受極端天氣的干擾;超聲波雷達數據探測精度相對激光點云會差等。因此,研究跨傳感器多模態融合的分割方法,可以較好地實現模態間信息互補,使網絡更容易學習到魯棒性強的場景特征表示。依據融合方式,目前多模態點云分割方法大致可以分為前融合、深度特征融合,后融合、非對稱融合四種(Ma等,2022)。依據使用的主流傳感器類型,可分為激光點云—相機融合(Zhuang等,2021)和毫米波點云—相機融合兩類(Zhou等,2022)。雖然目前多模態融合方法在許多數據集上取得領先的性能,但仍有許多問題須待解決。例如,克服跨模態特征錯位對應問題、多模態數據集跨域遷移時模態失配問題等。該方法仍有很大提升空間。
2.4 場景點云的實例分割方法
在場景理解中,語義分割雖然能夠提供每個點的類別屬性,但是無法區分出每個實例的邊界,即缺乏對場景內的3D點云進行實例級別的感知。相比于語義分割,實例分割的著眼點在于區分不同的實例,需要對場景內的點進行額外的身份標識。因此,實例分割的研究,能夠使環境感知系統具備理解三維真實世界中每個獨立物體或個體的能力,直接影響著與三維場景中每個實例的交互活動。依照流程,目前的實例分割方法可分為以3D-BoNet(Yang等,2019a)、生成形狀提議網絡(GSPN)算法(Yi等,2019)為代表的基于Proposal的方法和以PointGroup(Jiang等,2020)、層次化聚合三維樣例分割(HAIS)算法(Chen等,2021)為代表的Proposal-free的方法。基于Proposal的方法遵循自上而下的流程,首先生成眾多的實例候選區域,并在每個區域內預測實例的掩碼;Proposal-free的方法則采用自底向上的方式,通過計算點之間的相似度或距離,將點聚類至不同的實例之中。從當前的研究工作來看,Proposal-free的實例分割方法在ScanNet和S3DIS等數據集上取得了不錯的性能。
03掃描點云物體補全
點云作為一種表征三維物體的基礎數據形式,具備高緯度信息量的優勢,在自動駕駛和場景感知等領域有著廣泛的應用。但是在點云數據采集的過程中,由于遮擋、噪聲干擾和視角變換等問題,真實掃描到的三維點云通常會出現殘缺和數據不完整的問題,嚴重阻礙了下游的點云分析和處理任務的性能。因此,通過殘缺點云數據恢復出三維物體的整體形狀的三維點云補全任務逐漸成為一個新的研究熱點。
本節首先總結三維點云補全任務中常用的數據集,然后從全監督點云補全和真實掃描點云跨域補全兩方面介紹三維點云補全任務。
3.1 點云補全數據集
對于三維點云補全任務,常用的數據集主要分為人工生成的點云數據集和真實掃描的點云數據集兩種類別。人工生成的數據集是通過在某個固定視角下均勻采集三維面片模型的表面點云,得到具有殘缺幾何形狀的三維點云數據。真實掃描的點云數據集則是通過激光雷達等采集設備從真實環境中直接掃描得到不完整的三維點云數據。
3.1.1 人工生成的點云補全數據集
ShapeNet數據集(Chang等,2015)是一個大規模的三維模型數據集,具有豐富的注釋信息,共包含55種常見的物體類別和220 000個計算機輔助設計(computer aided design,CAD)模型,每個模型對應的三維點云大概包含15 000個數據點。對點云補全任務來說,選取8個類別的物體,共30 974個三維CAD。其中,完整的點云數據通過在每個三維模型的表面均勻采樣2 048個點組成,對應的殘缺點云數據則是將這個三維模型隨機視圖下的深度圖反投影到三維空間來獲得,殘缺點云的點數也是2 048個。
ModelNet40數據集(Wu等,2015)是一個綜合的三維CAD模型數據集,包含40個類別和13 356個模型。殘缺點云數據和完整點云數據的獲得方法與ShapeNet數據集相同。
3.1.2 真實掃描的點云補全數據集
KITTI數據集(Geiger等,2012)是通過激光掃描儀收集的。該數據集最初是為了評估立體匹配的性能,由雷達點云、點云數據序列和標注信息組成,包含22個點云數據序列,其中訓練集包括11個具有標注信息的點云數據序列,評估集包含11個沒有標注的點云數據序列。對于三維點云補全任務來說,只選取了其中的汽車類別作為訓練和測試數據。其中,殘缺的三維點云數據是通過均勻選取2 048個數據點獲得。KITTI數據集中的三維點云數據是非常稀疏的,且物體的幾何結構往往是不完整的,因此在這個數據集上進行點云補全非常具有挑戰性。
3.2 全監督點云補全
三維點云補全任務旨在從輸入的殘缺點云數據中恢復物體完整的幾何形狀。全監督三維點云補全是在有完整點云數據作為監督標簽的情況下,訓練點云補全網絡,達到預測完整補全結果的目的。根據三維點云補全任務中采用的網絡結構,全監督點云補全方法可以分為基于點、基于圖、基于生成對抗模型和基于變分自動編碼器的點云補全方法。
3.2.1 基于點的全監督點云補全
基于點的點云補全方法通常采用編碼器—解碼器方式設計網絡架構。在編碼器—解碼器結構中,補全分支中的編碼器旨在提取全局的三維幾何特征和每個點的區域局部特征。而解碼器負責預測三維物體完整的點云并對其進行細化處理。
Xia等人(2020)設計了端到端的三維點云補全網絡,從車輛應用中的稀疏點云重建更均勻和更精細的結構,同時采用上采樣方法生成更均勻的點云。此外,提出一種非對稱的連體特征匹配網絡(Xia等,2021),其中,非對稱連體自動編碼器生成粗略但完整的點云數據,隨后的細化單元旨在恢復具有細粒度細節的最終點云預測結果。Mendoza等人(2020)提出一個由缺失部分預測模塊和合并細化模塊共同組成的端到端補全網絡,在保留現有幾何形狀和細化細節的同時預測點云數據的殘缺部分。Peng等人(2020)提出一種端到端的稀疏到密集多編碼器神經網絡來補全殘缺點云數據,同時可以有效保留原始三維物體的形狀細節。殘缺的輸入點云分兩個階段補全和細化。在第1階段,基于兩層感知機網絡生成粗略但完整的結果;在第2階段,使用新的網絡對第1階段的稀疏結果進行編碼和解碼,以產生高密度和高保真點云數據。Miao等人(2021)提出一種具有形狀保持功能的補全網絡,通過設計編碼器—解碼器的方式來保持物體的三維形狀并恢復重建物體的精細信息。這種形狀保持網絡可以學習全局特征并整合具有不同方向和尺度的相鄰點的區域信息。在解碼過程中,信息將融合到潛在向量中。
3.2.2 基于圖的全監督點云補全
由于點云和圖都可以視為非歐幾里得的結構化數據,因此將點或局部區域作為某些圖的頂點來探索點或局部區域之間的關系是很有潛力的方法。基于圖的網絡可以將輸入中的每個點都視為頂點,同時利用相鄰點的信息來生成邊。因此,圖卷積網絡可以適用于點云的處理和補全任務。
Wang等人(2019)開創性地提出DGCNN,成功地將動態圖卷積結構引入三維點云補全任務。在動態圖卷積中,相鄰矩陣可以通過來自潛在空間的頂點關系計算,該圖是在特征空間中建立的,可以在網絡訓練過程中動態更新。Hassani和Haley(2019)引入多級網絡來利用點和形狀特征進行自監督的三維點云補全。Wu等人(2021a,b)提出一種基于學習的圖卷積方法,對部分輸入的局部區域進行采樣,對其特征進行編碼,并將它們與全局特征相結合。建立圖后,收集所有區域特征,并用多頭注意力機制對圖進行卷積。圖注意機制使每個局部特征向量能夠跨區域搜索,并根據高維特征空間中的關系選擇性地吸收其他局部特征。同時,設計了一個基于圖注意力的跨區域注意力單元,該模塊量化了特定背景下區域特征之間的潛在聯系,并通過全局特征進行解釋。因此,每個條件區域特征向量都可以作為圖注意力進行搜索。Zhang等人(2021c)設計了一個圖神經網絡模塊,通過局部—全局注意機制和基于多尺度圖的上下文聚合,全面捕捉點之間的關系,大幅增強了圖網絡編碼特征。
3.2.3 基于生成對抗模型的全監督點云補全
與傳統的卷積網絡相比,生成對抗網絡(generative adverserial network,GAN)利用判別器的隱式學習來估計生成器預測的完整點云的準確性。本節將從端到端機制和點云精細化模塊兩部分介紹基于生成對抗模型的全監督點云補全。
圍繞端到端機制,Wang等人(2017)利用編碼器將體素化的三維形狀映射到概率潛在空間中,并使用生成對抗學習來幫助解碼器借助潛在特征表示生成完整的點云形狀。Achlioptas等人(2018)則使用全連接層設計了具有生成器和判別器的生成對抗網絡,自動編碼器被訓練來學習潛在空間,然后在固定的潛在表示中訓練生成模型。這種網絡在潛在空間中進行訓練,比普通的生成對抗網絡更容易訓練,從而可以更好地恢復殘缺的物體的幾何結構。
點云的精細化模塊常常作為一項關鍵性的技術集成到生成對抗學習中。Wang等人(2020b)提出一種用于學習先驗形狀的特征對齊方法。同時,設計了一種從粗到細的方法,將形狀先驗與從粗到細的策略相結合。除此之外,還設計了一個點云補全網絡(Wang等,2020a),以級聯細化網絡作為生成器,通過利用輸入的細節高質量地生成點云殘缺的幾何結構。同時,設計了一個分片化處理的判別器,使用對抗訓練來精確地學習點云分布,并約束預測點云與完整點云之間不同的幾何結構。
3.2.4 基于變分自動編碼器的全監督點云補全
Spurek等人(2021)首次利用變分自動編碼器架構來補全輸入的殘缺點云的完整幾何結構。其中,點云處理被分成兩個未連接的數據流,并利用超網絡范式來恢復丟失部分留下的空間結構。Pan等人(2021)設計了一種變分關系補全網絡,利用雙路徑單元和基于變分編碼器的關系增強模塊進行概率建模,同時還設計了多個關系模塊,可以有效地利用和集成多級的點云特征,包括點自注意力內核和關鍵點選擇內核單元。Zamorski等人(2020)提出了3種生成建模方法的應用,并定量和定性地測試了自動編碼器、變分自動編碼器和對抗性自動編碼器的架構特點。
3.3 真實掃描點云跨域補全
目前主流點云補全網絡依賴于成對的數據監督,即對每一個殘缺的點云掃描需要一個相應的完整點云。成對數據通過掃描虛擬三維物體很容易獲得,但在現實世界中難以獲取,且由于虛擬與現實域間的數據分布差異,使用虛擬成對數據訓練的補全網絡難以推廣到真實數據。因此,真實掃描的點云跨域補全成為一個新的研究熱點。
3.3.1 基于生成對抗模型的跨域補全
Chen等人(2020)首先提出在不需要成對數據的情況下以無監督方式進行點云補全,該方法訓練兩個獨立的自動編碼器,分別用于重建虛擬完整點云和真實殘缺點云,并訓練生成器將殘缺點云的潛在空間映射到完整點云潛在空間,同時引入判別器約束目標樣本的潛變量與源樣本的分布相同。Wen等人(2021)設計了殘缺輸入和完整點云的潛碼之間的雙向循環轉換框架。正向循環將點云從殘缺域轉換到完整域,然后再將其投射回殘缺域。該循環學習完整點云的幾何特征,并保持完整預測和殘缺輸入點云之間的形狀一致性。反向循環轉換從完整域轉換到殘缺域,然后投射回完整域來學習殘缺點云的特征。由于神經網絡無法將單個完整點云表示映射為多個殘缺點云表示(目標混淆問題),故提出缺失區域編碼以表達目標殘缺點云信息,原始殘缺點云的編碼表示分解為相應完整點云的表示和缺失區域表示。當從殘缺點云預測完整點云時,只需考慮完整點云表示的部分;而當從完整點云中預測殘缺點云時,則需同時考慮兩個編碼表示。該框架不足之處在于雙向循環過程需各自單獨建模,尤其完全到殘缺的映射過程難以學習。如果一個方向沒有學好,另一個方向也會受到性能制約。
Zhang等人(2021a)首次在點云補全任務中引入GAN逆映射。利用在完整點云上預訓練GAN得到的點云形狀先驗,通過GAN逆映射尋找最佳匹配的潛碼。具體而言,一個潛碼通過預訓練GAN生成一個完整點云,再通過一個三維降采樣模塊將完整點云轉化為殘缺點云,進而與輸入殘缺點云計算損失。該框架利用梯度下降方法反傳損失以更新潛碼并微調預訓練的GAN網絡,從而使生成的完整點云與輸入的殘缺點云在可見部分最接近。三維降采樣模塊尋找輸入的殘缺點云與任意生成的完整點云間的對應關系。具體而言,對殘缺點云中每一個點尋找完整點云中歐氏距離下最近鄰點,所有鄰點的并集構成了與輸入殘缺點云對應的輸出殘缺點云。該方法在保證泛化能力的同時,對殘缺輸入的不確定性可提供多解,并且保證各解都合理地反映殘缺物體的可見部分。且由于GAN的引入,該框架能夠很好地實現對已知點云形狀的編輯。然而,與基于學習的方法相比,這種基于GAN逆映射反轉優化的方式效率極低,且補全性能非常依賴于潛碼的初始值。
3.3.2 基于解耦的跨域補全
Cai等人(2022)提出了一個統一的結構化潛空間以增強殘缺—完整點云的幾何一致性,并提高補全精度。該方法將殘缺點云表示解耦為完整形狀因子和遮擋因子。兩者逐元素乘積用以重建殘缺點云,補全過程僅使用完整形狀因子。為學習該結構化潛空間提出了一系列約束條件,包括結構化排名正則、潛碼交換以及潛碼分布監督。具體而言,對某輸入殘缺點云進行下采樣得到一系列殘缺點云,該系列點云完整形狀因子相同,遮擋因子滿足不等式關系。同時,該方法引入潛碼判別器使得從殘缺點云學習得到的完整形狀因子與從完整點云學習得到的完整形狀因子相匹配。
Gong等人(2022)結合回歸與優化兩個階段提高補全點云與輸入殘缺點云間的一致性,加速模型推理速度。第1階段特征解耦進行域級別的對齊,殘缺點云特征被解耦為域、形狀和遮擋3個因子。其中,殘缺點云的遮擋因子與觀察視角強相關,故設計自監督視點預測任務以學習遮擋因子;域因子與形狀因子分別代表域風格與點云形狀,故使用域判別器結合梯度反轉同時訓練域因子與形狀因子;設計因子排列一致性正則以確保因子間相互獨立,隨機交換樣本間因子用以重建特征并約束重建特征一致。第2階段推理優化過程進行實例級別的對齊,第1階段預訓練編碼器產生的潛碼并不直接生成點云,而只是作為解碼器的初始輸入。使用輸入殘缺點云與預測完整點云間的距離作為監督,在多輪迭代中微調潛碼以尋找最佳點云生成效果。
04國內研究進展
4.1 三維特征提取方式與旋轉不變性
三維特征提取在近幾年取得了飛速發展,國內對于點云特征提取的研究也產出了優秀的成果。
Li等人(2018b)提出了PointCNN,設計了χ-卷積初步實現對離散點集進行卷積操作,為之后點云卷積的發展鋪下了良好的基石。Liu等人(2019b)提出形狀關系卷積神經網絡(RSCNN),利用點云幾何形狀的特征生成對應卷積核的權重來實現點云卷積,帶來了顯著的效果提升。
Yan等人(2020)設計了點適應性采樣與局部非局部模塊(PointASNL),在點云卷積神經網絡中引入注意力機制。PointASNL利用注意力機制提出自適應采樣,使得降采樣點具有偏移能力,從而提升其代表能力。同時,引入局部與非局部模塊提升不同局部模塊之間的關聯程度,提升特征的全局表達能力。
馬利莊團隊(Liu等,2022)提出了ScatterNet(scatter network),利用散布探索模塊代替傳統的最近鄰搜索和球形搜索算法,實現更長、更廣范圍的局部鄰域點組合,使卷積操作能夠從更詳細的局部幾何信息中提取特征。
Guo等人(2021)以及Zhao等人(2021)率先在點云上拓展了Transformer框架。前者利用自注意力機制通過挖掘輸入點云整體點之間的關聯度來提取逐點的特征。但是全局的方式會占用大量的內存資源,導致無法適用于大規模的場景點云特征提取任務。后者則將自注意力機制運用到局部點云上,并在不同局部幾何上復用自注意力模塊。該方式有效減少了計算資源的浪費,并且使得點云Transformer達到相當的效果。Wu等人(2022)在Point Transformer v1(2021)的基礎上拓展了Point Transformer v2。PTv2提出了分組向量注意力機制,改善了深度模型過擬合等問題,使得點云Transformer模型也可以部署足夠深度的神經網絡結構。
針對點云旋轉不變特征提取,國內也展開了研究。Chen等人(2019)提出ClusterNet,利用局部鄰域中點之間的相對角度和相對距離代替坐標作為神經網絡的輸入來提取點云的特征。由于旋轉變換是剛體變換,不會改變點云局部的幾何結構。相對距離和相對角度作為局部幾何的一種衡量標準可以作為低層的旋轉不變特征。因此,ClusterNet能夠進一步將低層特征提取為高層的旋轉不變特征。You等人(2020)提出逐點旋轉不變網絡(PRIN)算法以及稀疏逐點旋轉不變網絡(Sparse PRIN,SPRIN)算法(You等,2022)來提取點云旋轉不變特征。PRIN將旋轉空間劃分為離散的球形體素,并利用球形體素卷積提取逐點的旋轉不變特征。Yu等人(2020)設計PR-invNet,利用PCA初步計算一種輸入點云的參考系,并在此基礎上用固定角度的旋轉增強來構建旋轉空間。PR-invNet借助提出的姿態選擇器從旋轉空間中挑選輸入點云的標準姿態后,將其作為神經網絡的輸入,從而提取旋轉不變特征。Zhao等人(2022a)同樣借助局部相對信息,提出局部全局表征網絡(LGR-Net),利用更精細的8維相對距離角度特征來代替坐標輸入,在實現旋轉不變特征提取的同時,提升了實驗結果。
4.2 場景點云語義分割
點云場景分割在三維視覺感知中具有關鍵作用。目前國內點云場景理分割的相關技術在快速發展,在多個子方向與賽道上均有許多出色研究工作涌現。其中,馬利莊團隊在全監督和弱監督點云場景分割任務上有重要研究進展。
點云場景中對物體邊緣的識別能力對分割效果有著重要影響。基于此,馬利莊團隊(Gong等,2021b)提出邊緣預測模塊(boundry prediction module)對不同類別物體的邊緣進行預測。其中,邊緣預測模塊預測結果如圖1所示。同時,提出邊緣感知的幾何特征編碼模塊(boundary-aware geometry encoding module)從局部區域里挖掘邊緣敏感的幾何特征。相比現有的基于點特征的表征方式PointNet++(Qi等,2017b)和PointCNN(Li等,2018b)、基于圖卷積表征的方法分割圖卷積網絡(graph convolution network for segmentation,SegGCN)算法(Lei等,2020)以及基于注意力機制的表征方式點注意力轉化器(point attention transformer,PAT)算法(Yang等,2019b)等多種現有分割方法,均得到了顯著的分割精度提升。
圖1 ScanNet場景邊緣預測結果(Gong等,2021b)
面向場景點云分割中的細粒度學習與因果推理,馬利莊團隊(Gong等,2021a)首次提出一種層次化場景感受野成分推理模塊,將場景分割問題轉化成多種類別所在的子區域感受野成分分解問題。基于感受野的子區域成分編碼(receptive field component code)很好地刻畫了區域語義類別信息,將不同層次的感受野成分編碼從粗粒度向細粒度分解,最后得到逐點的語義類別推理結果。此外,在網絡訓練階段亦可對全層次的中間層編碼進行多尺度監督。相關研究成果(Gong等,2021a)在室內點云數據集S3DIS和室外點云數據集Semantic3D上均取得領先的分割效果。劉盛等人(2021)設計了空間深度殘差網絡(spatial depthwise residual network,SDRNet),結合空間深度卷積與殘差結構以及擴張特征整合模塊有效減少了計算量,保持較快的分割速率。
在弱監督點云分割中,馬利莊團隊提出一種混合對比學習正則化約束的增強方法(Li等,2022a)。現有基于對比學習的弱監督點云分割方法通過對真實點云做數據增強(如隨機旋轉、隨機翻轉等)形成參照樣本,通過構建原始點云和參照樣本之間的正負樣本對,從而使用對比損失函數訓練。此外,該方法進一步考慮點與其近鄰區域間語義類別應具有局部連續性的特點,結合偽標簽和一致性約束的相關技術,提出一種混合對比學習的網絡結構,如圖2所示。在局部區域里,每個視角的點云與另一視角下的鄰域空間滿足一致性約束;在全局層次里,每個視角的預測結果與另一視角下的全局類原型特征通過對比學習建立約束。在S3DIS數據集上成功實現每幀點云場景只使用0.03%標注獲得的分割精度為全監督方法的78.3%左右。
圖2 混合對比學習正則化約束的增強方法框架(Li等,2022a)
4.3 場景點云樣例分割與檢測
在場景理解中,3D點云實例分割是一項具有挑戰性的任務。相比于語義分割,實例分割需要對場景內的點進行更為細粒度的推理。具體來說,實例分割除了需要區分不同語義類別的點,還需要進一步分離屬于同一語義類別的單獨實例。現有的研究方法可以歸納為兩類,即基于Proposal的方法和Proposal-free的方法。
基于Proposal的方法遵循一種自上而下的策略,通過生成一系列的proposal來檢測出每個實例,并在每個proposal內分割出實例掩碼。
Yang等人(2019a)提出3D-BoNet來直接回歸點云中所有實例的3D邊界框,并同時預測出每個實例掩碼。對于目標proposal的生成,3D邊界框是對物體的一種簡單幾何近似形式。然而,對于大部分物體3D邊界框是不可靠的,因為3D邊界框不依賴于對目標物體幾何形狀的深入理解,導致單個proposal內會包含多個對象或僅包含對象的某個部分。因此,Yi等人(2019)提出了GSPN方法,沒有將目標proposal的生成視為一個直接的邊界框回歸問題,而是采用綜合分析的策略,通過場景內的噪音觀察重建形狀以生成優質的目標proposal。
Proposal-free的方法摒棄了對Proposal的依賴,將實例分割作為語義分割的后續聚類步驟。
Wang等人(2018b)提出了相似性群提議網絡(SGPN),以PointNet作為骨干網絡來提取點的特征,并設置了相似度矩陣模塊來學習所有點對在特征空間上的相似度,從而將相似的點融合為實例。然而,構造點對的相似矩陣需要占用大量內存,且相似矩陣存在較多的冗余信息,難以拓展到大規模的點云數據中。
因此,Liu等人(2019a)提出了基于稀疏卷積的多尺度親和度(MASC),該方法首先對點云做體素化處理,并在子流形稀疏卷積的基礎上預測每個非空體素的語義得分,同時生成不同尺度下相鄰體素的親和度,最后根據語義預測和親和度大小來生成實例。除了通過相似度矩陣和親和度來進行實例聚類外,許多現有方法計算點的中心偏移量,并依據偏移點之間的空間距離來進行實例分組。
Jiang等人(2020)提出PointGroup方法,在預測點語義標簽的同時估計點到對應實例中心的偏移量,并用該偏移量來生成一個偏移點集。然后,PointGroup在原始點集和偏移點集內均進行實例聚類。對于點集內的每個點,PointGroup以點的坐標作為參考,將點與其鄰近且有著相同語義的點進行分組,并漸進地擴大每個實例組。
在PointGroup的基礎上,Chen等人(2021)提出分層聚合的HAIS方法,首先將點聚合至距離閾值較低的點集中,以避免過分割,然后再用動態的距離閾值合并點集以形成完整的實例。考慮到點集的聚合會將噪聲點吸收至實例中,HAIS設計了針對實例內部的子網絡,用于去除實例內部的噪點并對實例掩碼的質量進行評分。PointGroup和HAIS在區分前景點和背景點時,均采用了硬語義分割的形式,即一個點僅被分配單個語義類別,然而在大多數情況下,點云物體的局部通常都是模糊的,這使得同一個物體的不同部分易被預測為不同的類別,此時使用硬語義分割的結果進行后續的實例聚類將導致語義分割的錯誤預測被傳播至實例分割結果。
因此,Vu等人(2022)提出了SoftGroup模型,允許每個點關聯多個類別,以緩解語義預測錯誤對實例分割的影響,并將假陽性的實例預測視為背景類來進一步提高語義分割的性能。
4.4 掃描場景與物體點云補全
4.4.1 全監督點云補全
三維點云補全任務旨在從輸入的殘缺點云中預測完整的幾何形狀。隨著點云處理方法的快速發展,全監督點云補全任務不斷取得性能上的提升。
Zhang等人(2020b)提出兩種特征組裝策略進行三維點云補全,利用多尺度特征的功能并整合不同的信息來分別表示給定的部分和缺失的部分。同時,借助全局和局部特征聚合和殘差特征聚合來恢復完整的點云幾何結構。此外,還設計了一個細化模塊,以防止生成的點云分布不均和異常值。Zhao等人(2021)設計了一種缺失點云部分的補全方法,主要強調兩個點云非常接近且上下文相關的配對場景,還設計了一個網絡來編碼單個的幾何形狀以及成對場景中不同點云之間的空間關系,使用不同點云序列之間的一致性損失作為監督來訓練雙路徑網絡,這種方法可以處理點云之間嚴重相互遮擋的復雜情況。
Yu等人(2021b)首先將基于Transformer的編碼器—解碼器網絡集成到點云完成任務中,并通過解決集合到集合的轉換問題完成殘缺點云的補全。劉心溥等人(2022)提出多尺度的嵌入注意力模塊,通過特征嵌入層與Transformer層提取融合不同尺度特征,優化細節補全效果。
除此之外,受經典幾何建模理論的啟發,馬利莊團隊(Tang等,2022)提出一種創新性的關鍵點—骨架—形狀的點云補全網絡,利用三維物體的幾何和結構化拓撲信息來輔助點云完整結構的恢復。該方法包括關鍵點定位、骨架生成和形狀細化3個步驟,這種遞進式的網絡結構有效提升了點云補全的準確性和精度。
4.4.2 真實掃描點云跨域補全
Chen等人(2020)利用兩個自動編碼器來重構虛擬完整的點云和真實的殘缺點云,并使用映射函數將真實點云的編碼映射到虛擬完整空間中來補全點云。然后,設計了對抗性損失以確保目標樣本的映射隱藏編碼與源樣本共享相同的分布。Wen等人(2021)在輸入的潛在空間編碼和完整點云的空間編碼之間設計了雙向循環轉換機制,并引入了從完整分支到殘缺分支的反向映射功能,以進一步保持形狀一致性。Cai等人(2022)提出一種統一的結構化網絡,將部分點云解耦為完整的形狀因子和遮擋因子,可以有效提高形狀完成精度,完整形狀因子和遮擋因子兩者逐元素乘積用以重建殘缺點云,補全過程僅使用完整形狀因子,為學習該結構化潛空間提出了一系列約束條件,包括結構化排名正則、潛碼交換以及潛碼分布監督。馬利莊團隊(Gong等,2022)結合回歸與優化兩個階段提高補全點云與輸入殘缺點云間的一致性,加速模型推理速度。其中,特征解耦進行域級別的對齊,殘缺點云特征被解耦為域、形狀和遮擋3個因子。殘缺點云的遮擋因子與觀察視角強相關,故設計自監督視點預測任務以學習遮擋因子;域因子與形狀因子分別代表域風格與點云形狀,故使用域判別器結合梯度反轉同時訓練域因子與形狀因子。
05發展趨勢與展望
得益于激光雷達等遠距離傳感器和結構光等近距離傳感器的發展,三維點云場景數據的獲取變得愈發便利。相比于2維圖像,點云數據受外界光照和成像距離的影響較小,并能夠更為有效地反映三維真實世界的空間結構,呈現出更為豐富的幾何信息、形狀信息和尺度信息。憑借這些優勢,三維場景理解與重建技術能夠使機器以三維空間的思維來記錄和理解真實世界,這對于工業生產自動化、城市管理信息化以及生活娛樂智能化有著重要意義。三維場景理解與重建系列技術可廣泛應用于場景模型重建、SLAM、機器人感知、路況分析和歷史文物保護等場景中。為此,眾多研究聚焦三維點云的場景理解與重建中點云特征提取與匹配融合、場景理解與語義分割以及掃描點云補全等關鍵問題,取得了一系列重大進展。但是,目前仍然存在掃描場景差距大、高精度三維場景計算開銷大的問題,極大程度影響真實場景應用精度;點云數據表征非結構化、真實物體形態多種多樣,要求補全方法具有極強的魯棒性和泛化能力;對于三維場景中存在的人物,要求進一步探索場景與人物行為之間的聯系。為進一步發展相關技術,促進落地應用,仍需針對室外點云有限標注下的分割、大規模場景形狀與紋理補全以及三維場景下人物行為理解生成等問題進行更深層次的探索。
在場景點云分割領域中,雖然現有方法模型已經展現出了優秀的性能,但依舊存在許多挑戰。例如,在基于激光雷達掃描的室外場景語義分割中,點云的特征較弱,大多僅包含三維坐標和反射強度,加劇了算法區分點語義類別的難度;在真實應用場景下,不同物體所對應的點云規模差別很大,對模型分割不同尺度的點云物體提出了極高要求;由于點云非結構化的性質,催生了多視圖、2D/3D投影等多種點云的數據表征類型,每種數據類別有著各自的優勢,但也存在著各式各樣的缺點;相比于圖像分割模型,訓練點云分割模型需要更大的計算開銷,對模型訓練時長和硬件資源有著更高的要求。此外,由于分割任務的定義,對3D點云的數據標注要求較為嚴格,需要進行逐點的標簽標注,然而3D點云的標注是昂貴、費力且易出錯的。因此,在有限標簽數據的條件下,研究快速且精準的點云分割算法和框架是該領域的研究重點。
在場景重建領域,隨著人工智能技術的發展,場景重建的真實還原度和紋理細節方面得到了明顯的提升,但在基于圖像視頻的場景重建、大規模場景點云補全等任務內還存在許多有待完善的問題。首先,在基于圖像視頻的場景重建中,不同相機或不同場景條件下的場景深度估計精度難以得到保障,尤其是被遮擋的物體輪廓部分,雖然在圖像中往往占比較小,卻是場景重建的重要線索;當針對視頻數據進行場景重建時,需要關注如何解決視頻幀數據對應的問題;對于點云的稠密化,需要解決的不僅是如何從原本稀疏的點云來生成稠密的點云,更重要的是如何保證生成的點能夠均勻且準確地附著在物體的表面。其次,在大規模場景點云補全中,需要關注如何解決大規模點云場景整體特征提取與物體間信息傳遞的問題;如何解決掃描數據中密度差異巨大的問題,以及如何處理大規模點云中細粒度特征重建的問題。這些問題都是值得未來研究的重要方向。
在三維場景理解與重建的基礎上,對真實世界的數字化建模更要求能夠探索三維場景與人之間的關系,對場景中人的行為進行理解甚至能夠對場景中的人物進行模擬和動作生成。但點云場景的非結構化表征與人體行為的多樣性都使得人體與場景之間的關聯很難通過簡單的顯式表達式進行定義。因此,在基于場景的人物行為理解與生成中,如何更好地建模三維點云場景與人物行為之間的關聯性和一致性;如何在三維場景下生成人物長時間且真實的行為動作;在保證生成的人物行為在3D場景中是自然且合理的同時如何提升動作合成的效率以實現分鐘級別的動作生成速度等仍需要后續的工作進行進一步探索。
綜上所述,基于三維點云的場景理解與重建的相關技術面臨著許多亟待解決的問題和挑戰。
在未來,場景點云語義分割的研究應當綜合考慮3D真實物理世界在不同視角下的映射,并設計對硬件資源更為友好的算法框架;場景重建領域的研究重心應在于重建出細致化且更為真實的大規模場景;對于三維場景和人的關系,重心在于理解和遵循兩者之間存在的規律,建模人與三維場景之間更為精細化的聯系,以及探索快速生成自然且合理的人物行為的模型。毫無疑問的是,三維點云的場景理解與重建對國民日常生活、工業生產和國防建設有著巨大的經濟和社會價值。
期待點云特征提取、場景點云分割和掃描點云補全等相關領域得到進一步發展,在數據集建設、模型計算優化以及魯棒性和可解釋性上取得更大的前進,為實現自動駕駛、數字工廠和智慧城市等方面提供持續且可靠的動力。
-
三維
+關注
關注
1文章
512瀏覽量
29043 -
數字化
+關注
關注
8文章
8873瀏覽量
62226 -
點云
+關注
關注
0文章
58瀏覽量
3824
原文標題:三萬字收藏 | 三維場景點云理解與重建技術
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
三維快速建模技術與三維掃描建模的應用
怎樣去設計一種基于RGB-D相機的三維重建無序抓取系統?
如何去開發一款基于RGB-D相機與機械臂的三維重建無序抓取系統
無人機三維建模的信息
基于FPGA的醫學圖像三維重建系統設計與實現
基于非量測相片的三維模型重建
![基于非量測相片的<b class='flag-5'>三維</b>模型<b class='flag-5'>重建</b>](https://file.elecfans.com/web1/M00/46/08/o4YBAFqPfQiAdP4PAABQ3HaGWs8799.jpg)
如何使用單目視覺進行高精度三維場景重建技術研究
![如何使用單目視覺進行高精度<b class='flag-5'>三維</b><b class='flag-5'>場景</b><b class='flag-5'>重建</b><b class='flag-5'>技術</b>研究](https://file.elecfans.com/web1/M00/7E/DF/o4YBAFwgl42AHJzTAAEdO4g4dmE713.png)
如何使用純格雷碼進行三維重建?
基于NeRF的三維場景重建和理解
NerfingMVS:引導優化神經輻射場實現室內多視角三維重建
三維重建:從入門到入土
如何實現整個三維重建過程
![如何實現整個<b class='flag-5'>三維重建</b>過程](https://file1.elecfans.com/web2/M00/A1/35/wKgZomTxVceAfiXIAABymTcfzuY542.png)
評論