簡單記一下最近看的六篇場景流論文~其中3篇是關(guān)于RGBD圖像的場景流,另外3篇是關(guān)于點云的場景流。
來源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北
所謂場景流,就是光流的三維版本,表述了圖像/點云中每個點在前后兩幀的變化情況。目前對場景流的研究還局限在實驗室階段,由于缺乏實際數(shù)據(jù)(打標(biāo)成本太高)以及客觀的評價指標(biāo),離工程應(yīng)用還有不小的距離。此外,巨大的計算量也是一個瓶頸。以下論文可以在文末直接下載。
《Deep Rigid Instance Scene Flow》 CVPR 2019
輸入:雙目攝像頭的前后幀左右圖像
核心思想:把場景流分割成多個actor的運動,利用MaskRCNN進行Instance Segmentation,每個Instance的Motion都應(yīng)該與深度和光流一致。
首先,利用三個預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取視覺線索:
a. 利用MaskRCNN進行Instance Segmentation
b. 利用PSM-Net計算深度圖(disparity map)
c. 利用PWC-Net計算光流
之后,采用高斯牛頓法最小化下面三個能量函數(shù)之和得到3D motion:
a. Photometric Error:前一幀左邊圖像的inlier像素點,與第二幀的投影位置的像素點必須盡量一致
b. Rigid Fitting:估計出的剛體運動必須與觀察到的深度和光流信息一致
c. Flow Consistency:估計出的剛體運動在2d上的投影必須和光流一致
《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018
輸入:前后幀圖像的RGBD信息
核心思想:把圖像分割為rigid/no-rigid區(qū)域,計算rigid區(qū)域的ego motion后再結(jié)合光流即可得到scene flow。
先利用兩個預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取特征:
a. 利用PWCNet提取前后兩幀的光流
b. 利用 rigidity-transform network (RTN)預(yù)測ego-motion以及rigidity mask
之后,結(jié)合光流、rigidity mask對ego motioon進行refine,保證rigity里面的像素點的光流與ego-motion一致。
最后,綜合利用光流、rigidity mask、ego motioon信息即可得到scene flow。
備注:本文的另一個貢獻(xiàn)是提出了一個用于場景流的數(shù)據(jù)庫REFRESH。在kitti的inference結(jié)果如下,不是很好。
《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI
輸入:單目/雙目攝像頭的前后幀圖像
核心思想:先用三個子網(wǎng)絡(luò)估計光流、深度、camera motion,送入holistic 3D motion parser (HMP) 按照幾何關(guān)系即可計算出rigid background的motion和moving objects的motion。
三個子網(wǎng)絡(luò)先分別進行預(yù)訓(xùn)練,再結(jié)合HMP考慮如下loss優(yōu)化三個子網(wǎng)絡(luò):
a. Rigid-aware structural matching:按照3D motion投影后rigid部分的結(jié)構(gòu)特點應(yīng)該match
b. Edge-aware local smoothness:投影后的深度和光流的應(yīng)該保持smoothness
c. Rigid-aware 3D motion consistency:rigid background的moving object motion值應(yīng)該盡量小
d. Flow motion consistency in occluded regions:occluded regions的光流前后映射應(yīng)該一致
e. Multi-scale penalization:累加4個尺度的loss
備注:在雙目攝像頭的表現(xiàn)優(yōu)于單目。通過joint learning,光流、深度、camera motion的表現(xiàn)均有提升。
在Kitti上的表現(xiàn)如下,算是差強人意吧。
本文作者還有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》,是關(guān)于估計ego motion的。
《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018
輸入:僅使用點云數(shù)據(jù)
核心思想:采用pointnet++作為基本模塊,提取前后兩幀點云特征并進行融合、上采樣,直接擬合出scene flow
網(wǎng)絡(luò)結(jié)構(gòu)如下:
a. 4組set conv layer:pointnet++ 提取點云特征
b. 1組flow embedding layer: 把前后兩幀的點云特征mix,第一幀的取中心點,其臨近點從第二幀取,再提取特征
c. 4組set upconv layer:上采樣,新增點從鄰近點獲取特征
loss為smooth L1 loss
備注:在合成數(shù)據(jù)集上訓(xùn)練的模型可以直接在kitti上work,但與圖像場景流的論文不同,沒有把background和moving object做區(qū)分,沒有考慮ego motion。
《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019
輸入:僅使用點云數(shù)據(jù)
核心思想:采用Bilateral Convolutional Layers作為基本模塊,提取前后兩幀點云特征并進行融合、上采樣,直接擬合出scene flow。
備注:與FlowNet3D的整體結(jié)構(gòu)一樣,都是下采樣-融合-上采樣。Bilateral Convolutional Layers能夠快速處理高維稀疏數(shù)據(jù),是不同于PointNet的一種濾波操作。
《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019
輸入:僅使用點云數(shù)據(jù)
核心思想:利用點云數(shù)據(jù)提取特征后,分別生成ego motion、scene flow、rigid motion、objection location,再整合結(jié)果輸出
細(xì)節(jié)如下:
a. 采用VolexNet作為feature encoder
b. 把前后兩幀的特征進行concate,接入context encoder
c. 之后,接入三個分支:
i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(證明了rigid motion decoder 無法使用卷積層,故此處采用了fc)
iii. objection location decoder
d. 把檢測出的object和motion融合得到結(jié)果
loss為 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss
備注:本文思路與圖像類方法很像,也是考慮各個instance的motion。
總結(jié)
- Deep Rigid Instance Scene Flow:
輸入為雙目圖像,用MaskRCNN把動靜態(tài)障礙物分開。三個子網(wǎng)絡(luò)分別獨立訓(xùn)練并計算出Instance Segmentation、深度圖、光流,利用三個子網(wǎng)絡(luò)的結(jié)果計算motion,進而得到scene flow。
- Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation:
輸入為RGBD圖像,兩個子網(wǎng)絡(luò)分別獨立訓(xùn)練并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。
- Every Pixel Counts ++:
輸入為單目/雙目攝像頭,先用三個子網(wǎng)絡(luò)估計光流、深度、camera motion,再按照幾何關(guān)系計算出rigid background的motion和moving objects的motion,之后根據(jù)一致性對三個子網(wǎng)絡(luò)進行優(yōu)化。
- FlowNet3D 以及 HPLFlowNet:
分別對前后兩幀點云下采樣提取特征并進行融合、上采樣,直接擬合出scene flow。
- PointFlowNet(思路類似Deep Rigid Instance Scene Flow):
采用volexnet提取前后兩幀點云特征并融合,先檢測出object、計算出ego motion、scene flow,再去回歸各個object的motion。
審核編輯:符乾江-
AI
+關(guān)注
關(guān)注
88文章
34421瀏覽量
275709 -
人工智能
+關(guān)注
關(guān)注
1804文章
48788瀏覽量
246917
發(fā)布評論請先 登錄
使用FX3測試程序中的數(shù)據(jù)流時,遇到了每8個字節(jié)重復(fù)的場景,是什么原因?qū)е碌模?/a>
弧光保護裝置與傳統(tǒng)過流保護的差異
敏捷合成器的技術(shù)原理和應(yīng)用場景
RTOS的流緩沖區(qū)機制解析

評論