周四晚上11點,萬眾矚目的世界杯終于開踢了,雖然意大利、荷蘭、智利、中國(手動滑稽)等強隊沒能進入本屆世界杯,但C羅梅西誰主沉浮、桑巴足球可否復仇、冰島國足能走多遠依舊看點十足。比起能在家門口看球的毛子和有閑錢閑功夫飛赴球場的球迷,大多數人還是只能囿于屏幕前。再加上顧及會遇到正面剛無敵的戰斗民族,英國人還是坐在家中看球比較穩妥。
可若是在家吃著燒烤,喝著啤酒,換了大屏幕甚至改用投影儀,看球還不爽怎么辦?新系統來幫你忙,給予你真·上帝視角的體驗。
想象一下,如果可以在桌子地板上觀看足球比賽的3D全息圖,還能四處走動從不同視角觀看球員,那該有多炫酷。想要獲得此種體驗的一種方法便是在球場各個方位布置多臺同步攝像機,然后利用多視圖幾何技術重建場地和球員的3D模型。然而多攝像機的布置降低了它的適用性。今天要說的另一種方法則是利用單目視頻完成對球場和球員的3D重建。在前一段時間,我們也提到過兩個單目動捕方案:Vnect和MonoPertCap,就基本原理來說,三者也有著一些異曲同工之妙。
導入YouTube視頻后,研究人員使用字段線來恢復相機參數,通過提取邊界框、姿勢和運動軌跡(跨多個幀)分割出球員輪廓。然后使用訓練有素的深層網絡在場中重建每個球員的深度圖并在3D查看器或AR設備上渲染這些深度圖。
于是識別球員的重任就落在了深度學習網絡上,而它的訓練方法又顯得十分巧妙。有別于傳統的訓練方式,此系統選擇了FIFA游戲作為訓練素材。倘若使用普通2D足球視頻,很難從干巴巴的平面中提取出訓練所需的深度數據信息,而本身基于大量數據編輯而成的FIFA則可以提供更加詳細的數據集。
研究人員使用RenderDoc (RenderDoc是一款功能強大的開源圖形調試器,除了可以用于圖形開發,還可以用來分析各游戲大作的渲染流程)來攔截游戲引擎和GPU之間的調用。與大多數游戲類似,FIFA在游戲過程中使用延遲著色,因此可以很方便地捕獲每幀的深度和顏色緩沖區。一旦給定幀的深度和顏色被捕獲,研究人員就將處理它以提取球員。提取的顏色緩沖區即是游戲的RGB屏幕截圖。接下來用OpenGL相機矩陣來將緩沖區轉化為坐標系中的三維點從而得到點云,再用DBSCAN聚類算法將球員分開,最后將每個球員的3D集群投影到圖像上,并使用度量深度重新計算深度緩沖區。簡單來說,利用FIFA,不光有圖,還有現成的數據作參考,豈不美哉。
可是球場上的激烈角逐免不了身體碰撞,再加上攝像機機位的角度問題,很容易就造成畫面內的球員相互遮擋。在有遮擋的情況下,深度學習網絡的計算是混亂的。盡管有訓練樣本帶有遮擋,但還是不足以讓網絡計算出一名球員的深度。出于這個原因,研究人員通過提供一個分割掩模來幫助深度網絡計算,其中被追蹤的球員是前景,場地、體育場和其他球員是背景。
完成了深度學習網絡的計算,接下來就是對于場景的重建了。首先自然是對于攝像機參數的把握。由于需要令重建的場景為用戶提供可旋轉拉伸的視角,因此研究者們取球場上的邊線、中線、底線等作為特征坐標以便定位。在完成了對于球員身體關鍵點(骨架)的捕捉后,就要生成網格了。
因為深度學習網絡輸出是每個像素量化的符號距離、球員的表面和虛擬平面之間的距離,所以為了獲得度量深度圖,要將球員的邊界框提升為3D,創建一個平面(假設玩家的底部像素位于地面上)。然后,我們將網絡輸出的距離偏移應用到3D平面上,以獲得所需的深度圖。然后輔以相機參數將深度圖投影到坐標中,從而以3D形式生成玩家的點云。每個像素對應一個3D點,連接像素建立面部,再對網格進行紋理貼圖。根據應用的不同,還可以通過抽取部分網格來進一步簡化網格結構,以節省設備中的儲存空間。
當然就目前來看,該系統還有著很多不完善的地方,比如無法模擬球員跳躍、無法獲得全方位令人滿意的觀看體驗、無法實時重構、無法高效數據壓縮、足球總是閃爍不定等。
總的來說,游戲的發展似乎為深度學習網絡提供了豐富的素材,由此也側面推動了AR VR技術的進步。這也為直男提供了一個新思路:等下次再有妹子問你什么是越位的時候,你就可以一幀一幀得和她講解了。
-
VR技術
+關注
關注
2文章
226瀏覽量
19007 -
3D模型
+關注
關注
1文章
72瀏覽量
16331 -
深度學習
+關注
關注
73文章
5555瀏覽量
122500
原文標題:為了好好看球,學霸們用深度學習重建整個比賽3D全息圖
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論