計算機視覺三大會議之一的ECCV 2018將于9月8號到14號在德國慕尼黑召開!本次會議共接收論文779篇,同時在會議上將舉行11場tutorials和43場各個領(lǐng)域的workshops。同時優(yōu)秀的論文還將在會議上進行口頭報告,在四天的會議日程中將會有59個orals報告覆蓋了從視覺學習、圖形攝影、人類感知、立體三維以及識別等各個領(lǐng)域。我們先來一探究竟吧!
根據(jù)網(wǎng)站上公布的論文題目,可以看到今年的研究熱點依然圍繞學習、網(wǎng)絡等研究方式展開,但同時,檢測、可視化和視覺方面的研究也占有重要的位置。接下來我們就提前來看看ECCV將為我們帶來哪些精彩的研究前沿吧!
Oral
今年ECCV的主論壇將12個不同主題的分論壇分別安排到了10-13號四天的會議時間中,主要包括了視覺學習、計算攝影學、人類分析和感知、三維重建、優(yōu)化與識別等領(lǐng)域。
在視覺學習方向,有來自Facebook的Yuxin Wu和Kaiming提出的Group Normalization來解決Batch Normalizaiton存在的問題,將不同的通道分組歸一化實現(xiàn)了優(yōu)異的表現(xiàn)。
還有來自愛丁堡大學和日本理化研究所的研究人員提出的深度匹配自編碼器,用于從非配對多模態(tài)數(shù)據(jù)中學習出共有的隱含空間。
同時來自約翰霍普金斯大學、斯坦福大學和谷歌聯(lián)合研究的漸進式神經(jīng)架構(gòu)搜索,用于學習神經(jīng)網(wǎng)絡的結(jié)構(gòu)。通過基于序列模型的優(yōu)化策略實現(xiàn)了高于強化學習和進化算法近五倍的效率和8倍的總體計算提升。并在CIFAR-10和ImageNet上取得了很高的精度。
值得一提的是,除了來自于霍普金斯的劉晨曦和谷歌的Zoph外,論文作者還包括李飛飛和李佳等。據(jù)報道這篇文章與Neural Architecture Search with Reinforcement Learning和Large Scale Evolution of Image Classifiers等技術(shù)一起支撐了谷歌AutoML的發(fā)展。
在計算攝影學方向,包括了從點光源、光場、可編程器件等研究熱點。
來自慕尼黑工大的研究人員利用相機卷簾快門的特性優(yōu)化了直接稀疏里程計的后端,實現(xiàn)了近實時的準確VO方法。
來自海德堡大學的研究人員提出了一種基于style-aware content的損失函數(shù)并聯(lián)合自編碼器訓練出了實時高分辨率的風格遷移模型。使得生產(chǎn)的圖像包含了更多更自然的美感。
來自圣迭戈分校和Adobe的研究人員提出了一種利用單張手機照片獲取不同材料表面變化的雙邊反射率函數(shù),通過神經(jīng)網(wǎng)絡實現(xiàn)了對于SVBRDF的估計,為光度渲染帶來了新的可能。
在人類行為分析與感知包括了人體及各部分的姿態(tài)估計、人臉人手追蹤、行人識別、行為預測等方面。
來自布里斯托、卡塔尼亞和多倫多大學的研究人員們給出了一個用于研究人類行為習慣的第一人稱數(shù)據(jù)庫EPIC-KITCHENS,這一數(shù)據(jù)庫記錄了來自多個國家的參與者在廚房中的第一人稱視角,包含了1150萬幀圖像和3.96萬個動作分割與45.34萬個bbox。這一數(shù)據(jù)集將用于第一人稱的物體檢測、行為識別和行為預測中去。
同樣來自湖南大學和東京大學的研究人員提出了從第一人稱視角來預測凝視注意力的模型。
來自中山大學、商湯和視源的研究人員們提出了一種通過部分xx網(wǎng)絡實現(xiàn)了實例人體分析,通過將實例人體解析任務分解成語義分割和基于邊緣檢測將語義部件歸并到確定人物身上的兩個子任務來實現(xiàn)。
來自伯克利的研究人員提出了一種聯(lián)合視頻中圖像和聲音信息的網(wǎng)絡用于融合多傳感器的表達,利用自監(jiān)督的方式訓練出了一種可以預測視頻幀和音頻是否對齊的神經(jīng)網(wǎng)絡,并可用于視頻聲源定位、音-視識別和音軌分離等任務。
薩里大學和adobe的研究人員通過訓練對稱的卷積自編碼器來學習出骨架關(guān)節(jié)位置的編碼和身體的體積表示。能夠準確恢復出關(guān)節(jié)位置的3D估計。
來自洛桑理工的研究人員也提出了一種非監(jiān)督的3D人體姿態(tài)估計模型,通過自編碼器可以從單一視角的圖像預測另一個視角。由于它編碼了3D幾何表示,研究人員還將它用于半監(jiān)督學習映射人體姿態(tài)。
在立體視覺三維重建方面,主要研究集中在幾何、立體視覺和深度推理等方面。
來自香港科技大學的研究人員提出了利用非結(jié)構(gòu)化的圖像作為輸入,端到端地推算出參考圖像的深圖信息。其提出的NVSNet將相機參數(shù)編碼為可微單應性變換來得到視椎體損失體積,建立起了2D特征抽取和3D損失正則化之間的關(guān)系。最終通過3D卷積來對初始點云規(guī)則化和回歸來得到最終的輸出結(jié)果。
為了解決點云預測中點的位置與物體全局幾何形狀不匹配的問題的問題,港中文提出了幾何對抗損失優(yōu)化單視角下點云的全局三維重建。利用多視角幾何損失和條件對抗損失來對網(wǎng)絡進行訓練。
多視角幾何損失使得網(wǎng)絡學習重建多視角下有效的3D模型,而條件對抗損失則保證重建的3D物體符合普通圖片中的語義信息。
除此之外還包括了普林斯頓的共面匹配方法、普林斯頓與谷歌共同完成的主動立體視覺網(wǎng)絡以及慕尼黑工大提出的基于深度預測的單目稀疏直接里程計等研究工作。
在匹配與識別方面涵蓋了目標檢測、定位、紋理和位置精煉等方面的研究。
來自密歇根大學的研究人員提出了一種基于關(guān)鍵點對兒的目標檢測方法CornerNet。它將目標檢測任務轉(zhuǎn)換為利用單個神經(jīng)網(wǎng)絡對bbox左上和右下角的檢測。這種方法消除了對于錨框的依賴。并提出了一種稱為角點pooling的層來提高對角點的定位能力。最終在COCO上達到了42.1%的mAP.
來自清華北大、曠視和頭條的研究人員提出了一種目標檢測中描述框定位置信度的方法IoU-Net,并利用定位置信度來改善目標檢測中非極大值抑制,以產(chǎn)生更精確的預測框。同時提出了基于優(yōu)化的框提煉方法。
來自以色列理工學院的研究人員提出了一種基于上下文損失的圖像遷移方法,適用于非對齊的數(shù)據(jù)。這種模型基于上下文和語義來定義損失。這一模型在卡通圖像模擬、語義風格遷移和領(lǐng)域遷移中都表現(xiàn)除了很好的效果。
Tutorials
本屆ECCV的tutorials同樣是涉及了視覺領(lǐng)域各個方面的前沿內(nèi)容,從對抗學習到3D重建,從行人識別到目標檢測。一定能找到一個你需要的教程來深入學習。其中有Kaiming,rbg和Gkioxari等大神帶來的視覺識別及其未來的系列教程。
還有神經(jīng)網(wǎng)絡訓練中歸一化方法的理論與實踐、特征與學習的視覺定位。
還包括行人重識別的表達學習和基于步態(tài)&面部分析的識別方法。此外還包括快速三維感知重建和理解的tutorial。
更多內(nèi)容請參閱,某些教程目前已經(jīng)開放相關(guān)資料下載了:
https://eccv2018.org/program/workshops_tutorials/
Workshop
最后我們來概覽一番每次會議都必不可少的workshops。本屆ECCV包括了43個workshops,其中包含了11個各領(lǐng)域的挑戰(zhàn)賽。值得一提的是,很多來自中國的隊伍在很多挑戰(zhàn)賽中都取得了不錯的成績。
今年的workshops 主要集中于識別、檢測、自動機器(自動駕駛、無人機、機器人等)、人類理解分析、三維重建理解、幾何/表示學習和早期視覺等領(lǐng)域。
-
編碼器
+關(guān)注
關(guān)注
45文章
3780瀏覽量
137316 -
神經(jīng)網(wǎng)絡
+關(guān)注
關(guān)注
42文章
4810瀏覽量
102932 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1706瀏覽量
46598
原文標題:計算機視覺三大會議之——ECCV 2018 觀看指南(含大量劇透+傳送門)
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于安芯一號SLH89F5162的真三維立體圖形顯示
雙目立體視覺原理大揭秘(二)
基于立體視覺的變形測量
雙目立體視覺的運用
基于STM32的三維旋轉(zhuǎn)顯示平臺設計(立體成像)!!!
三維立體數(shù)字沙盤是是什么?
三維立體視覺技術(shù)的應用及其三維恢復方法介紹
基于雙目立體視覺的三維拼接和融合方法

三維圖形引擎綜述

評論