在過去的幾年中,深度卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)已經(jīng)改變了計算機視覺的領(lǐng)域,這是由于它們具有學(xué)習(xí)高級語義圖像特征的無與倫比的能力。然而,為了成功地學(xué)習(xí)這些特征,它們通常需要大量手動標(biāo)記的數(shù)據(jù),這既昂貴又不可實行。因此,無監(jiān)督語義特征學(xué)習(xí),即在不需要手動注釋工作的情況下進行學(xué)習(xí),對于現(xiàn)今成功獲取大量可用的可視數(shù)據(jù)至關(guān)重要。
在我們的研究中,我們打算通過這種方式學(xué)習(xí)圖像特征:訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來識別被應(yīng)用到作為輸入的圖像上的二維旋轉(zhuǎn)。我們從定性和定量兩方面證明,這個看似簡單的任務(wù)實際上為語義特征學(xué)習(xí)提供了非常強大的監(jiān)督信號。我們在各種無監(jiān)督的特征學(xué)習(xí)基準(zhǔn)中,對我們的方法進行了詳盡的評估,并在所有這些基準(zhǔn)中展示出了最先進的性能。
具體來說,我們在這些基準(zhǔn)中的結(jié)果展現(xiàn)了在無監(jiān)督的表征學(xué)習(xí)中,較之先前最先進的方法,我們的方法取得了巨大改進,從而顯著縮小了與監(jiān)督特征學(xué)習(xí)之間的差距。例如,在PASCAL VOC 2007檢測任務(wù)中,我們的無監(jiān)督預(yù)訓(xùn)練的AlexNet模型達到了54.4%的 最先進的性能表現(xiàn)(在無監(jiān)督的方法中),比監(jiān)督學(xué)習(xí)的情況下僅少了2.4個百分點。當(dāng)我們將無監(jiān)督的學(xué)習(xí)特征遷移到其他任務(wù)上時,我們得到了同樣的驚人結(jié)果,例如ImageNet分類、PASCAL分類、PASCAL分割和CIFAR-10分類。我們論文的代碼和模型將會發(fā)布在這里。
近年來,在計算機視覺中廣泛采用的深度卷積神經(jīng)網(wǎng)絡(luò)(LeCun等人于1998年提出),在這一領(lǐng)域取得了巨大的進步。具體來說,通過在具有大量手動標(biāo)記數(shù)據(jù)的目標(biāo)識別(Russakovsky等人于2015年提出)或場景分類(Zhou等人于2014年提出)任務(wù)上對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,它們成功學(xué)習(xí)到了適合于圖像理解任務(wù)的強大視覺表征。
例如,在這種監(jiān)督的方式下,卷積神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的圖像特征在它們被遷移到其他視覺任務(wù)時取得了很好的效果,比如目標(biāo)檢測(Girshick于2015年提出)、語義分割(Long等人于2015年提出),或者圖像描述(Karpathy 和 Fei-Fei于2015年提出)。然而,監(jiān)督特征學(xué)習(xí)有一個主要的限制,那就是需要大量的手動標(biāo)記工作。在如今擁有大量可用的可視數(shù)據(jù)的情況下,這既昂貴又不可實行。
以90°的隨機倍數(shù)(例如,0°、90°、180°、270°)旋轉(zhuǎn)的圖像。我們自監(jiān)督特征學(xué)習(xí)方法的核心觀念是,如果一個人對圖像中描述的對象沒有概念,那么他就不能識別應(yīng)用于它們的旋轉(zhuǎn)。
因此,最近人們對以無監(jiān)督的方式學(xué)習(xí)高級的基于卷積神經(jīng)網(wǎng)絡(luò)的表征越來越感興趣,這種方式避免了對視覺數(shù)據(jù)的手動注釋。其中,一個突出的范例就是所謂的自監(jiān)督學(xué)習(xí),它界定了一個注解不受約束的借口任務(wù),只使用圖像或視頻上的視覺信息,從而給特征學(xué)習(xí)提供一個代理監(jiān)督信號。
例如,為了學(xué)習(xí)特征,Zhang等人和Larsson等人訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)以對灰度圖像進行著色,Doersch等人(于2015年)、Noroozi 和 Favaro(于2016年)預(yù)測了圖像塊的相對位置,以及Agrawal等人(于2015年)預(yù)測了在兩個連續(xù)幀之間正在移動的車輛的運動(即自動)。
這種自監(jiān)督任務(wù)背后的基本原理是,解決這些問題將迫使卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語義圖像特征,這對其他視覺任務(wù)是有用的。事實上,通過上述自監(jiān)督任務(wù)所學(xué)習(xí)的圖像表征,盡管它們沒能做到與監(jiān)督學(xué)習(xí)表征的性能相當(dāng),但它們已經(jīng)被證明在遷移到其他視覺任務(wù)上時是個好選擇,諸如目標(biāo)識別、目標(biāo)檢測和語義分割。其他成功的無監(jiān)督特征學(xué)習(xí)案例是基于聚類的方法、基于重構(gòu)的方法,和學(xué)習(xí)生成概率模型的方法。
我們所提出的用于語義特征學(xué)習(xí)的自監(jiān)督任務(wù)的說明圖
我們的研究遵循自監(jiān)督范例,并提出,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)識別應(yīng)用于其作為輸入的圖像的幾何變換,從而學(xué)習(xí)圖像表示。更具體地說,首先,我們定義了一組離散的幾何變換,然后將這些幾何變換中的每一個應(yīng)用于數(shù)據(jù)集上的每個圖像,并且將生成的變換圖像饋送到經(jīng)過訓(xùn)練以識別每個圖像的變換的卷積神經(jīng)網(wǎng)絡(luò)模型中。在這個方法中,它是一組幾何變換,實際上定義了卷積神經(jīng)網(wǎng)絡(luò)模型所必須學(xué)習(xí)的分類接口任務(wù)(classification pretext task)。
因此,為了實現(xiàn)無監(jiān)督的語義特征學(xué)習(xí),正確地選擇這些幾何變換是至關(guān)重要的。我們提出的是將幾何變換定義為0°、90°、180°和270°的圖像旋轉(zhuǎn)。因此,卷積神經(jīng)網(wǎng)絡(luò)模型在識別四個圖像旋轉(zhuǎn)之一(見圖2)的4種圖像分類任務(wù)上進行了訓(xùn)練。我們認(rèn)為,為了讓一個ConvNet模型能夠識別應(yīng)用于圖像中的旋轉(zhuǎn)變換,它需要理解圖像中所描述的對象的概念(參見圖1),例如它們在圖像中的位置、類型和、姿勢。在整篇論文中,我們從定性和定量的論證上支持這一理論。
此外,我們經(jīng)過實驗證明,盡管我們的自監(jiān)督方法很簡單,但預(yù)測旋轉(zhuǎn)變換的任務(wù)為特征學(xué)習(xí)提供了一個強大的替代監(jiān)督信號。在相關(guān)基準(zhǔn)測試上取得了顯著的進步。
由AlexNet模型所生成的注意力圖(attention map),對(a)進行訓(xùn)練以識別目標(biāo)(監(jiān)督),和對(b)進行訓(xùn)練以識別圖像旋轉(zhuǎn)(自監(jiān)督)。為了生成一個卷積層的注意圖,我們首先計算該層的特征映射,然后我們提高power p上的每個特征激活,最后我們對特征映射的每個位置處的激活進行求和。對于卷積層1,2和3,我們分別使用了p = 1、p = 2和p = 4
需要注意的是,我們的自監(jiān)督任務(wù)不同于Dosovitskiy等人于2014年和Agrawal等人于2015年所提出的研究方法,盡管他們也涉及到幾何變換。Dosovitskiy等人于2014年訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)模型,以產(chǎn)生對圖像的區(qū)分性表征,同時不改變幾何和色度變換。相反,我們訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來識別應(yīng)用于圖像的幾何變換。
這與Agrawal等人于2015年提出的自運動方法(egomotion method)有根本的不同,該方法采用了一種帶有孿生(siamese)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型將兩個連續(xù)的視頻幀作為輸入,并進行訓(xùn)練以預(yù)測(通過回歸)其相機轉(zhuǎn)換。相反,在我們的方法中,卷積神經(jīng)網(wǎng)絡(luò)將一個單一圖像作為輸入,我們已經(jīng)應(yīng)用了一個隨機幾何變換(旋轉(zhuǎn)),并經(jīng)過訓(xùn)練(通過分類)識別這種幾何變換,而不需要訪問初始圖像。
由AlexNet模型所學(xué)習(xí)第一層過濾器在(a)監(jiān)督目標(biāo)識別任務(wù)和(b)識別旋轉(zhuǎn)圖像的自監(jiān)督任務(wù)上進行的訓(xùn)練
我們的貢獻:
?我們提出了一個新的自監(jiān)督任務(wù),這個任務(wù)非常簡單,與此同時,我們也在文章中進行了展示,為語義特征學(xué)習(xí)提供了強大的監(jiān)督信號。
?我們在各種環(huán)境(例如半監(jiān)督或遷移學(xué)習(xí)環(huán)境)和各種視覺任務(wù)(即CIFAR-10、ImageNet、Places和PASCAL分類以及檢測或分割任務(wù))中詳細(xì)評估了我們的自監(jiān)督方法。
?我們提出的新的自監(jiān)督方法在各個方面都展現(xiàn)出了最先進的成果,較先前的無監(jiān)督方法有了顯著改善。
?我們的研究表明,對于幾個重要的視覺任務(wù)而言,我們的自監(jiān)督學(xué)習(xí)方法顯著縮小了與無監(jiān)督和監(jiān)督特征學(xué)習(xí)之間的差距。
經(jīng)過研究,我們提出了一種用于自監(jiān)督特征學(xué)習(xí)的新方法,它通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,使其能夠識別已經(jīng)用作輸入圖像的圖像旋轉(zhuǎn)。盡管我們的自監(jiān)督任務(wù)很簡單,但我們證明,它可以成功地訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,從而學(xué)習(xí)語義特征,這些語義特征對于各種視覺感知任務(wù)非常有用,例如目標(biāo)識別、目標(biāo)檢測和目標(biāo)分割。
我們在各種無監(jiān)督和半監(jiān)督條件下對我們的方法進行了詳盡的評估,并且在測試中實現(xiàn)了最先進的性能。具體而言,我們的自監(jiān)督方法大幅度改進了ImageNet分類、PASCAL分類、PASCAL檢測、PASCAL分割和CIFAR-10分類的無監(jiān)督特征學(xué)習(xí)的最新結(jié)果,超越了以往的方法,因此大幅縮小了無監(jiān)督和監(jiān)督特征學(xué)習(xí)之間的差距。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4811瀏覽量
103009 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41081
原文標(biāo)題:無監(jiān)督學(xué)習(xí)最新研究:通過簡單的「圖像旋轉(zhuǎn)」預(yù)測便可為圖像特征學(xué)習(xí)提供強大監(jiān)督信號
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
機器學(xué)習(xí)技術(shù)在圖像處理中的應(yīng)用
50多種適合機器學(xué)習(xí)和預(yù)測應(yīng)用的API,你的選擇是?(2018年版本)
如何平滑地旋轉(zhuǎn)圖像?
基于OpenCV的圖像特征智能識別系統(tǒng)設(shè)計
如何利用倍頻信號濾波的非規(guī)則圖像動態(tài)特征

半監(jiān)督的譜聚類圖像分割
opencv如何實現(xiàn)圖像旋轉(zhuǎn)_原理是什么

基于鄰域特征學(xué)習(xí)的單幅圖像超分辨重建

簡單好上手的圖像分類教程!

基于SIFT特征的圖像配準(zhǔn)(圖像匹配)
采用自監(jiān)督CNN進行單圖像深度估計的方法

評論