細(xì)粒度圖像分析(fine-grained image analysis,FGIA)是計算視覺領(lǐng)域的基礎(chǔ)問題,由于面臨的問題與其他視覺任務(wù)相比具有顯著的差異,細(xì)粒度圖像分析任務(wù)在發(fā)展過程中面臨著獨(dú)特的挑戰(zhàn)。
近年來隨著深度學(xué)習(xí)發(fā)展和數(shù)據(jù)特征表示的進(jìn)步,F(xiàn)GIA也取得了一系列進(jìn)展。來自曠視南京研究院的研究人員們對近年來基于深度學(xué)習(xí)FGIA的發(fā)展進(jìn)行了系統(tǒng)的梳理和分類,同時給出了一系列行業(yè)內(nèi)具體的應(yīng)用實(shí)例,最后從目前面臨的挑戰(zhàn)和開放問題中展望了這一領(lǐng)域的發(fā)展趨勢和研究方向。
細(xì)粒度圖像分析所面臨的任務(wù)是分析和處理某個類別目標(biāo)下的一系列子類別的問題,例如狗的類別下包含了各種不同外形、顏色、身材的狗。這一任務(wù)最大的挑戰(zhàn)在于子類間的差異很小,而在同一類別中的對象卻因?yàn)樽藨B(tài)、大小或者位置呈現(xiàn)出較大的差別。
如何通過準(zhǔn)確的特征表述,從細(xì)微的不同中辨別出不同的子類別,是細(xì)粒度圖像分析任務(wù)所面臨的最大挑戰(zhàn)。
細(xì)粒度圖像分析的主要任務(wù)是從同一父類中辨別出不同子類間的差異。
目前細(xì)粒度圖像分析主要分為識別、檢索和生成三個部分,在學(xué)術(shù)界和產(chǎn)業(yè)界扮演了重要的作用:從生物領(lǐng)域的監(jiān)測和識別到零售領(lǐng)域的商品處理,從天氣和氣候變化分析到交通運(yùn)輸,細(xì)粒度圖像分析擁有廣泛的應(yīng)用前景。
研究人員們在各大頂會上也發(fā)表了大量研究成果,舉辦了諸多FGIA的比賽,例如魚類識別和鯨魚識別等,也為FGIA指明了一系列未來的發(fā)展方向。
細(xì)粒度圖像識別
細(xì)粒度圖像識別任務(wù)是FGIA中最為活躍的研究領(lǐng)域,目前的研究思路重要分為三個方向:
一種是基于定位與分類的方法來實(shí)現(xiàn);
另一種則直接利用端到端的方法實(shí)現(xiàn)特征編碼從而進(jìn)行識別;
最后一種則依賴于容易獲取的外部信息進(jìn)行輔助以實(shí)現(xiàn)細(xì)粒度圖像識別。
定位-分類方法將細(xì)粒度圖像識別轉(zhuǎn)換成了兩個細(xì)分的子任務(wù)。首先通過對圖像中細(xì)粒度目標(biāo)的可識別語義部分進(jìn)行抽取作為中介,隨后利用模型構(gòu)建起對于這些部分的特征表達(dá)并分類來實(shí)現(xiàn)。
這需要一個用于定位這些類別關(guān)鍵部分的子網(wǎng)絡(luò),和一個可以對這些關(guān)鍵部分進(jìn)行有效分類的子網(wǎng)絡(luò)。通常研究人員們會使用bbox框或者語義分割掩膜等來為關(guān)鍵部分定位。基于端到端的方法則直接從數(shù)據(jù)中學(xué)習(xí)可辨別的特征表達(dá),構(gòu)建出強(qiáng)大的細(xì)粒度識別算法。例如雙線心CNN方法利用高階統(tǒng)計特征來提高中級cnn的學(xué)習(xí)能力,但過高的維度限制了這種方法在大規(guī)模數(shù)據(jù)中的現(xiàn)實(shí)應(yīng)用。
最近研究人員利用低維嵌入的聚合以及雙線性特征的近似等方法來改進(jìn)端到端模型,并設(shè)計了特殊的損失函數(shù)來驅(qū)動模型學(xué)習(xí)出細(xì)粒度的表達(dá)。外部信息輔助下的細(xì)粒度圖像識別充分利用了文本、網(wǎng)絡(luò)數(shù)據(jù)、多模態(tài)數(shù)據(jù)和人類的幫助來更有效地進(jìn)行細(xì)粒度任務(wù)。由于人類標(biāo)記的數(shù)據(jù)成本很高,研究人員開始選用互聯(lián)網(wǎng)上帶有弱標(biāo)簽和噪聲的數(shù)據(jù)。
其中一種方法是為需要測試的類別爬取含有標(biāo)記噪聲的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其主要的研究方向在于克服標(biāo)記數(shù)據(jù)與易獲取網(wǎng)絡(luò)數(shù)據(jù)間的差距、減小噪聲數(shù)據(jù)的負(fù)面影響。研究人員通常使用對抗學(xué)習(xí)和注意力機(jī)制來處理。
另一種方式是將良好標(biāo)記類別上學(xué)習(xí)的能力遷移到測試類別上,通常采用元學(xué)習(xí)和無樣本學(xué)習(xí)方法。
除了網(wǎng)絡(luò)數(shù)據(jù)外,研究人員們還使用多模態(tài)數(shù)據(jù)進(jìn)行輔助學(xué)習(xí),包括自然語言描述和知識圖譜等數(shù)據(jù)都是輔助細(xì)粒度圖像識別的有力工具,實(shí)現(xiàn)視覺與語言的聯(lián)合表示。
最后人工智能中一定需要人的參與,通過將難識別的樣本、關(guān)鍵特征定位等任務(wù)加入人與機(jī)器的合作來實(shí)現(xiàn)更好的細(xì)粒度識別。
細(xì)粒度圖像檢索
圖像檢索也是細(xì)粒度圖像分析中重要的一部分,在給定某類圖像的前提下可以從數(shù)據(jù)庫中返回相同的子類,而無需其他的監(jiān)督信號。但與通常檢索不同的是,細(xì)粒度任務(wù)所要檢索的對象都是極為相似的子類別內(nèi)容,子類間僅僅只有細(xì)微的差異,而同一目標(biāo)則因?yàn)槲蛔恕⒊叨群托D(zhuǎn)的不同而差異巨大。
這一任務(wù)在電子商務(wù)和在線平臺上有著巨大的需求,近年來研究人員利用深度學(xué)習(xí)的方法探索了對于圖像中關(guān)鍵對象或部分的深度表達(dá),發(fā)現(xiàn)新的損失函數(shù)和子結(jié)構(gòu)來對這一問題進(jìn)行處理。
細(xì)粒度圖像生成
隨著無監(jiān)督學(xué)習(xí)和圖像生成領(lǐng)域的發(fā)展,研究人員們開始探索細(xì)粒度的圖像合成問題,包括人臉、人體和不同環(huán)境下的物體合成都展開了一系列研究。
例如結(jié)合變分自編碼器和生成對抗方法的CVAE-GAN方法基于概率模型構(gòu)建了標(biāo)簽和隱含屬性,通過細(xì)粒度的類別來引導(dǎo)生成模型進(jìn)行細(xì)粒度的圖像生成。還有研究人員利用文本描述的方法結(jié)合生成模型得到具有細(xì)粒度特征的合成結(jié)果。
數(shù)據(jù)和基準(zhǔn)
目前在細(xì)粒度圖像領(lǐng)域有一系列基準(zhǔn)數(shù)據(jù),包括了動植物、飛機(jī)、零售商品等,這些數(shù)據(jù)不僅為這個領(lǐng)域的算法提供了有效的測評基準(zhǔn),同時也推動了這一領(lǐng)域的不斷進(jìn)步。作者在下表列出了常見的FGIA數(shù)據(jù),包括了元類別、數(shù)量、標(biāo)簽類別等:
值得注意的是CUB200-2011數(shù)據(jù)是一個使用最為廣泛的數(shù)據(jù)集,數(shù)據(jù)包含了詳盡的標(biāo)簽,包括部分標(biāo)注、屬性標(biāo)簽甚至是一段對應(yīng)的自然語言描述,近年來研究人員還在不斷拓展這個數(shù)據(jù)。
此外還有很多數(shù)據(jù)集在不斷地放出,人們更深入地研究新穎的特征、大規(guī)模、多層級的結(jié)構(gòu)、域間的差異和數(shù)據(jù)長尾分布等,同時更多的研究如何在真實(shí)場景中進(jìn)行有效落地。
廣泛的應(yīng)用
細(xì)粒度的圖像分析在產(chǎn)業(yè)界中有諸多的應(yīng)用,包括推薦系統(tǒng)中的衣服鞋帽檢索、時尚識別,電子商務(wù)網(wǎng)站中的產(chǎn)品檢索等等。此外人臉識別也可以視為細(xì)粒度圖像識別的一個子問題,針對的是人臉這個類別下的身份細(xì)粒度識別。同時行人和車輛的重識別問題也是細(xì)粒度識別問題的一種體現(xiàn)。
FGIA將為會這些具體的問題提供一系列解決方案,包括可識別特征的捕捉和層層遞進(jìn)的信息結(jié)構(gòu)等,都為這些領(lǐng)域的發(fā)展做出了貢獻(xiàn)。
開放的問題
盡管細(xì)粒度圖像分析在近年來取得了一系列的進(jìn)步,但在很多方面還存在一系列開放問題值得進(jìn)一步深度地研究,在文章的最后研究人員提出了四個未來潛在的發(fā)展方向,為未來的研究給出了建議。1. 自動化的細(xì)粒度建模。隨著自動機(jī)器學(xué)習(xí)AutoML和自動架構(gòu)搜索NAS的發(fā)展,未來細(xì)粒度機(jī)器學(xué)習(xí)將通過這些方法提高建模的效率和精度,并將尋找到表現(xiàn)更好的模型,同時也將反過來促進(jìn)自動機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展。2. 細(xì)粒度小樣本學(xué)習(xí)。人類可以通過少量的樣本抽象出對于某個類型的認(rèn)識。目前最好的深度學(xué)習(xí)模型也需要眾多樣本進(jìn)行學(xué)習(xí),既耗時也需要大量的數(shù)據(jù)成本。而細(xì)粒度圖像識別擁有比粗尺度更為精細(xì)的標(biāo)簽,未來研究人員也許會利用更小的樣本數(shù)量來對分類器進(jìn)行訓(xùn)練,強(qiáng)化FGIA的實(shí)用性和應(yīng)用規(guī)模。3. 細(xì)粒度哈希。隨著這一領(lǐng)域的應(yīng)用和數(shù)據(jù)規(guī)模的擴(kuò)大,檢索的難度也隨之加大。哈希作為一種有效的領(lǐng)域搜索技術(shù)正在受到人們的關(guān)注,對于細(xì)粒度圖像檢索的哈希研究將有望成為處理大規(guī)模數(shù)據(jù)問題的有效手段。4. 真實(shí)細(xì)粒度分析。為了適應(yīng)真實(shí)應(yīng)用場景需要進(jìn)一步研究在各種真實(shí)條件下的FGIA問題,例如在超市貨架上的商品和野外的動物細(xì)粒度分析問題中,無法控制環(huán)境和對象的條件,這會對視覺任務(wù)帶來一系列挑戰(zhàn)。隨著這一領(lǐng)域的發(fā)展,算法和模型將會具有更強(qiáng)的域適應(yīng)性,基于知識遷移、長尾數(shù)據(jù)以及在資源受限的端上運(yùn)行的細(xì)粒度圖像分析將會有更多深入的研究,實(shí)現(xiàn)更加先進(jìn)和可用的FGIA系統(tǒng)。
-
圖像分析
+關(guān)注
關(guān)注
0文章
82瀏覽量
18881 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122494
原文標(biāo)題:FGIA——細(xì)粒度圖像分析的昨天、今天和明天
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
細(xì)粒度圖像分析技術(shù)詳解

一種細(xì)粒度的面向產(chǎn)品屬性的用戶情感模型
基于Modbus功能碼細(xì)粒度過濾算法的研究

基于ABS細(xì)粒度隱私隔絕的身份追溯研究

使用深度模型遷移進(jìn)行細(xì)粒度圖像分類的方法說明

FGIA 中的主要問題和挑戰(zhàn)
紹華為云在細(xì)粒度情感分析方面的實(shí)踐
結(jié)合非局部和多區(qū)域注意力機(jī)制的細(xì)粒度識別方法

基于文本的細(xì)粒度美妝圖譜視覺推理問題

基于BiLSTM-CRF的細(xì)粒度知識圖譜問答模型
機(jī)器翻譯中細(xì)粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準(zhǔn)實(shí)驗(yàn)
通過對比學(xué)習(xí)的角度來解決細(xì)粒度分類的特征質(zhì)量問題

評論