融合零樣本學習和小樣本學習的弱監督學習方法綜述
來源:《系統工程與電子技術》,作者潘崇煜等
摘 要:?深度學習模型嚴重依賴于大量人工標注的數據,使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏等現實挑戰,很多學者針對數據依賴小的弱監督學習方法開展研究,出現了小樣本學習、零樣本學習等典型研究方向。對此,本文主要介紹了弱監督學習方法條件下的小樣本學習和零樣本學習,包括問題定義、當前主流方法以及實驗設計方案,并對典型模型的分類性能進行對比。然后,給出零-小樣本學習的問題描述,總結研究現狀和實驗設計,并對比典型方法的性能。最后,基于當前研究中出現的問題對未來研究方向進行展望,包括多種弱監督學習方法的融合與理論基礎的探究,以及在其他領域的應用。
關鍵詞:?弱監督學習; 小樣本學習; 零樣本學習; 零-小樣本學習
0 引 言
近年來,深度學習模型在諸多領域取得了引人矚目的成就,如圖像分類、語音識別、棋類對弈等。然而,包括深度學習在內,以大數據為基礎的傳統監督學習模型嚴重依賴于大量人工標注的高質量標簽數據,在很多領域內,由于數據缺乏,使得這些模型很難取得應有成效。針對數據缺乏的現實情況,當前很多研究[1-2]關注數據依賴性小的弱監督學習方法,如小樣本學習、零樣本學習等。
小樣本學習試圖在有限樣本條件下實現對新類別或新概念的有效認知。通過度量學習、樣本生成等途徑,已有一些方法在少量支持樣本情況下實現了新概念識別。盡管取得了一定成效,但每個新類別中的幾個支持樣本仍然難以準確表征整個類別的特征分布,這使得小樣本學習任務仍然充滿了挑戰性。
相對于小樣本學習,零樣本學習試圖識別訓練過程中從未見過的新類別概念。這需要額外的語義特征輔助信息,如訓練集和待分類的測試集類別語義特征描述向量,借此實現從訓練集向測試集類別的知識遷移。由于其內在固有的域適應及樞紐度問題[3],零樣本學習也面臨著識別精度不高等問題。
基于零樣本學習和小樣本學習面臨諸多的問題,正如文獻[3]指出,在當前小樣本學習中融合額外的語義文本信息是一個重要的研究方向,即零-小樣本學習。零-小樣本學習既包含了小樣本學習中若干支持樣本特征,同時考慮了語義特征輔助信息,可以有效提高弱監督機器學習的識別性能,同時也更加符合人類對新概念、新事物舉一反三、多方融合的認知原理。
本文從小樣本學習和零樣本學習入手,重點開展了問題描述、典型方法介紹、實驗設計以及性能對比。基于小樣本學習和零樣本學習之間的信息互補,本文介紹了零-小樣本學習這一新問題。在此基礎上,本文指出了多種弱監督學習方法融合發展、基礎理論探索以及多領域上擴展等重要發展方向。
1 小樣本學習
小樣本學習旨在通過有限樣本對新的類別或者概念進行識別,本節首先給出明確問題描述,之后回顧目前主流方法和模型,最后介紹具體的實驗設計和部分基準結果。
1.1 問題描述
給定由Ns個訓練樣本構成的訓練集
其中
是第i個樣本圖像;
是其類別標簽,Cs是訓練集標簽集合;Ds通常由大量訓練樣本構成。
在測試階段,對于新的類別Ct?(測試類別與訓練集類別不同,即Cs∩?Ct=?),每個類別給定幾個支持樣本
小樣本識別的任務是對新的測試樣本圖像
進行識別,確定其對應的類別標簽
1.2 當前主流模型
小樣本學習領域目前已經出現很多方法和模型,這些方法可以概括為基于度量的方法、基于優化的方法、基于生成式模型的方法、基于圖神經網絡的方法以及基于記憶單元的方法。表1對這幾種主流方法進行了簡要列舉和分析。
表1 不同的小樣本學習方法對比分析
Table 1 Comparision analysis of the different methods for few-shot learning
(1) 基于度量的方法
基于度量的方法核心思想是學習樣本之間的相似度。孿生網絡[4]是最早的基于度量學習的小樣本學習模型,該模型通過卷積神經網絡(convolutional neural network, CNN)直接學習兩個樣本之間的相似度。之后,文獻[5]提出了基于元學習的匹配網絡,元學習是一種訓練策略,具體算法流程如表2所示。
表2 元學習訓練范式
Table 2 Training paradigm of the meta-learning
匹配網絡利用了雙向長短時記憶(long short-term memory, LSTM)網絡模型以及注意力機制來學習樣本之間的度量函數。原型網絡[6]也是一種典型的度量學習模型,將圖像特征映射到一度量空間中,在該空間中,將同類多個樣本均值作為代表該類別的原型樣本點,對于待識別的樣本,通過在多類的原型樣本點之間進行最近鄰距離實現分類,該方法直接用歐氏距離作為距離度量,僅學習圖像編碼網絡。值得一提的是,文獻[7-8]提出了包含圖像編碼模塊及關系度量模塊的關系網絡,原始圖像經過CNN編碼模塊形成圖像特征向量,之后待測試樣本與支持樣本連接形成圖像對,經過關系網絡度量每一圖像對的相似度。如圖1所示[7],該模型同時學習編碼網絡和度量函數,與以往使用某一固定度量函數不同,該模型通過訓練學習了一個非線性的度量函數,提高了模型的適應性。
基于度量的小樣本學習方法模型通常較為直觀,易于理解,具備較強的可解釋性,但往往需要大量訓練數據,對于訓練集樣本數量要求較高,且最終性能對模型結構敏感度較高,模型細節設計對性能影響較大。
(2) 基于優化的方法
基于優化的方法依據元學習的思想,旨在學習一組元分類器,這些分類器可以在新的任務上通過參數微調實現較好的分類性能。最典型的優化方法是模型無關元學習(model-agnostic meta-learning, MAML)算法[9],如圖2所示,該方法通過大量訓練數據學習到一組好的初始化參數,在新任務測試時,僅通過很少的參數迭代步數,模型即可自適應到該新任務上。基于元學習思想,之后又出現了很多基于優化的小樣本學習方法,包括meta network[10]、meta-SGD[11]、meta-learner LSTM[12]以及其他變種[13]。
圖1 基于度量的小樣本學習模型-關系網絡
Fig.1 Metric based model for few-shot learning-relation network
圖2 基于優化的小樣本學習方法-MAML算法
Fig.2 Optimization based method for few-shot learning-MAML algorithm
基于優化的小樣本學習模型具備快速適應新任務的能力,但卻存在明顯的缺陷,即模型只能在固定任務上預訓練和遷移,如在5-way 1-shot分類任務上訓練的模型只能適應5-way 1-shot的任務,缺乏靈活性。
(3) 基于生成式模型的方法
基于大量訓練數據以及少量的支持樣本,生成式模型期望生成大量新類別數據樣本,進而將小樣本學習轉化為傳統的監督學習。生成式模型通常由自動編碼器以及其他學習模型構成[14]。典型的生成式模型如圖3所示[15]。
圖3 基于生成式模型的小樣本學習方法
Fig.3 Generative model based method for few-shot learning
通過類比訓練集中多個樣本之間的特征差異,在少量支持樣本的基礎上,生成器試圖在新類別上生成更多樣本。隨后,在生成樣本基礎上訓練常規分類器進行新類別識別。近年來,隨著生成對抗網絡(generative adversarial network, GAN)[16]的出現,基于GAN的小樣本學習模型[17]也層出不窮。
基于生成式模型的方法通常分為樣本生成和分類器訓練兩部分分步進行,易于追溯,但卻存在生成樣本可信度不高、模型訓練困難等問題。
(4) 基于圖神經網絡的方法
在圖神經網絡模型[18]中,以單個樣本作為節點(Node),以樣本間相似度作為邊(Edge),通過神經網絡模型迭代計算圖模型的連接矩陣。如圖4所示,以所有樣本的特征向量作為節點狀態,以樣本間關系為邊,迭代更新節點狀態向量和鄰接矩陣,最終推斷出待識別樣本與所有支持樣本的相似度[19]。
由于將每個樣本作為一個高維向量節點進行動態更新,基于圖神經網絡的方法[19-20]在模型訓練過程中會消耗大量內存空間,同時計算量會隨著樣本數量增加而激增。
圖4 基于圖神經網絡的小樣本學習方法
Fig.4 Graph neural network based method for few-shot learning
(5) 基于記憶單元的方法
基于外掛的記憶單元模塊,一些方法試圖通過在學習過程中持續更新內存狀態來實現小樣本學習甚至持續學習[21],典型方法包括記憶增強網絡(memory augmented neural network, MANN)[22]、記憶匹配網絡(memory matching network, MMN)[23]等。
基于記憶單元的小樣本學習方法模型,如圖5所示,可動態更新,但需額外增加外置記憶單元,增大了內存需求,同時也增加了如讀寫控制器等復雜模型組件[22]。
圖5 基于記憶單元的小樣本學習-MANN
Fig.5 Memory unit based method for few-shot learning-MANN
1.3 實驗設計
(1) 數據集
當前,小樣本學習的公共數據集主要是Omniglot以及miniImagenet。其中,Omniglot[24]是手寫字符符號數據集,包含50個大類,共1 623個類別符號,每個類別只有20個樣本圖像。miniImagenet[5]是圖像領域公共數據集ImageNet的一部分,包含100個類別,每個類別包含600個圖像樣本,在小樣本學習中具體劃分為64類用于訓練集,16類用于驗證集,其余20類用于測試集。
(2) 實驗設置
如表2所示,小樣本學習普遍采用元學習訓練范式,在訓練階段和測試階段構建分類子任務,稱為M-way?N-shot?Q-query分類子任務,即每一個實驗輪次中,對于M類分類類別,每一類別提供N個支持樣本,同時提供Q個測試樣本用于參數調整(訓練階段)或準確率評估(測試階段)。在模型訓練階段,通過多個輪次迭代,實現模型參數的調整。在模型測試階段,采用多個輪次分類準確率取平均值的方法,評估模型最終的分類準確率。當前研究通常在Omniglot數據集上采用5/20-way 1/5-shot的分類子任務,在miniImagenet數據集上采用5-way 1/5-shot的分類子任務。
表3 幾種典型小樣本學習模型在miniImagenet數據集上的性能對比
Table 3?Performance evaluations of the several typical models for few-shot learning on miniImagenent data sets
(3) 典型方法性能對比
表3列出了小樣本學習領域當前幾種典型模型在miniImagenet數據集上的識別準確率對比。可以看出,大部分方法在5-way 1-shot分類識別中都取得了超過50%的準確率,表明僅依靠少量標簽樣本識別新類具有一定的實踐性。同時,隨著支持樣本的增加(由1-shot增加為5-shot),識別率取得了明顯的提高,表明支持樣本數量對最終識別效果有決定性作用。最后,不同模型不僅設計思想及模型構成不同,而且在圖像處理中最基本的特征提取器結構也存在很大區別(如表3特征提取器所列),因此模型性能之間存在較大差異。
2 零樣本學習
零樣本學習[29-30]旨在通過文本描述信息對新的類別或者概念進行識別,本節首先給出明確問題描述,之后回顧目前主流方法和模型,最后介紹具體的實驗設計和部分基準結果。
2.1 問題描述
給定由Ns個訓練樣本構成的訓練集,
其中
是第i個樣本圖像,
是其類別標簽,Cs是訓練集標簽集合。零樣學習的任務是對測試樣本
進行識別,將其劃分到新的類別Ct中,即確定其對應的類別標簽
其中測試類別與訓練集類別不同,即Cs∩Ct=?。除此之外,零樣本學習為所有類別提供了額外的文本信息作為特征描述,即為Cs和Ct中的每個類別
提供了一個類別特征描述向量
借助于通用的類別特征描述向量,零樣本學習期望實現從已知的訓練樣本類別到新的測試樣本類別之間的知識遷移。在零樣本學習中,類別描述向量作為知識遷移的橋梁,通常是由人工標注的屬性向量構成,如形狀、顏色、尺寸、材質等訓練集和測試集類別通用屬性,也有一些研究使用文本理解領域成熟的詞向量作為特征描述向量[3]。
2.2 當前主流模型
針對零樣本學習問題,國內外學者提出了很多方法,整體上可分為度量學習方法、相似度學習方法、基于流形結構的方法以及基于生成式模型的方法。表4對這幾種主流方法進行了簡要列舉和分析。
表4 不同零樣本學習方法對比分析
Table 4 Comparisions of the different methods for zero-shot learning
(1) 度量學習方法
度量學習方法旨在找到一個度量空間,在該空間中樣本的圖像特征和其對應的語義向量在某種度量下距離最小。最基本的方法是直接將語義向量空間作為度量空間[31-33],將圖像特征映射到語義向量空間,在該空間中進行最近鄰分類,直接使用歐氏距離或者余弦距離作為度量函數。有研究表明[34],將圖像特征空間作為度量空間,能夠有效減輕零樣本學習中固有的域適應以及樞紐度問題[3]。在此基礎上,以圖像特征空間作為度量空間的深度嵌入模型(deep embedding model, DEM)[35-36]等模型被提出,如圖6所示[35],原始圖像經過CNN網絡編碼到圖像特征空間,語義向量經多層感知機(multi-layer perceptron, MLP)映射到同一特征空間,在該度量空間中基于最近鄰分類。除了圖像特征以及語義特征空間本身,一些方法探索了尋找隱空間作為度量空間,如EXEM[37]、隱性屬性字典(latent attribute dictionary, LAD)[38]學習、耦合字典學習(coupled dictionary learning, CDL)[39]、公共嵌入空間[40-41]以及共享特征相對屬性空間[42]。在這些方法中,除了度量空間不同,空間映射函數也各有不同,包括線性變換[31,38-39,43]以及非線性變換,如支持向量回歸(support vector regression, SVR)[37]以及神經網絡模型[35]。度量學習方法中最重要的問題是設計目標(損失)函數,關系到模型的整體性能。
圖6 基于度量的零樣本學習
Fig.6 Metric based zero-shot learning
基于度量學習的方法在某一特征空間中基于最近鄰規則進行分類,模型直觀、易于理解,然而模型性能因度量空間選擇而變化較大,適用于訓練集數量較大的情況。
(2) 兼容性學習方法
與學習空間映射函數不同,兼容性學習方法直接學習圖像空間和語義空間向量的相似度。最基本的方法是直接利用雙線性函數將圖像空間和語義空間向量轉換為相似度標量,如極端零樣本學習采樣方法(embarrassingly sample approach to zero-shot learning, ESZSL)[44]、 深度圖像-嵌入語義(deep visual-semantic embedding, DeViSE)模型[45]、 結構化聯合嵌入(structured joint embedding,SJE)[46]以及屬性標簽嵌入(attribute label embedding, ALE)[47]。其他一些方法利用了非線性的函數轉換,如隱形嵌入(latent embedding, LatEm)[48]以及關系網絡[7]。
基于兼容性學習的方法模型如圖7所示[46],較為簡單,計算量較小,但對訓練集數據量要求較高。
圖7 基于兼容性的零樣本學習
Fig.7 Compatibility based zero-shot learning
(3) 基于流形結構的方法
一些研究從流形學習[49]的角度出發,探索語義空間與圖像特征空間的流形結構,企圖通過學習訓練集中的流形結構,遷移到新的測試類別中去。如圖8所示,模型在語義空間中學習各個類別特征向量間的流形結構,基于流形學習思想,將該結構遷移到視覺特征分類器模型空間中。典型方法包括跨模態遷移(cross-modal transfer, CMT)[50]、數據遺失問題(missing data problem, MDP)[51]、語義嵌入凸組合(convex combination of semantic embeddings, CONSE)[52]、雙向隱形嵌入(bidirectional latent embedding, BiDiLEL)[53]、相關知識遷移(relational knowledge transfer, RKT)[54]、生成分類器(synthesized classifiers, SYNC)[49]以及局部敏感的流形保持方法[55]。
基于流形結構的零樣本學習方法[49],如圖8所示,能夠考慮到類別間的關聯關系,但不同特征空間的流形結構存在異構性,通常難以遷移。
圖8 基于流形結構的零樣本學習
Fig.8 Manifold structure based zero-shot learning
(4) 基于生成式模型的方法
最近一些研究基于生成樣本的思想,借助于生成式網絡,經訓練集訓練,在新類別上生成圖像特征樣本甚至原始二維圖像,將零樣本學習轉化為監督學習分類問題加以解決。典型方法包括未知類別樣本生成(unseen visual data synthesis, UVDS)[56]、ZSL對抗生成式方法(generative adversarial approach for ZSL, GAZSL)[57]、特征生成網絡(feature generating networks, FGN)[58]、ZSL樣本生成方法(synthesized examples ZSL, SE-ZSL)[59]、保留語義的對抗式嵌入網絡(semantics-preserving adversarial embedding networks, SP-AEN)[60]等。
基于生成式模型的方法[61],如圖9所示。
圖9 基于生成式模型的零樣本學習
Fig.9 Generative model based zero-shot learning
該方法通常分為樣本生成和分類器訓練兩部分。在樣本生成階段,基于訓練樣本及其對應的文本描述信息,在新類別文本描述向量條件下,生成新類別的圖像樣本。在分類器訓練階段,基于生成的樣本訓練分類器并對測試樣本進行在線識別。基于生成式模型的方法分步進行,易于追溯,但同樣存在生成樣本代表性不高、模型訓練困難等問題。
2.3 實驗設計
(1) 數據集及實驗設置
當前零樣本學習研究中常用的數據集包括動物屬性標記(animals with attributes, AWA)[62]數據集、CUB(CUB-200-2011)[63]以及ImageNet 2010[64]等。表5詳細列出了這些數據集統計信息以及在零樣本學習中的固定測試集/訓練集類別數劃分。
表5 零樣本學習常用數據集
Table 5 Data sets for zero-shot learning
關于類別描述特征向量,AWA和CUB數據集分別包含85維和312維的類別屬性描述向量(Attributes),對于ImageNet 2010大型數據集,當前研究多采用大規模無標簽文本訓練詞向量(Word Embedding)的方式,為每個類別生成高維的詞向量表征[49]。
值得注意的是,在零樣本學習中,由于缺少大量標簽數據訓練圖像特征提取網絡,當前研究中,圖像特征通常采用預訓練的CNN圖像特征,即調用在miniImageNet數據集上預訓練的CNN模型,在訓練集/測試集圖像上直接提取特征,常用的預訓練模型包括GoogLeNet[65]以及VGGNet[66]等。
零樣本學習中,訓練集和測試集類別不同,在訓練集上訓練模型,在測試集類別中進行性能評估,通常采用分類任務,以分類準確率作為模型評估指標。
(2) 典型方法性能對比
表6列出了零樣本學習領域當前幾種典型模型的分類性能對比。可以看出,在僅有新類別語義特征描述的情況下,模型能夠實現新概念識別分類,在AWA數據集10分類問題上取得了高達約90%的準確率,在CUB數據集50分類問題上取得了高達60%的準確率,甚至在ImageNet大型數據集200分類問題上取得了超過60%的Top 5準確率。與小樣本學習類似,不同方法不僅模型設計思想不同,而且底層圖像特征提取器結構也有所不同,因此各方法之間存在較大性能差異。
表6 幾種典型零樣本學習模型的分類性能對比
Table 6 Classification performance comparisons of the several typical models for zero-shot learning
3 零-小樣本學習
與小樣本學習和零樣本學習類似,零-小樣本學習借助于通用的類別特征描述,在少量支持樣本條件下實現對新類別或概念的識別,本節首先給出明確問題描述,其次介紹當前的研究現狀,最后介紹具體的實驗設計和部分基準結果。
3.1 問題描述
給定由Ns個訓練樣本構成的訓練集
其中,
是第i個樣本圖像,
是其類別標簽,Cs是訓練集標簽集合,
是類別
對應的類別特征描述向量。Ds通常由大量訓練樣本構成。
基于上述訓練集,零-小樣本學習旨在分類識別新類別樣本。在測試階段,對于每一個新類別提供了少量支持樣本
且所有的新類別的特征描述向量是已知的。對于給定的測試樣本
零-小樣本學習的任務是識別其類別標簽
3.2 研究現狀
為了更好地識別訓練過程中未見過的新類別,一些學者在小樣本學習的基礎上增加類別屬性特征描述向量,探索了文本信息輔助的小樣本學習問題,即本文所述的零-小樣本學習。
文獻[47]最早提出融合零樣本學習和小樣本學習是提高機器智能的有效途徑。之后,零-小樣本學習問題逐漸被關注[56],并且出現了初步的研究工作。其中,文獻[48]設計了多注意力網絡,借助語義特征描述,利用圖像局部特征,研究了語義信息輔助的小樣本學習。基于生成式模型的思想,文獻[47]提出對偶三角網絡,基于類別語義信息生成新的樣本特征;文獻[70]在變分自編碼器模型中增加多模態交叉配準損失函數,在新的隱特征空間中生成更多新樣本,提出跨模態分布式變分自編碼器(cross-modal and distribution aligned variational autoencoder, CADA-VAE), 實現了零-小樣本條件下的數據增強。盡管出現了很長時間,但零-小樣本學習領域尚未被充分研究。以上部分工作仍然依賴于預訓練的CNN圖像特征,在一些特定領域內,標簽數據有限,難以開展預訓練工作,這些方法的可行性較差。
值得一提的是,最近的研究工作[71]為零-小樣本學習提供了有益探索。自適應模態混合機制(adaptive modality mixture mechanism, AM3)模型如圖10所示。
圖10 零-小樣本學習模型(AM3)
Fig.10 Model (AM3) for zero-to-few shot learning
包含圖像流和文本流兩條路徑,上部分表示圖像信息流,下部分表示文本信息流,通過可自適應調整的權重因子加權,形成最終的類別原型。該模型提出了多模態信息自適應利用機制,可以在文本特征和圖像特征中自適應調節權重因子,借助于跨模態信息來增強小樣本學習性能。
3.3 實驗設計
(1) 數據集及實驗設置
當前零-小樣本學習仍處于初始探索階段,相關的研究十分有限。在零-小樣本學習中,除了若干新類別支持樣本外,還需要額外的類別語義特征描述向量作為輔助信息。當前研究主要是在miniImageNet[6]以及tieredImageNet[72]數據集上展開,其類別語義信息是通過預訓練詞向量提取得到的。
與小樣本學習類似,零-小樣本學習也采用表1所列的元學習訓練范式。在訓練階段,通過已知類別的訓練樣本圖像、類別標簽以及類別描述向量訓練模型參數。在測試階段,在少量新類別支持樣本及其類別描述向量信息輔助下,對大量測試樣本進行分類識別,并統計識別正確率,作為最終的模型評價指標。當前常用的實驗設置為5-way 1/5-shot 圖像分類子任務。
(2) 典型方法性能對比
表7列出了零-小樣本學習典型方法的分類性能。可以看出,在語義特征信息輔助下,僅提供1個支持樣本就可以在miniImageNet數據集上取得65%的識別率。除各方法使用的圖像特征提取器結構不同之外,值得一提的是,DeViSE, 魯棒半監督視覺語義嵌入(robust semi-supervised visual-semantic embeddings, ReViSE)以及CADA-VAE模型使用了預訓練的CNN圖像特征,而AM3系列方法是端到端的模型參數訓練,無需使用預訓練圖像特征。
表7 幾種典型零-小樣本學習模型在miniImagenet及tieredImageNet數據集上的分類性能
Table 7 Classification performance evaluations of the several typical models for zero-to-few-shot learning on the data sets of miniImagenet and tieredImageNet
4 未來研究方向
4.1 多種弱監督學習方法融合發展
當前弱監督機器學習研究主要集中在零樣本學習以及小樣本學習上,而對于文本信息輔助的零-小樣本學習研究還很薄弱。零-小樣本學習既包含了少量支持樣本,同時又融合了文本信息,具備跨模態學習的獨特優勢,相對于零樣本學習和小樣本學習,性能獲得了顯著提升[71,73]。從人類認知角度看,人類識別新類別或者新概念會通過少數樣本歸納總結,同時結合多種認知模式進行綜合理解,如“未見其人,先聞其聲”“字如其人”等都是多種認知模式綜合作用的結果。綜合實際需求和學術研究,零-小樣本學習將是弱監督學習和人類認知結合的重要研究方向。
除此之外,零樣本學習可以和主動學習相結合,提升主動學習效果。零樣本學習可以融入到終身學習系統中,在僅有相關信息描述的情況下,持續學習新的任務。當前,強化學習迅速發展,結合弱監督機器學習,強化學習系統可以更好地應對新任務、新場景,甚至新領域。
4.2 弱監督機器學習的理論基礎探究
當前,弱監督機器學習領域內研究大多在統一數據集下展開,甚至訓練集/測試集的劃分都是固定的。如零樣本學習實驗中,絕大多數研究在AWA數據集采用固定40類訓練,指定10類測試;在CUB上固定150類訓練,指定50類測試。實驗數據相對固定,在這種數據設置下訓練的模型在其他數據上的有效性,即模型的泛化能力值得考究。可考慮使用傳統大規模數據集訓練的有效方式,如5折交叉驗證等方式來進行弱監督機器學習實驗驗證,充分測試模型在多種數據條件下的綜合性能。
同時,實驗設置應當更加切合實際應用,如當前小樣本和零樣本學習大多只在未見過的新類別上進行分類性能測試,然而在實際應用中,往往測試樣本來源于新類別以及訓練集中的類別,如何提升這種廣義分類問題上的性能也是重要的研究方向。
另一方面,盡管零樣本和小樣本學習對于訓練數據的數目要求很低,但是前期的模型預訓練直接影響其最終性能,當前大多數模型繁瑣復雜,如何在保證正確率的前提下,盡量降低模型復雜度也是非常值得研究的工作。
當前的研究主要是啟發式探索和驗證性實驗,缺乏足夠的理論基礎,對于一些關鍵問題需要開展更多的理論分析,如零樣本學習中如何選擇輔助性信息,從訓練集向未見過的測試樣本遷移過程中,什么信息和知識更有效,在學習過程中,如何抑制不相關信息,避免負向遷移等。科學的理論分析和充足的實驗證明將更有益于弱監督機器學習發展。
4.3 弱監督機器學習在其他領域任務上的應用
當前的弱監督機器學習研究主要集中在計算機視覺領域,包括字符識別、圖像分類等。這主要得益于視覺信息易于獲取,且在傳統深度學習領域已有大量研究,很多成熟的技術可直接遷移到弱監督學習中來。當前針對幾個主流的實驗數據集,如miniImageNet等,已經取得了很高的識別率,性能提升空間很小。因此,應當開發更廣泛的任務應用,如圖像檢索、目標跟蹤、手勢識別、圖像標注、視覺問答、視頻事件檢測等。例如,如何將從粗粒度的動物分類任務中學習到的知識遷移到細粒度的狗品種分類任務中去。另外,應當從多種數據源獲取大規模度多樣化數據集,設置更加切近現實應用的實驗基準。
除了計算機視覺,弱監督機器學習應當逐步擴展到其他領域。在自然語言處理中,可針對文本翻譯、語言建模等開展研究;在推薦系統方面,依據少量樣本進行相關推薦是一個值得研究的課題;在醫學研究中,罕見藥品發現將為醫藥研制提供創新途徑。尤其是在機器人控制領域,依靠少量人工指導甚至依靠傳統經驗進行增強學習的智能學習方法將為機器人復雜運動規劃與控制提供有效途徑,當前典型的應用包括小樣本模仿學習、視覺導航、機器人運動連續控制等。
5 結束語
本文從弱監督機器學習方法入手,主要介紹了小樣本學習、零樣本學習的問題定義,當前主流方法以及實驗設計方案,之后給出了零-小樣本學習問題描述及當前研究現狀,最后對下一步研究方向進行了總結展望。
審核編輯:符乾江
評論