元學(xué)習(xí)研究綜述
摘要
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)嚴(yán)重受限于小樣本數(shù)據(jù)集,容易發(fā)生過擬合,無法實現(xiàn)類似于人類強(qiáng)泛化性的學(xué)習(xí)能力。元學(xué)習(xí)為此應(yīng)運而生,以累積經(jīng)驗的方式形成“價值觀”,基于本身的認(rèn)知和價值判斷能力對模型進(jìn)行調(diào)整或優(yōu)化,讓智能體在實際環(huán)境中能快速學(xué)會各項復(fù)雜新任務(wù),實現(xiàn)真正意義上的人工智能。首先概述了元學(xué)習(xí)的基本原理,然后根據(jù)其所采用的不同元知識形式,深入分析各類方法的研究現(xiàn)狀,再探討了元學(xué)習(xí)在少鏡頭學(xué)習(xí)、機(jī)器人學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等領(lǐng)域上的應(yīng)用潛能,最后對其未來的發(fā)展趨勢做出展望。
1 引言
在人工智能(artificial intelligent,AI)發(fā)展的歷史長河中,深度學(xué)習(xí)的出現(xiàn)具有里程碑式的意義,其中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]、自編碼器(auto-encoder,AE)[2]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network)[3]、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)[4]及深度置信網(wǎng)絡(luò)(deep belief network,DBN)[5]已廣泛應(yīng)用于圖像分類、語音識別、文本處理等領(lǐng)域,極大推動了農(nóng)業(yè)、工業(yè)、軍事、航空等行業(yè)進(jìn)步發(fā)展[6]。雖然深度學(xué)習(xí)在感知能力方面很強(qiáng)大,但是其在決策能力方面還是比較欠缺的,而后,融合了深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)問世了。深度強(qiáng)化學(xué)習(xí)采用不斷與實際環(huán)境進(jìn)行交互[7],且在這過程中以保證累積獎賞最大化來獲得最優(yōu)策略的試錯方式,能有效優(yōu)化序列決策的問題,增強(qiáng)人工智能的行為決策能力[8]。可無論是單一深度學(xué)習(xí)還是深度強(qiáng)化學(xué)習(xí),它們的成功在很大程度上都依靠于數(shù)百萬的訓(xùn)練樣本及大規(guī)模的計算資源。一旦缺乏這兩個條件,它們的性能會大打折扣,而且這樣“暴力”的學(xué)習(xí)方式與人類高效快速的學(xué)習(xí)方式有較大出入。如基于深度強(qiáng)化學(xué)習(xí)的智能體[9]玩《雅達(dá)利游戲》需要83小時才達(dá)到人類玩家的水平,但對于人類玩家來說,幾分鐘就能上手。如小孩一般只需見過幾次小貓和小鳥后就能分辨它們,但基于深度學(xué)習(xí)的系統(tǒng)需要大量的樣本訓(xùn)練后才能區(qū)分出小貓和小鳥。為此,現(xiàn)有的深度學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)算法等都過于依賴數(shù)據(jù)與算力,很多領(lǐng)域的可用樣本實例是極其稀少的,且龐大的算力需求條件也會有一定的受限,導(dǎo)致這些算法的應(yīng)用出現(xiàn)很大的局限性。為了突破這些界限,人工智能非常需要一種學(xué)會如何學(xué)習(xí)、快速學(xué)習(xí)的能力,才能實現(xiàn)進(jìn)一步的革新。元學(xué)習(xí)應(yīng)運而生,是可以協(xié)助人工智能實現(xiàn)自主學(xué)習(xí)、快速適應(yīng)上手各項新的復(fù)雜任務(wù)的強(qiáng)有力工具。所以,有必要對元學(xué)習(xí)進(jìn)行深入的研究。
2 元學(xué)習(xí)的基本原理
元學(xué)習(xí),亦被稱為學(xué)會學(xué)習(xí),以系統(tǒng)的、數(shù)據(jù)驅(qū)動的方式再利用之前學(xué)過的知識或以往的經(jīng)驗,讓人工智能實現(xiàn)自主、快速學(xué)會新任務(wù)。即元學(xué)習(xí)隨著對每一項歷史任務(wù)的學(xué)習(xí)和經(jīng)驗積累,在學(xué)習(xí)新任務(wù)時可以變得更加容易,所需要的訓(xùn)練樣本更少,同時還能保證一定的算法精度。元學(xué)習(xí)旨在學(xué)會如何學(xué)習(xí),區(qū)別于以映射方式為主的深度學(xué)習(xí)和以試錯方式為主的強(qiáng)化學(xué)習(xí),深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的原理框圖分別如圖1、圖2所示。
圖1?? 深度學(xué)習(xí)原理框圖
?
圖2?? 強(qiáng)化學(xué)習(xí)原理框圖
?
遷移學(xué)習(xí)與元學(xué)習(xí)的目標(biāo)都是希望通過利用先前學(xué)到的知識快速地掌握新的技能或概念。但是,遷移學(xué)習(xí)側(cè)重于在實例空間進(jìn)行訓(xùn)練,通過優(yōu)化單個整體任務(wù)作為轉(zhuǎn)移源來訓(xùn)練基礎(chǔ)模型[10]。遷移學(xué)習(xí)原理框圖如圖3?所示,常用的已訓(xùn)練好的開 源 網(wǎng) 絡(luò) 模 型 有 VGG[11]、ResNet[12]?及GoogleNet[13]等。選擇合適的模型直接遷移到目標(biāo)網(wǎng)絡(luò)上,再利用少量標(biāo)注樣本對目標(biāo)網(wǎng)絡(luò)進(jìn)行微調(diào);而元學(xué)習(xí)是在任務(wù)空間中進(jìn)行訓(xùn)練,元學(xué)習(xí)的原理框圖如圖4?所示。每當(dāng)模型嘗試學(xué)習(xí)某項任務(wù)時,無論成功與否,模型都會獲得有用的經(jīng)驗,整合這些經(jīng)驗形成智能體的“價值觀”,代表一種會學(xué)習(xí)的能力,即抽象成函數(shù) F(x)。若出現(xiàn)新的任務(wù),在“價值觀”的協(xié)助下,模型繼續(xù)學(xué)習(xí)新任務(wù)的極少量樣本,即可快速適應(yīng)和掌握新任務(wù),也就是抽象出一個個對應(yīng)新任務(wù) i 的函數(shù)fi(x)。元學(xué)習(xí)比遷移學(xué)習(xí)對未知新任務(wù)的適應(yīng)有著更好的穩(wěn)健性。
實現(xiàn)以系統(tǒng)的、數(shù)據(jù)驅(qū)動的方式從歷史經(jīng)驗中學(xué)習(xí)是元學(xué)習(xí)的關(guān)鍵。其中,以往的經(jīng)驗以元知識的形式進(jìn)行存儲,元知識包括權(quán)重參數(shù)、超參數(shù)設(shè)置、網(wǎng)絡(luò)架構(gòu)、模型性能評估函數(shù)等,元知識涵蓋的遠(yuǎn)不止這些。通過將從歷史任務(wù)中學(xué)到的高辨識特征投影到高維空間上,形成高度壓縮元表示,組成價值經(jīng)驗集。另外,元學(xué)習(xí)中一個較大的難點是如何在歷史經(jīng)驗集合中提取和傳遞有用的知識來協(xié)助模型快速學(xué)會新任務(wù)。隨著元學(xué)習(xí)的發(fā)展,隨機(jī)梯度下降(stochastic gradient descent,SGD)法可能無法繼續(xù)滿足需求,需要挖掘得到更有爆發(fā)性和高效性的搜索方法來支撐元學(xué)習(xí)的訓(xùn)練。
圖3?? 遷移學(xué)習(xí)原理框圖
?
圖4?? 元學(xué)習(xí)原理框圖
?
3 元學(xué)習(xí)的研究現(xiàn)狀
早在1987年Hinton等[14]就提出在神經(jīng)元之間采用兩個權(quán)重進(jìn)行連接的方法。其中一個權(quán)重仍然是標(biāo)準(zhǔn)的慢權(quán)重,基于優(yōu)化器更新獲取知識。另外一個新增加的權(quán)重稱為快權(quán)重,用于有效恢復(fù)過去學(xué)習(xí)的慢權(quán)重,這是為了避免隨著優(yōu)化器更新而忘記以前學(xué)習(xí)過的慢權(quán)重。元學(xué)習(xí)的思想在那時已經(jīng)開始萌發(fā),當(dāng)前實現(xiàn)元學(xué)習(xí)的方法更是多種多樣,根據(jù)采用的元知識形式不同,可以分為基于權(quán)重、優(yōu)化器、損失函數(shù)、度量、注意力機(jī)制、超參數(shù)、網(wǎng)絡(luò)架構(gòu)、黑盒模型等方式。
3.1 基于權(quán)重的元學(xué)習(xí)方法
對于遷移學(xué)習(xí),人們常以ImageNet預(yù)訓(xùn)練等方式實現(xiàn)對網(wǎng)絡(luò)權(quán)重的初始化。但通過這些方式預(yù)訓(xùn)練得到的權(quán)重?zé)o法快速適應(yīng)新任務(wù),如果用小樣本的新任務(wù)數(shù)據(jù)集繼續(xù)訓(xùn)練網(wǎng)絡(luò)就容易發(fā)生過擬合的問題。而基于權(quán)重的元學(xué)習(xí)方法最大的一個成果就是讓網(wǎng)絡(luò)自身學(xué)會初始化有效的權(quán)重,可以克服遷移學(xué)習(xí)難以應(yīng)付小樣本的問題,不再需要手動配置模型的初始化權(quán)重參數(shù),通過學(xué)習(xí)歷史任務(wù)的經(jīng)驗,估計得到各新任務(wù)對應(yīng)的初始化參數(shù)組,以保證模型能快速適應(yīng)新任務(wù),借助少量的新任務(wù)樣本進(jìn)行訓(xùn)練即能獲得最佳性能。其中最為經(jīng)典的是Finn等[15]提出的模型——不可知元學(xué)習(xí)(model-agnostic meta-learning, MAML)算法。MAML的關(guān)鍵是要使新任務(wù)的損失函數(shù)對初始化權(quán)重的敏感度最大化,且與模型的類型無關(guān),在各任務(wù)梯度矢量和的方向上對參數(shù)進(jìn)行優(yōu)化,估計得到新任務(wù)的最優(yōu)參數(shù)解,以實現(xiàn)沿梯度方向可快速獲得最優(yōu)性能。Finn等[16]在 MAML 的基礎(chǔ)上繼續(xù)融合在線學(xué)習(xí)的框架提出一種在線元學(xué)習(xí)(online meta-learning),正如模擬實際環(huán)境中進(jìn)行現(xiàn)場教學(xué),并達(dá)到現(xiàn)學(xué)現(xiàn)用的效果,有效提高算法順序設(shè)置和處理非平穩(wěn)條件的能力。該類方法適用于回歸、分類以及強(qiáng)化學(xué)習(xí)等多種任務(wù),但存在二次梯度不穩(wěn)定等問題。
3.2 基于優(yōu)化器的元學(xué)習(xí)方法
這類方法不用人為配置 Adam[17]等優(yōu)化器,將新任務(wù)上的優(yōu)化器設(shè)計工作交由元學(xué)習(xí)器完成。即元學(xué)習(xí)器根據(jù)以往任務(wù)的學(xué)習(xí)經(jīng)驗捕獲單個梯度坐標(biāo)的訓(xùn)練動態(tài)或為新任務(wù)量身定做一個高效的優(yōu)化器,以讓模型在擁有更為合適的優(yōu)化器的情況下實現(xiàn)快速學(xué)習(xí)新任務(wù)。Andrychowicz等[18]采用長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)替換傳統(tǒng)優(yōu)化器,是為了能以梯度下降的方式為新任務(wù)優(yōu)化出合適的優(yōu)化器。由于損失函數(shù)的黑塞矩陣(Hessian matrix)處于病態(tài),一階梯度算法的性能會大打折扣。Park等[19]提出在元學(xué)習(xí)過程中額外學(xué)習(xí)一個局部的曲率信息矩陣,以實現(xiàn)梯度在空間上的轉(zhuǎn)換,讓轉(zhuǎn)換后的梯度對新任務(wù)具有更好的泛化性能。傳統(tǒng)優(yōu)化器只保證當(dāng)前一步的損失小于上一步損失,僅側(cè)重于當(dāng)前周期的效益,嚴(yán)重缺乏全局性。而元學(xué)習(xí)優(yōu)化器可以統(tǒng)籌未來多步對當(dāng)前這步的影響,實現(xiàn)“瞻前顧后”的效果,找出對未來結(jié)果影響最佳的當(dāng)前策略。但是,當(dāng)面臨大型網(wǎng)絡(luò)或復(fù)雜優(yōu)化問題時,元學(xué)習(xí)優(yōu)化器的優(yōu)化成本要求很大,且其性能穩(wěn)定性可能較差。
3.3 基于損失函數(shù)的元學(xué)習(xí)方法
與基于優(yōu)化器的元學(xué)習(xí)方法類似,以通過歷史任務(wù)來學(xué)習(xí)如何預(yù)測損失函數(shù)的方式建模。Houthooft 等[20]提出一種進(jìn)化策略梯度(evolved policy gradient,EPG)的元學(xué)習(xí)方法,設(shè)計一個可微的損失函數(shù),通過優(yōu)化其策略以最大程度地減少這種損失,獲得較高的回報?;趶?qiáng)化學(xué)習(xí)中獎勵函數(shù)的設(shè)計思想,泛化至損失函數(shù),即通過學(xué)到的策略網(wǎng)絡(luò)編碼為學(xué)到的損失函數(shù)。Li等[21]提出引入一個學(xué)習(xí)的輔助損失函數(shù),通過元學(xué)習(xí)正則化器來幫助訓(xùn)練特征抽取器成為域不變量,提高了對領(lǐng)域的泛化性。基于損失函數(shù)的元學(xué)習(xí)方法與強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)損失相比,在性能上有所提高,但其泛化性仍存在較大的局限。
3.4 基于度量的元學(xué)習(xí)方法
其關(guān)鍵是要學(xué)習(xí)到一個嵌入網(wǎng)絡(luò),使原始輸入可以轉(zhuǎn)換為合適的表示,并實現(xiàn)樣本實例與待測實例之間相似度比較。Sung等[22]提出建模一個關(guān)系網(wǎng)絡(luò)(relation network),該網(wǎng)絡(luò)包含嵌入單元(embedding module)和關(guān)系單元(relation module)。嵌入單元負(fù)責(zé)對待測圖片和樣本圖片進(jìn)行特征提取,關(guān)系單元負(fù)責(zé)將提取出來的各特征進(jìn)行相似度比對,直接判斷待測圖片歸屬哪類。該方法直接采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)度量,而且在這過程中以元學(xué)習(xí)的方式進(jìn)行訓(xùn)練。此外,還有利用孿生神經(jīng)網(wǎng)絡(luò)(siamese network)[23]、匹配網(wǎng)絡(luò)(matching network)[24]、原型網(wǎng)絡(luò)(prototypical network)[25]、圖神經(jīng)網(wǎng)絡(luò)(graph neural network)[26]實現(xiàn)。這類算法目的是更合適地表示數(shù)據(jù),以學(xué)習(xí)得更好。這類方法適用于小樣本學(xué)習(xí),建模一個度量空間,讓待測的目標(biāo)圖像與已有的圖像在該度量空間中實現(xiàn)高效比對。但對于回歸和強(qiáng)化學(xué)習(xí)等任務(wù),這些算法尚未證實能實現(xiàn)同樣的效果。
3.5 基于注意力機(jī)制的元學(xué)習(xí)方法
訓(xùn)練出一個模型使其能在面對新任務(wù)時把“注意力”都放在關(guān)鍵點上,即直接關(guān)注最為核心的部分。Ren 等[27]設(shè)計了一個基于元學(xué)習(xí)的注意力吸引網(wǎng)絡(luò)(attention attractor network,AAN),先是經(jīng)過監(jiān)督學(xué)習(xí)以訓(xùn)練一個起初原有類別的分類器,若出現(xiàn)新增類別,于訓(xùn)練和測試節(jié)點中聯(lián)合元學(xué)習(xí)正則器以訓(xùn)練得到新類別分類器,再結(jié)合起初原有類別與新增類別并用于優(yōu)化剛才提到的元學(xué)習(xí)正則器,讓它在新舊類別結(jié)合后仍然保持作用。Hou等[28]提出一個交叉注意力網(wǎng)絡(luò)(cross attention network),給所有輸入的圖像對分別生成注意力圖,以突出目標(biāo)物體所在的區(qū)域,使模型可以把“注意力”都集中在這部分區(qū)域,提取出更好的特征,以快速適應(yīng)未知類別的問題?;谧⒁饬C(jī)制的元學(xué)習(xí)方法有著較好的泛化性能和可解釋性能。但是,它難以捕抓元素順序,當(dāng)執(zhí)行自然語言處理等任務(wù)時其性能可能會大打折扣。
3.6 基于超參數(shù)的元學(xué)習(xí)方法
以元學(xué)習(xí)的方式不斷地優(yōu)化調(diào)整學(xué)習(xí)率、正則化強(qiáng)度等超參數(shù)直至適合新任務(wù)。另外,步長、方向等超參數(shù)也可以被定義為優(yōu)化器的一部分,則基于超參數(shù)的元學(xué)習(xí)方法與基于優(yōu)化器的元學(xué)習(xí)方法之間存在重疊部分。Franceschi等[29]提出一個超參數(shù)優(yōu)化與元學(xué)習(xí)的雙層規(guī)劃框架,將二層問題轉(zhuǎn)化到基于內(nèi)目標(biāo)的優(yōu)化動力學(xué)(optimization dynamics)以迭代的方式進(jìn)行近似求解。這些方法可以高效找出最優(yōu)超參數(shù)組合,保證神經(jīng)網(wǎng)絡(luò)的優(yōu)化設(shè)置。
3.7 基于網(wǎng)絡(luò)結(jié)構(gòu)的元學(xué)習(xí)方法
學(xué)會自動生成對應(yīng)不同新任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。從 1994 年提出的 5 層手寫字體識別模型LeNet5[30],發(fā)展到1 001層的ResNet[12],網(wǎng)絡(luò)的層數(shù)變得越來越深,但是也被驗證得出結(jié)論:神經(jīng)網(wǎng)絡(luò)性能不是越深就越好。所以在對深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)進(jìn)行設(shè)計時往往會存在較大困擾,既希望能最大程度地發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的潛能,又擔(dān)心模型會由于太復(fù)雜而造成巨大的計算資源浪費和產(chǎn)生梯度消失、梯度爆炸的問題。Zoph等[31]提出一種利用強(qiáng)化學(xué)習(xí)機(jī)制去訓(xùn)練一個循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),讓其學(xué)會自動生成神經(jīng)網(wǎng)絡(luò)的元學(xué)習(xí)方法。先是利用循環(huán)神經(jīng)網(wǎng)絡(luò)在搜索空間上推算估計得到一個網(wǎng)絡(luò)架構(gòu),再對這估計生成的網(wǎng)絡(luò)架構(gòu)進(jìn)行訓(xùn)練和驗證,以驗證的準(zhǔn)確率作為獎勵反饋到循環(huán)神經(jīng)網(wǎng)絡(luò)中,循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)獎勵繼續(xù)優(yōu)化生成另外一個網(wǎng)絡(luò)架構(gòu)進(jìn)行訓(xùn)練和驗證,重復(fù)這樣的過程直至循環(huán)神經(jīng)網(wǎng)絡(luò)獲得最佳性能,學(xué)會如何生成好的網(wǎng)絡(luò)架構(gòu)。Real等[32]提出一種正則化進(jìn)化方法,為候選結(jié)構(gòu)引入年代的新思路,不再是移除性能最差的神經(jīng)網(wǎng)絡(luò),而是移除最老的神經(jīng)網(wǎng)絡(luò),保證任務(wù)優(yōu)化過程中的穩(wěn)健性,獲取更加精確的網(wǎng)絡(luò)。這些方法實現(xiàn)神經(jīng)架構(gòu)搜索(neural architecture search,NAS)自動化,但在這些過程中的執(zhí)行成本很高。
3.8 基于黑盒模型的元學(xué)習(xí)方法
基于黑盒模型的元學(xué)習(xí)方法分為基于內(nèi)部記憶單元與基于外部存儲兩類。Hochreiter等[33]提出了一種基于內(nèi)部記憶單元的元學(xué)習(xí)方法,采用LSTM 作為從屬系統(tǒng),負(fù)責(zé)與學(xué)習(xí)器直接交互,還采用基于時間的反向傳播(back propagation through time,BPTT)算法作為監(jiān)督系統(tǒng),負(fù)責(zé)評價從屬系統(tǒng)提供算法參數(shù)的好壞。其中,輸入的信息對是采用錯位的方式的,目的是使從屬系統(tǒng)可以獲取上一步算法的錯誤率,有助于進(jìn)行校正。但是,基于內(nèi)部記憶單元的方法難以拓展到需要編碼眾多新信息的新任務(wù)中。為此,部分科研人員提出采用外部的存儲。Santoto等[34]提出一種記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)(memory-augmented neural network)的元學(xué)習(xí)方法,直接添加外部存儲來記憶上一次的數(shù)據(jù)輸入不包含標(biāo)簽信息,以至于下一次輸入完成后在反向傳播的過程中,能夠建立輸入數(shù)據(jù)與標(biāo)簽的聯(lián)系,讓后續(xù)的輸入數(shù)據(jù)都能通過外部存儲獲取相關(guān)歷史數(shù)據(jù)進(jìn)行比對。相當(dāng)于外部存儲記憶了很多歷史經(jīng)驗,模型憑借這些以往的經(jīng)驗可以實現(xiàn)快速學(xué)習(xí)更多新任務(wù)。Rakelly等[35]提出一種基于概率上下文變量的非策略元強(qiáng)化學(xué)習(xí)方法,將任務(wù)推理和控制分離開來,對潛在任務(wù)變量進(jìn)行在線概率過濾,實現(xiàn)從少量的經(jīng)驗中學(xué)會如何解決新任務(wù)。基于黑盒模型的元學(xué)習(xí)方法難以適用于分布外的任務(wù),且無法確定黑箱模型是否可以把一個大的訓(xùn)練集嵌入一個基礎(chǔ)模型中。
4 元學(xué)習(xí)的應(yīng)用
當(dāng)前,元學(xué)習(xí)在少鏡頭學(xué)習(xí)(few-shot learning,F(xiàn)SL)領(lǐng)域應(yīng)用最為火熱。由于大型神經(jīng)網(wǎng)絡(luò)的性能受限于訓(xùn)練集的規(guī)模,訓(xùn)練集內(nèi)樣本數(shù)量很少時,容易導(dǎo)致網(wǎng)絡(luò)過擬合,無法發(fā)揮深度網(wǎng)絡(luò)的潛能。基于元學(xué)習(xí)實現(xiàn)的少鏡頭學(xué)習(xí)技術(shù)廣泛運用于分類[36,37]、目標(biāo)檢測[38,39]、人臉識別[40]、醫(yī)學(xué)可視化問答[41]、視頻合成[42]等場景。在這些場景內(nèi),很多新增類別的樣本可能天生就比較稀缺,或它們的注釋標(biāo)簽難以獲取。另外,實際場景往往比實驗環(huán)境復(fù)雜得多,實際獲取的待測數(shù)據(jù)具有多變性,會出現(xiàn)待測數(shù)據(jù)和訓(xùn)練集分布不一致的情況。元學(xué)習(xí)技術(shù)利用從歷史任務(wù)中積累下來的元知識作為先驗知識,再學(xué)習(xí)少量的目標(biāo)樣本即可快速掌握新任務(wù),有效提升訓(xùn)練方式和訓(xùn)練時間,對未知場景有著較強(qiáng)的適應(yīng)性和穩(wěn)健性。如 Nguyen 等[41]為了克服醫(yī)療視覺答疑中的數(shù)據(jù)限制,將無監(jiān)督的去噪自動編碼器(denoising auto encoder,DAE)與有監(jiān)督的元學(xué)習(xí)有機(jī)結(jié)合應(yīng)用,僅通過一個很小的樣本集來訓(xùn)練其提出的模型,可以發(fā)現(xiàn)該方法的性能比現(xiàn)有的醫(yī)療視覺問答方法都要好;Wang等[42]提出一種元學(xué)習(xí)人臉識別(meta-learning face recognition,MFR)方法,實驗結(jié)果證明了該方法在跨種族與跨場景的測試?yán)锲湫阅苁亲顑?yōu)的,極大地提高模型泛化性能?;谠獙W(xué)習(xí)實現(xiàn)的少鏡頭學(xué)習(xí)在實用的過程中極大降低對目標(biāo)樣本數(shù)量的依賴,突破傳統(tǒng)深度學(xué)習(xí)的數(shù)據(jù)壁壘,避免參數(shù)過擬合,提高模型的泛化性,實現(xiàn)舉一反三、融會貫通的效果,對將來的未知事務(wù)有著強(qiáng)大的適應(yīng)能力,為缺乏樣本的領(lǐng)域提供可靠的解決方案。
元學(xué)習(xí)在機(jī)器人學(xué)習(xí)領(lǐng)域也具有廣闊的應(yīng)用前景。各種各樣的機(jī)器人被投入家庭、工廠、國防和外太空探索等領(lǐng)域中使用[43],它們的應(yīng)用環(huán)境從簡單的環(huán)境變到復(fù)雜的非結(jié)構(gòu)化環(huán)境[44]。但是,現(xiàn)有的機(jī)器人仍處于弱智能化的階段,對靈活性要求高的服務(wù)機(jī)器人的表現(xiàn)更差勁??焖賹W(xué)習(xí)操作技能的能力對未來的機(jī)器人越來越重要[45],元學(xué)習(xí)可以賦能機(jī)器人實現(xiàn)一眼模仿學(xué)習(xí)(one-shot imitation learning)。機(jī)器人通過觀察少量的幾次演示后,就能學(xué)會新任務(wù)的操作。若要實現(xiàn)機(jī)器人看一眼便能掌握各類任務(wù)操作的能力,在很大程度上需要依賴元學(xué)習(xí)[46,47,48,49],通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一種元知識去理解演示的真正意圖并直接映射到控制輸出。將元學(xué)習(xí)應(yīng)用到機(jī)器人學(xué)習(xí)中,使機(jī)器人的學(xué)習(xí)過程實現(xiàn)類似于人類,只要人類對其做出幾次簡單的示范后,機(jī)器人就能馬上掌握要領(lǐng),可完成各項復(fù)雜任務(wù),極大提高機(jī)器人的通用性。Yu等[48]提出一種域適應(yīng)元學(xué)習(xí)的方法,允許學(xué)習(xí)跨域?qū)?yīng)關(guān)系,讓機(jī)器人只需觀察一個人類用戶的視頻演示后就能學(xué)會視覺識別與操縱一個新的物體,且該方法不局限于感知人類,而且還可以用于模擬動物或模擬機(jī)器人。元學(xué)習(xí)不僅能為機(jī)器人實現(xiàn)模仿學(xué)習(xí)的能力,還能為機(jī)器人實現(xiàn)學(xué)會學(xué)習(xí)的能力。通過不斷地積累經(jīng)驗,不斷地完備機(jī)器人的“價值觀”。在需要學(xué)習(xí)新任務(wù)時,借鑒積累的豐富經(jīng)驗,自主學(xué)習(xí)且快速上手各項新任務(wù)。Nagabandi等[49]提出一種元強(qiáng)化學(xué)習(xí)方法,能夠有效適應(yīng)未知的情況或環(huán)境中突然劇烈的變化,對于現(xiàn)實世界的應(yīng)用是實用的。
元學(xué)習(xí)也能運用于無監(jiān)督學(xué)習(xí)領(lǐng)域,最為經(jīng)典的應(yīng)用場景是訓(xùn)練無監(jiān)督學(xué)習(xí)算法[50,51]。在這場景中,外部循環(huán)的元目標(biāo)仍然是有監(jiān)督的,再以元學(xué)習(xí)的方式學(xué)習(xí)無監(jiān)督內(nèi)循環(huán)任務(wù),實現(xiàn)將原本的無監(jiān)督學(xué)習(xí)問題轉(zhuǎn)化為有監(jiān)督學(xué)習(xí)問題,這有助于解決無監(jiān)督學(xué)習(xí)問題的不確定性。除了上述的領(lǐng)域,元學(xué)習(xí)還可以應(yīng)用于自然語言處理[52,53]、噪聲標(biāo)簽學(xué)習(xí)[54,55]、網(wǎng)絡(luò)壓縮[56]、域泛化[57,58]等領(lǐng)域,具有無可限量的應(yīng)用潛能。
5 元學(xué)習(xí)的未來展望
授之以魚不如授之以漁。深度學(xué)習(xí)以大規(guī)模樣本實例“暴力”訓(xùn)練網(wǎng)絡(luò),讓模型實現(xiàn)對單一任務(wù)的有效處理,可這只能緩解一時之需,遠(yuǎn)遠(yuǎn)無法達(dá)到通用人工智能的程度,不能實現(xiàn)同樣一套算法解決各種復(fù)雜任務(wù),只能“授之以魚”。而元學(xué)習(xí)能真正實現(xiàn)“授之以漁”,助力人工智能學(xué)會如何學(xué)習(xí),具有不可估量的潛能,可以推動人工智能變革。但是,元學(xué)習(xí)在技術(shù)與應(yīng)用這兩個方面上還面臨著較大的挑戰(zhàn)。
針對元學(xué)習(xí)技術(shù)方面,其計算成本耗費大、復(fù)雜任務(wù)的學(xué)習(xí)能力差和泛化性能有待提高等問題尤其顯著。
元學(xué)習(xí)算法常常涉及雙層優(yōu)化的問題。每執(zhí)行一次訓(xùn)練,就要進(jìn)行一次外部操作步驟,但每次的外部操作步驟都需要多次的內(nèi)部操作步驟,在這樣的嵌套循環(huán)條件下,元學(xué)習(xí)模型的優(yōu)化需要大規(guī)模的計算資源和超長的訓(xùn)練時間。若在GPU計算資源不充足的情況下對擁有千萬級別參數(shù)量的模型的優(yōu)化器進(jìn)行訓(xùn)練,很可能出現(xiàn)內(nèi)存爆炸的問題。因此,未來很有必要創(chuàng)新更高效的元學(xué)習(xí)優(yōu)化方法來降低計算成本。Brock 等[59]提出一種訓(xùn)練代理模型的方法;Lee 等[60]提出通過內(nèi)環(huán)中的閉式解算器來加速元訓(xùn)練。但是,這些方法的效果都不太顯著。對于內(nèi)存爆炸的問題,還可以考慮對梯度檢查點的使用。先是從所有的激活內(nèi)選出一個子集,并在前向傳播的過程中只對該子集進(jìn)行緩存。在進(jìn)行反向傳播時,通過這些激活重新計算非緩存的激活,計算圖的顯示緩存點就是梯度檢查點。通過把連續(xù)計算的元前反饋與元反向傳播切分為片段,實現(xiàn)有效隱藏記憶狀態(tài),防止內(nèi)存爆炸。
除了計算成本高,現(xiàn)有的元學(xué)習(xí)模型對復(fù)雜新任務(wù)的學(xué)習(xí)能力也比較差?,F(xiàn)有的元學(xué)習(xí)模型對于簡單的新任務(wù)可以高效地學(xué)會類似分揀、移動物品等的簡單任務(wù)。但這些元學(xué)習(xí)模型對于需要動作銜接或其他更為復(fù)雜的動作任務(wù),學(xué)習(xí)能力可能會變得沒那么高效,甚至可能學(xué)不會,可以通過研究動作序列的連續(xù)性來優(yōu)化該問題。
現(xiàn)有的元學(xué)習(xí)算法都是學(xué)習(xí)單種元知識的,可能會導(dǎo)致模型的泛化性能不穩(wěn)定,若權(quán)重、網(wǎng)絡(luò)結(jié)構(gòu)、環(huán)境及算法等都是通過元學(xué)習(xí)器學(xué)的,即多種元知識組合學(xué)習(xí),其泛化性可能會比當(dāng)前僅學(xué)習(xí)一種元知識的元學(xué)習(xí)算法更好。
由于存在相似任務(wù)的數(shù)據(jù)難以獲取、實際待測數(shù)據(jù)的分布與訓(xùn)練數(shù)據(jù)的分布存在差異等因素,元學(xué)習(xí)在實際應(yīng)用的過程中仍存在較大的問題。
雖然元學(xué)習(xí)算法通過少量的新樣本實例就能學(xué)會掌握新任務(wù),但這都是以擁有足夠多的相似歷史任務(wù)數(shù)據(jù)為基礎(chǔ)的。可是,獲取大規(guī)模的相似歷史任務(wù)數(shù)據(jù)往往比較困難。若是在相似歷史任務(wù)數(shù)據(jù)不足的情況下,元學(xué)習(xí)算法可能出現(xiàn)元過擬合的問題,無法有效訓(xùn)練元學(xué)習(xí)中的基學(xué)習(xí)器,也就難以學(xué)會新任務(wù)。對此,未來可以考慮建立一個大規(guī)模的通用元學(xué)習(xí)數(shù)據(jù)庫,為訓(xùn)練基學(xué)習(xí)器提供充足的示范性歷史任務(wù)數(shù)據(jù),避免元過擬合。
當(dāng)前,絕大部分的元學(xué)習(xí)模型在進(jìn)行實驗測試的過程中都保證了新任務(wù)分布與歷史任務(wù)集分布是相同的。但由于應(yīng)用場景的未知性和實際輸入條件的動態(tài)多變性,很難讓新任務(wù)分布與歷史任務(wù)集分布保持一致。一旦它們之間存在一定差距,元學(xué)習(xí)算法學(xué)習(xí)新任務(wù)的能力就會大打折扣,出現(xiàn)跨任務(wù)學(xué)習(xí)時元學(xué)習(xí)算法性能下降的問題,元學(xué)習(xí)模型跨任務(wù)學(xué)習(xí)的泛化性還比較差。未來對此問題進(jìn)行深入研究時,可以借鑒遷移學(xué)習(xí)中域自適應(yīng)[61]方法與異構(gòu)遷移學(xué)習(xí)[62,63]方法的經(jīng)驗。
審核編輯:符乾江
評論