機(jī)器學(xué)習(xí) | 穩(wěn)定學(xué)習(xí)| DGBR
深度學(xué)習(xí) | 遷移學(xué)習(xí)| 因果學(xué)習(xí)
眾所周知,深度學(xué)習(xí)研究是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)重要研究方向,主要采用數(shù)據(jù)分析、數(shù)據(jù)挖掘、高性能計(jì)算等技術(shù),其對(duì)服務(wù)器的要求極其嚴(yán)格,傳統(tǒng)的風(fēng)冷散熱方式已經(jīng)不足以滿(mǎn)足散熱需要,這就需要新興的液冷散熱技術(shù)以此滿(mǎn)足節(jié)能減排、靜音高效的需求。機(jī)器學(xué)習(xí)除了在深度學(xué)習(xí)研究領(lǐng)域有其很大的發(fā)展,在因果學(xué)習(xí)、虛擬仿真、醫(yī)藥研發(fā)等領(lǐng)域也有很大的提高。盡管機(jī)器學(xué)習(xí)在很多領(lǐng)域都取得了成功,但是虛假相關(guān)帶來(lái)的潛在風(fēng)險(xiǎn)還是限制了這些模型在不少風(fēng)險(xiǎn)敏感領(lǐng)域的應(yīng)用。這時(shí)穩(wěn)定學(xué)習(xí)被提出來(lái)應(yīng)對(duì)這個(gè)挑戰(zhàn),它試圖在不影響模型性能的情況下構(gòu)建更加可信的機(jī)器學(xué)習(xí)模型。
今年2月23日,清華大學(xué)計(jì)算機(jī)系崔鵬副教授與斯坦福大學(xué)Susan Athey(美國(guó)科學(xué)院院士,因果領(lǐng)域國(guó)際權(quán)威)合作,在世界頂級(jí)期刊Nature Machine Intelligence(影響因子IF=15.51,2020)上發(fā)表了一篇題為“Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning”(穩(wěn)定學(xué)習(xí):建立因果推理和機(jī)器學(xué)習(xí)的共識(shí))的觀點(diǎn)論文,深入探討和總結(jié)了因果推理在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的關(guān)注,提出機(jī)器學(xué)習(xí)和因果推理之間應(yīng)該形成共識(shí),穩(wěn)定學(xué)習(xí)正在向這個(gè)目標(biāo)邁進(jìn)。基于上述學(xué)術(shù)觀點(diǎn),本文總結(jié)了穩(wěn)定學(xué)習(xí)的一系列進(jìn)展。
人工智能當(dāng)前面臨的挑戰(zhàn)
縱觀人工智能(AI)技術(shù)的發(fā)展史,在過(guò)去的20年中,人工智能的進(jìn)步緊密伴隨著互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展,在諸如網(wǎng)上搜索、推薦商品等眾多場(chǎng)景中都有人工智能技術(shù)的運(yùn)用。在這些場(chǎng)景中,AI做出錯(cuò)誤決策的危害較小(比如推薦了用戶(hù)不感興趣的商品),使用者對(duì)AI模型算法的穩(wěn)定性和可靠性要求相對(duì)較低。如今,AI技術(shù)逐漸滲透進(jìn)了包括醫(yī)療、司法、運(yùn)輸?shù)扰c民眾生活緊密相關(guān),對(duì)人類(lèi)的生存和發(fā)展有重大影響的領(lǐng)域中。在這樣的背景下,AI模型的可靠性和穩(wěn)定性問(wèn)題變得日益重要,也很大程度上決定了我們能在多大程度上利用和依賴(lài)人工智能技術(shù)幫助決策。
我們認(rèn)為,當(dāng)前人工智能模型在實(shí)踐利用中存在兩個(gè)重要問(wèn)題。一是模型缺乏可解釋性;也即人們無(wú)法理解模型做出判斷的邏輯和原因。這就導(dǎo)致人們面對(duì)模型的決策時(shí),只能無(wú)條件地完全肯定或否定其提供的答案,我們認(rèn)為可以通過(guò)建立人機(jī)協(xié)作(human in the loop)的機(jī)制合作決策解決這個(gè)問(wèn)題。第二個(gè)問(wèn)題則是模型缺乏在位置環(huán)境下性能的穩(wěn)定性;目前大多數(shù)人工智能模型依賴(lài)于iid假設(shè)(Independent and identically distributed), 即訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的數(shù)據(jù)分布是相似的;而在實(shí)際運(yùn)用中,無(wú)法完全預(yù)見(jiàn)可能出現(xiàn)的數(shù)據(jù)分布(無(wú)法了解測(cè)試數(shù)據(jù)集的分布),此時(shí)模型的性能無(wú)法保證。本文將重點(diǎn)解決模型在未知環(huán)境下的性能穩(wěn)定性問(wèn)題。
以識(shí)別圖片中是否存在狗的人工智能應(yīng)用為例。圖中的左圖是訓(xùn)練集中包含狗的圖片集,其中大多數(shù)圖片的背景是草地。而在測(cè)試集中,模型對(duì)同樣為草地背景的圖片有良好的判斷力(右圖上);對(duì)非草地背景的圖片判斷準(zhǔn)確度下降(右圖中、下)。
因果學(xué)習(xí)新進(jìn)展深度穩(wěn)定學(xué)習(xí)
目前深度學(xué)習(xí)在很多研究領(lǐng)域特別是計(jì)算機(jī)視覺(jué)領(lǐng)域(如圖像識(shí)別、物體檢測(cè)等技術(shù)領(lǐng)域)取得了前所未有的進(jìn)展,而深度模型性能依賴(lài)于模型對(duì)訓(xùn)練數(shù)據(jù)的擬合。當(dāng)訓(xùn)練數(shù)據(jù)(應(yīng)用前可獲取的數(shù)據(jù))與測(cè)試數(shù)據(jù)(實(shí)際應(yīng)用中遇到的實(shí)例)分布不同時(shí),傳統(tǒng)深度模型對(duì)訓(xùn)練數(shù)據(jù)的充分?jǐn)M合會(huì)造成其在測(cè)試數(shù)據(jù)上的預(yù)測(cè)失敗,進(jìn)而導(dǎo)致模型應(yīng)用于不同環(huán)境時(shí)的可信度降低。為了解決模型在分布遷移下的泛化問(wèn)題,崔鵬老師團(tuán)隊(duì)提出深度穩(wěn)定學(xué)習(xí),提高模型在任意未知應(yīng)用環(huán)境中的準(zhǔn)確率和穩(wěn)定性。
獨(dú)立同分布學(xué)習(xí)、遷移學(xué)習(xí)和穩(wěn)定學(xué)習(xí)
上圖給出了常見(jiàn)的獨(dú)立同分布模型、遷移學(xué)習(xí)模型和穩(wěn)定學(xué)習(xí)模型的異同。獨(dú)立同分布模型的訓(xùn)練和測(cè)試都在相同分布的數(shù)據(jù)下完成,測(cè)試目標(biāo)是提升模型在測(cè)試集上的準(zhǔn)確度,對(duì)測(cè)試集環(huán)境有較高的要求;遷移學(xué)習(xí)同樣期望提升模型在測(cè)試集上的準(zhǔn)確度,但是允許測(cè)試集的樣本分布與訓(xùn)練集不同。獨(dú)立同分布學(xué)習(xí)和遷移學(xué)習(xí)都要求測(cè)試集樣本分布已知。而穩(wěn)定學(xué)習(xí)則希望在保證模型平均準(zhǔn)確度的前提下,降低模型性能在各種不同樣本分布下的準(zhǔn)確率方差。理論上穩(wěn)定學(xué)習(xí)可以在不同分布的測(cè)試集下都有較好的性能表現(xiàn)。
一、基于本質(zhì)特征的穩(wěn)定學(xué)習(xí)
現(xiàn)有深度學(xué)習(xí)模型試圖利用所有可觀測(cè)到的特征與數(shù)據(jù)標(biāo)簽的相關(guān)性進(jìn)行學(xué)習(xí)和預(yù)測(cè),而在訓(xùn)練數(shù)據(jù)中與標(biāo)簽相關(guān)的特征并不一定是其對(duì)應(yīng)類(lèi)別的本質(zhì)特征。深度穩(wěn)定學(xué)習(xí)的基本思路是提取不同類(lèi)別的本質(zhì)特征,去除無(wú)關(guān)特征與虛假關(guān)聯(lián),并僅基于本質(zhì)特征(與標(biāo)簽存在因果關(guān)聯(lián)的特征)作出預(yù)測(cè)。如下圖所示,當(dāng)訓(xùn)練數(shù)據(jù)的環(huán)境較為復(fù)雜且與樣本標(biāo)簽存在強(qiáng)關(guān)聯(lián)時(shí),ResNet等傳統(tǒng)卷積網(wǎng)絡(luò)無(wú)法將本質(zhì)特征與環(huán)境特征區(qū)分開(kāi)來(lái),所以同時(shí)利用所有特征進(jìn)行預(yù)測(cè),而StbleNet則可將本質(zhì)特征與環(huán)境特征區(qū)分開(kāi)來(lái),并僅關(guān)注本質(zhì)特征而忽略環(huán)境特征,從而無(wú)論環(huán)境(域)如何變化,StableNet均能做出穩(wěn)定的預(yù)測(cè)。
傳統(tǒng)深度模型與深度穩(wěn)定學(xué)習(xí)模型的saliency map,其中亮度越高的點(diǎn)對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)越大,可以看到兩者特征的顯著不同,StableNet更關(guān)注與物體本身而傳統(tǒng)深度模型也會(huì)關(guān)注環(huán)境特征
目前已有的穩(wěn)定學(xué)習(xí)方法多針對(duì)線性模型,通過(guò)干擾變量平衡(Confounder Balancing)的方法來(lái)使得神經(jīng)網(wǎng)絡(luò)模型能夠推測(cè)因果關(guān)系。具體而言,如果要推斷變量A對(duì)變量B的因果關(guān)系(存在干擾變量C),以變量A是離散的二元變量(取值為0或1)為例,根據(jù)A的值將總體樣本分為兩組(A=0或A=1),并給每個(gè)樣本賦予不同的權(quán)重,使得在A=0和A=1時(shí)干擾變量C的分布相同(即D(C|A=0) = D(C|A=1),其中D代表變量分布),此時(shí)判斷D(B|A=0) 和D(B|A=1)是否相同可以得出A是否與B有因果關(guān)系。
而在計(jì)算機(jī)視覺(jué)相關(guān)的場(chǎng)景中,由于經(jīng)卷積網(wǎng)絡(luò)后的各維特征為連續(xù)值且存在復(fù)雜的非線性依賴(lài)關(guān)系,無(wú)法通過(guò)直接應(yīng)用上述干擾變量平衡方法來(lái)消除特征間的相關(guān)性;另外由于用于深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集通常尺寸較大,深度特征的維度也較大,所以無(wú)法直接計(jì)算出全局的樣本權(quán)重。本文要解決的問(wèn)題,就是如何在深度學(xué)習(xí)網(wǎng)絡(luò)中找到一組樣本權(quán)重,使得所有變量之間都可以做到互相獨(dú)立,即任意選取一個(gè)變量為目標(biāo)變量,目標(biāo)變量的分布不隨其它變量的值的改變而改變。
二、基于隨機(jī)傅立葉特征的深度特征去相關(guān)
去除特征間相關(guān)性的基本思路是干擾變量平衡,其基本原理如下圖所示:
樣本變量之間獨(dú)立性函數(shù)(圖左);神經(jīng)網(wǎng)絡(luò)優(yōu)化公式(圖右)
而深度網(wǎng)絡(luò)的各維特征間存在復(fù)雜的依賴(lài)關(guān)系,僅去除變量間的線形相關(guān)性并不足以完全消除無(wú)關(guān)特征與標(biāo)簽之間的虛假關(guān)聯(lián),所以一個(gè)直接的想法就是通過(guò)kernel(核方法)將映射到高維空間,但是經(jīng)過(guò)kernel映射后原始特征的特征圖維度被擴(kuò)大到無(wú)窮維,使得各維變量間的相關(guān)性無(wú)法計(jì)算。鑒于隨機(jī)傅立葉特征(Random Fourier Feature, RFF)在近似核函數(shù)以及衡量特征獨(dú)立性方面的優(yōu)良性質(zhì),本文采用RFF將原始特征映射到高維空間中(可以理解為在樣本維度進(jìn)行擴(kuò)充),消除新特征間的線形相關(guān)性即可保證原始特征嚴(yán)格獨(dú)立,如下圖所示。
用于獨(dú)立性檢測(cè)的隨機(jī)傅立葉特征(圖左);StableNet網(wǎng)絡(luò)與樣本權(quán)重更新(圖右)
三、全局優(yōu)化樣本權(quán)重
上述公式要求在訓(xùn)練過(guò)程中為每個(gè)訓(xùn)練樣本都學(xué)習(xí)一個(gè)特定的權(quán)重,但在實(shí)踐中,尤其對(duì)于深度學(xué)習(xí)任務(wù),要想利用全部樣本全局地學(xué)習(xí)樣本權(quán)重需要巨大的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。此外,使用SGD對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化時(shí),每輪迭代中僅有部分樣本對(duì)模型可見(jiàn),因此無(wú)法獲取全部樣本的特征向量。本文提出了一種存儲(chǔ)、重加載樣本特征與樣本權(quán)重的方法,在每個(gè)訓(xùn)練迭代的結(jié)束融合并保存當(dāng)前的樣本特征與權(quán)重,在下一個(gè)訓(xùn)練迭代開(kāi)始時(shí)重加載,作為訓(xùn)練數(shù)據(jù)的全局先驗(yàn)知識(shí)優(yōu)化新一輪的樣本權(quán)重,如下圖所示。
全局先驗(yàn)知識(shí)(圖左);先驗(yàn)知識(shí)更新(圖右)
StableNet的結(jié)構(gòu)圖如下圖所示,輸入圖片經(jīng)過(guò)卷積網(wǎng)絡(luò)后提取得視覺(jué)特征,后經(jīng)過(guò)兩個(gè)分支。其中上方分支為樣本權(quán)重學(xué)習(xí)子網(wǎng)絡(luò),下方分支為常規(guī)分類(lèi)網(wǎng)絡(luò)。最終訓(xùn)練損失為分類(lèi)網(wǎng)絡(luò)預(yù)測(cè)損失與樣本權(quán)重的加權(quán)求和。其中LSWD為去相關(guān)樣本權(quán)重學(xué)習(xí)模塊(Learning Sample Weights for Decorrelation),利用RFF學(xué)習(xí)使特征各維獨(dú)立的樣本權(quán)重。
StbelNet結(jié)構(gòu)圖
以識(shí)別狗的應(yīng)用為例,如果訓(xùn)練樣本中大部分的狗在草地上,少部分的狗在沙灘上,圖片相應(yīng)的視覺(jué)特征經(jīng)樣本重加權(quán)后各維獨(dú)立,即狗對(duì)應(yīng)的特征與草地、沙灘對(duì)應(yīng)的特征在統(tǒng)計(jì)上不相關(guān),所以分類(lèi)器在預(yù)測(cè)狗是否存在時(shí)更容易關(guān)注與狗相關(guān)的特征(若關(guān)注草地、沙灘等特征會(huì)造成預(yù)測(cè)損失激增),所以測(cè)試時(shí)無(wú)論狗在草地上或沙灘上與否,StableNet均能依據(jù)本質(zhì)特征給出較準(zhǔn)確的預(yù)測(cè),實(shí)現(xiàn)模型在OOD數(shù)據(jù)上的泛化。
StbelNet訓(xùn)練流程
四、含義更廣泛的域泛化任務(wù)
在常規(guī)的域泛化(DG)任務(wù)中,訓(xùn)練集的不同源域容量相近且異質(zhì)性清晰,然而在實(shí)際應(yīng)用中,絕大部分?jǐn)?shù)據(jù)集都是若干潛在源域的組合,當(dāng)源域異質(zhì)性不清晰或未被顯式標(biāo)注時(shí),我們很難假定來(lái)自于各源域的數(shù)據(jù)數(shù)量大致相同。為了更加全面地驗(yàn)證StableNet的泛化性能,本文提出三種新的域泛化任務(wù)來(lái)仿真更加普適且挑戰(zhàn)性更強(qiáng)的分布遷移泛化場(chǎng)景。
1、不均衡的域泛化
對(duì)于源域不明確的域泛化問(wèn)題,假定源域容量相近過(guò)于理想化,一個(gè)更普適的假設(shè)為來(lái)自不同源域的數(shù)據(jù)量可能不同且可能差異巨大。在這種情況下,模型對(duì)于未知目標(biāo)域的泛化能力更滿(mǎn)足實(shí)際應(yīng)用的需求。例如在識(shí)別狗的例子中,我們很難假定背景為草地、沙灘或水里的圖片數(shù)量相同,實(shí)際情況下狗較多地出現(xiàn)在草地上而較少出現(xiàn)在水里。這就要求模型的預(yù)測(cè)不能被經(jīng)常與狗一起出現(xiàn)的背景草地誤導(dǎo),所以本任務(wù)的普適性和難度顯著高于均衡的域泛化。
使用ResNet18作為特征提取網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果如下表,在PACS和VLCS數(shù)據(jù)集上StableNet取得了最優(yōu)性能。
不均衡的域泛化實(shí)驗(yàn)結(jié)果
2、部分類(lèi)別缺失的域泛化
我們考慮一種挑戰(zhàn)性更大且在現(xiàn)實(shí)場(chǎng)景中經(jīng)常存在的情況,某些源域中有部分類(lèi)別的數(shù)據(jù)缺失,而在測(cè)試集中模型需要識(shí)別所有類(lèi)別。例如,鳥(niǎo)經(jīng)常出現(xiàn)在樹(shù)上而幾乎不會(huì)出現(xiàn)在水里,魚(yú)經(jīng)常出現(xiàn)魚(yú)缸里而幾乎不會(huì)出現(xiàn)在樹(shù)上,所以并不是所有源域都一定包含全部類(lèi)別。這種場(chǎng)景要求更高的模型泛化能力,由于每個(gè)源域中僅有部分類(lèi)別,所以域相關(guān)的特征與標(biāo)簽間的虛假關(guān)聯(lián)更強(qiáng)且更易誤導(dǎo)分類(lèi)器。
下表為實(shí)驗(yàn)結(jié)果,由于對(duì)域異質(zhì)性及類(lèi)別完整性的要求,很多現(xiàn)有域泛化方法無(wú)法顯著優(yōu)于ResNet,而StableNet在PCAS,VLCS及NICO上均取得了最優(yōu)結(jié)果。
部分類(lèi)別缺失的域泛化實(shí)驗(yàn)結(jié)果
3、存在對(duì)抗的域泛化
一種難度更大的場(chǎng)景是任一給定類(lèi)別的主導(dǎo)源域與主導(dǎo)目標(biāo)域不同。例如,訓(xùn)練數(shù)據(jù)中的狗大多在草地上而貓大多在室內(nèi),而測(cè)試數(shù)據(jù)中的狗大多在室內(nèi)而貓大多在草地上,這就導(dǎo)致如果模型不能區(qū)分本質(zhì)特征與域相關(guān)特征,就會(huì)被域信息所誤導(dǎo)而做出錯(cuò)誤預(yù)測(cè)。下表為在MNIST-M數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,StableNet仍顯著優(yōu)于其他方法,且可見(jiàn)隨主導(dǎo)域比例升高,ResNet的表現(xiàn)顯著下降,StableNet的優(yōu)勢(shì)也越發(fā)明顯。
存在對(duì)抗的域泛化實(shí)驗(yàn)結(jié)果
穩(wěn)定學(xué)習(xí)的主要方法
DGBR算法首次解決了二元預(yù)測(cè)變量(特征)和二元離散響應(yīng)變量設(shè)定下的穩(wěn)定預(yù)測(cè)問(wèn)題。此后,人們提出一系列穩(wěn)定學(xué)習(xí)方法以解決不同設(shè)置下更穩(wěn)定的預(yù)測(cè)問(wèn)題。但后續(xù)設(shè)計(jì)的穩(wěn)定學(xué)習(xí)方法不僅僅局限于因果推理的角度,包括統(tǒng)計(jì)學(xué)習(xí)、優(yōu)化過(guò)程等不同視角,本部分將一一介紹。
一、基于樣本加權(quán)的變量去相關(guān)
崔鵬團(tuán)隊(duì)進(jìn)一步探討了模型錯(cuò)估(即模型與數(shù)據(jù)生成機(jī)制不一致)的穩(wěn)定預(yù)測(cè)問(wèn)題。Zheyan Shen等人研究了線性模型中變量間的共線性如何影響預(yù)測(cè)穩(wěn)定性,提出了一種通用的數(shù)據(jù)預(yù)處理方法,通過(guò)對(duì)訓(xùn)練集樣本重新加權(quán)來(lái)去除預(yù)測(cè)變量(特征)間的相關(guān)性,以減少共線性影響。況琨等人的工作進(jìn)一步改進(jìn)了DGBR算法,提出了去相關(guān)加權(quán)回歸(DWR),將變量去相關(guān)正則化與加權(quán)回歸模型相結(jié)合,解決了連續(xù)預(yù)測(cè)變量(特征)設(shè)置下模型的穩(wěn)定預(yù)測(cè)問(wèn)題。
去除所有變量之間的相關(guān)性固然是找到因果相關(guān),平衡協(xié)變量并實(shí)現(xiàn)穩(wěn)定預(yù)測(cè)的好主意,它的代價(jià)是大大降低了有效樣本量,而這在機(jī)器學(xué)習(xí)訓(xùn)練中是災(zāi)難性的。Zheyan Shen等人通過(guò)使用來(lái)自不同環(huán)境的未標(biāo)注數(shù)據(jù),提出了一種基于變量聚類(lèi)的變量分解的算法,稱(chēng)為區(qū)分性變量去相關(guān)(Differentiated Variable Decorrelation, DVD)。這個(gè)方法是注意到保留因果性變量之間的相關(guān)性未必會(huì)導(dǎo)致模型在未知環(huán)境中的性能不穩(wěn)定。以特征間相關(guān)性的在訓(xùn)練集數(shù)據(jù)和未標(biāo)注之間的數(shù)據(jù)穩(wěn)定性作為聚類(lèi)的指標(biāo),可以將預(yù)測(cè)變量(特征)進(jìn)行聚類(lèi)并為不同的聚類(lèi)簇,其中一些聚類(lèi)簇代表了對(duì)相應(yīng)變量具有因果效應(yīng)的特征集合。在平衡混淆變量時(shí)只需要隔離這些聚類(lèi)簇即可。由于聚類(lèi)簇的數(shù)量遠(yuǎn)低于特征的維度,因此DVD與樣本加權(quán)方法DWR相比,保持了更高的有效樣本量。
與不加區(qū)分地去除所有變量的相關(guān)性的方法(DWR)相比,區(qū)分性變量去相關(guān)方法(DVD)在相同設(shè)定下具有更大的有效樣本量
二、對(duì)抗穩(wěn)定學(xué)習(xí)
由于人們總是想最大化地利用訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的所有相關(guān)性,具有經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)算法在分布變化下很容易受到攻擊。崔鵬老師團(tuán)隊(duì)提出了穩(wěn)定對(duì)抗學(xué)習(xí) (Stable Adversarial Learning, SAL) 算法,以一種更有原則和統(tǒng)一的方式來(lái)解決這個(gè)問(wèn)題,該算法利用異構(gòu)數(shù)據(jù)源構(gòu)建更實(shí)用的不確定性集并進(jìn)行差異化魯棒性?xún)?yōu)化,其中協(xié)變量根據(jù)其與目標(biāo)相關(guān)性的穩(wěn)定性進(jìn)行區(qū)分。
具體來(lái)說(shuō),該方法就是采用了Wasserstein分布式魯棒學(xué)習(xí)(Wasserstein distributionally robust learning, WDRL)的框架。根據(jù)協(xié)變量在多個(gè)環(huán)境中的穩(wěn)定性,進(jìn)一步將不確定性集表征為各向異性,這會(huì)給不穩(wěn)定協(xié)變量帶來(lái)比穩(wěn)定協(xié)變量更強(qiáng)的對(duì)抗性擾動(dòng)。并且設(shè)計(jì)了一種協(xié)同算法來(lái)聯(lián)合優(yōu)化協(xié)變量的微分過(guò)程以及模型參數(shù)的對(duì)抗訓(xùn)練過(guò)程。
在實(shí)驗(yàn)中,將SAL算法與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (Empirical Risk Minimization, ERM) 框架、Wasserstein分布式魯棒學(xué)習(xí) (Wasserstein distributionally robust learning, WDRL) 框架、不變風(fēng)險(xiǎn)最小化 (Invariant Risk Minimization, IRM) 框架進(jìn)行比較:
(a)各環(huán)境下的測(cè)試性能(b) 關(guān)于半徑的測(cè)試性能(c) S和V相對(duì)于半徑的學(xué)習(xí)系數(shù)值
實(shí)驗(yàn)結(jié)果表明,SAL算法各向異性地考慮每個(gè)協(xié)變量以獲得更真實(shí)的魯棒性。此外,構(gòu)造了一個(gè)更好的不確定集,在不同的分布的數(shù)據(jù)上取得了一致更好的表現(xiàn),驗(yàn)證了算法的有效性。
三、異質(zhì)性風(fēng)險(xiǎn)最小化
同樣,如果要充分利用訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的所有相關(guān)性,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)算法通常泛化性能很差,而且這些相關(guān)性在分布的變化下是不穩(wěn)定的。崔鵬老師的團(tuán)隊(duì)提出了異質(zhì)性風(fēng)險(xiǎn)最小化(HRM)的框架,以實(shí)現(xiàn)對(duì)數(shù)據(jù)之間潛在的異質(zhì)性和不變關(guān)系的聯(lián)合學(xué)習(xí),從而實(shí)現(xiàn)在分布變化的情況下的穩(wěn)定預(yù)測(cè)。
HRM框架
整體框架如圖所示。該框架包含兩個(gè)模塊,用于異質(zhì)性識(shí)別的前端和用于不變預(yù)測(cè)的后端Mp。給定異質(zhì)性數(shù)據(jù),從異質(zhì)性識(shí)別模塊Mc出發(fā),用學(xué)習(xí)變量ψ (x)表示異質(zhì)性環(huán)境εlearn。然后,分布外一般化預(yù)測(cè)模塊Mp使用所學(xué)習(xí)的環(huán)境來(lái)學(xué)習(xí)MIP φ (x)和不變預(yù)測(cè)模型F (φ (x))。之后,我們推導(dǎo)出變型ψ (x)來(lái)進(jìn)一步增強(qiáng)模Mc。至于“轉(zhuǎn)換”步驟,基于我們的設(shè)置,我們?cè)谶@項(xiàng)工作中采用了特征選擇,通過(guò)它可以在學(xué)習(xí)更多不變特征時(shí)獲得更多的變異特征。
HRM是一種優(yōu)化框架,可實(shí)現(xiàn)數(shù)據(jù)和不變預(yù)測(cè)器之間潛在異質(zhì)性的聯(lián)合學(xué)習(xí)。盡管分布發(fā)生變化,在該框架下仍具有更好的泛化能力。
為了驗(yàn)證該框架的有效性,崔鵬老師團(tuán)隊(duì)將HRM框架與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (Empirical Risk Minimization, ERM) 框架、分布魯棒優(yōu)化 (Distributionally Robust Optimization, DRO) 框架、不變學(xué)習(xí)的環(huán)境推理 (Environment Inference for Invariant Learning, EIIL) 框架、具有環(huán)境εtr標(biāo)簽的不變風(fēng)險(xiǎn)最小化 (IRM) 框架進(jìn)行比較。
實(shí)驗(yàn)表明,與基線方法相比,HRM在平均性能和穩(wěn)定性方面取得了近乎完美的表現(xiàn),尤其是跨環(huán)境損失的方差接近于0。此外,HRM不需要環(huán)境標(biāo)簽,這驗(yàn)證了我們的聚類(lèi)算法可以挖掘數(shù)據(jù)內(nèi)部潛在的異質(zhì)性。
繼續(xù)進(jìn)行了三個(gè)真實(shí)場(chǎng)景的預(yù)測(cè),包括汽車(chē)保險(xiǎn)預(yù)測(cè)、人們收入預(yù)測(cè)和房?jī)r(jià)預(yù)測(cè)。
真實(shí)場(chǎng)景的預(yù)測(cè)結(jié)果(a) 汽車(chē)保險(xiǎn)預(yù)測(cè)的訓(xùn)練和測(cè)試準(zhǔn)確性。左子圖顯示了5種設(shè)置的訓(xùn)練結(jié)果,右子圖顯示了它們對(duì)應(yīng)的測(cè)試結(jié)果。(b) 收入預(yù)測(cè)的誤分類(lèi)率。(c) 房?jī)r(jià)預(yù)測(cè)的預(yù)測(cè)誤差。
從實(shí)驗(yàn)結(jié)果可以看出,在所有任務(wù)和幾乎所有測(cè)試環(huán)境中,HRM始終保持最佳性能。HRM可以有效地揭示和充分利用訓(xùn)練數(shù)據(jù)的內(nèi)在異質(zhì)性進(jìn)行不變學(xué)習(xí)。HRM放寬了對(duì)環(huán)境標(biāo)簽的要求,為不變學(xué)習(xí)開(kāi)辟了新的方向。它能夠涵蓋廣泛的應(yīng)用,例如醫(yī)療保健、金融、營(yíng)銷(xiāo)等。
四、穩(wěn)定學(xué)習(xí)的理論解釋
協(xié)變量偏移泛化是分布外泛化 (OOD) 中的典型案例,它要求在未知測(cè)試分布上具有良好的性能,并且該測(cè)試分布與訓(xùn)練分布差距體現(xiàn)在協(xié)變量遷移上。在涉及回歸算法和深度神經(jīng)網(wǎng)絡(luò)的幾種學(xué)習(xí)模型上,穩(wěn)定的學(xué)習(xí)算法在處理協(xié)變量移位泛化方面已經(jīng)顯示出一定的有效性。崔鵬老師團(tuán)隊(duì)通過(guò)將穩(wěn)定學(xué)習(xí)算法解釋為特征選擇的過(guò)程,向理論分析邁進(jìn)了一步。
具體是這樣的,首先定義一組變量,稱(chēng)為最小穩(wěn)定變量集(minimal stable variable set),它是處理常見(jiàn)損失函數(shù)(包括均方損失和二元交叉熵?fù)p失)下的協(xié)變量遷移泛化的最小且最優(yōu)的變量集合。然后證明了在理想條件下,穩(wěn)定的學(xué)習(xí)算法可以識(shí)別出這個(gè)集合中的變量。這些理論闡明了為什么穩(wěn)定學(xué)習(xí)適用于協(xié)變量遷移泛化。
典型穩(wěn)定學(xué)習(xí)算法的框架如圖所示。該算法通常包括兩個(gè)步驟,分別是重要性采樣和加權(quán)最小二乘。在理想條件下,穩(wěn)定學(xué)習(xí)算法可以識(shí)別最小穩(wěn)定變量集,這是可以在協(xié)變量偏移下提供良好預(yù)測(cè)的最小變量集。
最小穩(wěn)定變量集與馬爾可夫邊界密切相關(guān),穩(wěn)定學(xué)習(xí)在一定程度上有助于識(shí)別馬爾可夫邊界。此外,如果以協(xié)變量移位泛化為目標(biāo),馬爾可夫邊界不是必需的,而最小穩(wěn)定變量集是充分且最優(yōu)的。
與馬爾可夫邊界相比,最小穩(wěn)定變量集可以帶來(lái)兩個(gè)優(yōu)勢(shì):
① 條件獨(dú)立性檢驗(yàn)是精確發(fā)現(xiàn)馬爾可夫邊界的關(guān)鍵。
② 在幾個(gè)常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)中,包括回歸和二元分類(lèi),并不是所有的變量都在馬爾可夫邊界。最小穩(wěn)定變量集被證明是馬爾可夫邊界的子集,它排除了馬爾可夫邊界中無(wú)用的變量,用于協(xié)變量移位泛化。
穩(wěn)定學(xué)習(xí)的應(yīng)用
一、圖上的穩(wěn)定學(xué)習(xí)
1、具有選擇性偏差的多個(gè)環(huán)境中學(xué)習(xí)穩(wěn)定圖
如今,圖已成為一種通用且強(qiáng)大的表示,通過(guò)其結(jié)構(gòu)中編碼的底層模式來(lái)描述不同類(lèi)型實(shí)體之間的豐富關(guān)系。然而,圖生成的數(shù)據(jù)收集過(guò)程充滿(mǎn)了已知或未知的樣本選擇性偏差,尤其是在非平穩(wěn)和異構(gòu)的環(huán)境中,實(shí)體之間會(huì)存在虛假關(guān)聯(lián)。針對(duì)從具有選擇性偏差的多個(gè)環(huán)境中學(xué)習(xí)穩(wěn)定圖的問(wèn)題,崔鵬老師團(tuán)隊(duì)設(shè)計(jì)了一個(gè)無(wú)監(jiān)督的穩(wěn)定圖學(xué)習(xí) (Stable Graph Learning, SGL) 框架,用于從集合數(shù)據(jù)中學(xué)習(xí)穩(wěn)定圖,該框架由GCN (Graph Convolutional Networks) 模塊和針對(duì)高維稀疏集合數(shù)據(jù)的E-VAE (element-wise VAE) 模塊組成。
穩(wěn)定圖學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)表示無(wú)偏連接結(jié)構(gòu)的圖Gs,因?yàn)榄h(huán)境中的圖是從數(shù)據(jù)生成的,如果數(shù)據(jù)的收集過(guò)程來(lái)自具有選擇性偏差的環(huán)境,則元素之間的虛假相關(guān)性會(huì)導(dǎo)致圖在其他環(huán)境中表現(xiàn)不佳。SGL框架能很好地解決這個(gè)問(wèn)題,SGL框架可以分解為兩個(gè)步驟,包括基于圖的集合生成和穩(wěn)定圖學(xué)習(xí)。穩(wěn)定圖學(xué)習(xí)過(guò)程圖解如下圖所示。
穩(wěn)定圖學(xué)習(xí)的過(guò)程圖解
在模擬實(shí)驗(yàn)中,如圖所示,在幾乎所有的實(shí)驗(yàn)中,SGL框架的性能要穩(wěn)定得多,特別是當(dāng)兩個(gè)環(huán)境之間的差異更顯著時(shí),它比所有基線方法都達(dá)到更高的平均準(zhǔn)確度。
模擬實(shí)驗(yàn)結(jié)果。每個(gè)子圖對(duì)應(yīng)一個(gè)實(shí)驗(yàn),紫色曲線表示SGL框架生成的圖Gs的實(shí)驗(yàn)表現(xiàn)
而相應(yīng)地,在真實(shí)實(shí)驗(yàn)里,崔鵬老師團(tuán)隊(duì)研究了商品推薦的常見(jiàn)實(shí)際應(yīng)用中的穩(wěn)定圖結(jié)構(gòu)問(wèn)題。
從下表可以看出,SGL框架生成的圖Gs可以平衡兩種環(huán)境下的相關(guān)性,更穩(wěn)定地達(dá)到最高平均預(yù)測(cè)率。
使用從商品網(wǎng)絡(luò)中學(xué)習(xí)的項(xiàng)目嵌入進(jìn)行帶有曝光偏差的購(gòu)買(mǎi)行為預(yù)測(cè)
如下表所示。SGL框架可以很好地彌補(bǔ)單一環(huán)境下的信息損失,通過(guò)學(xué)習(xí)商品之間的本質(zhì)關(guān)系,生成整體性能最佳的圖Gs。
使用從商品網(wǎng)絡(luò)中學(xué)習(xí)到的項(xiàng)目嵌入來(lái)預(yù)測(cè)不同性別群體的購(gòu)買(mǎi)行為
圖生成的數(shù)據(jù)選擇性偏差可能導(dǎo)致有偏差的圖結(jié)構(gòu)在Non-I.I.D.場(chǎng)景中性能不佳。針對(duì)該問(wèn)題提出的SGL框架可以提高學(xué)習(xí)圖的泛化能力,并能很好地適應(yīng)不同類(lèi)型的圖表和收集的數(shù)據(jù)。
2、具有不可知分布偏移的圖的穩(wěn)定預(yù)測(cè)
圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Networks, GNNs) 已被證明在具有隨機(jī)分離的訓(xùn)練和測(cè)試數(shù)據(jù)的各種圖任務(wù)上是有效的。然而,在實(shí)際應(yīng)用中,訓(xùn)練圖的分布可能與測(cè)試圖的分布不同。此外,在訓(xùn)練GNNs時(shí),測(cè)試數(shù)據(jù)的分布始終是不可知的。因此,大家面臨著圖學(xué)習(xí)訓(xùn)練和測(cè)試之間的不可知分布轉(zhuǎn)變,這將導(dǎo)致傳統(tǒng)GNNs在不同測(cè)試環(huán)境中的推理不穩(wěn)定。
為了解決這個(gè)問(wèn)題,浙江大學(xué)況琨老師團(tuán)隊(duì)提出了一種新的GNNs穩(wěn)定預(yù)測(cè)框架,它允許在圖上進(jìn)行局部和全局穩(wěn)定的學(xué)習(xí)和預(yù)測(cè),可以減少異構(gòu)環(huán)境中的訓(xùn)練損失,從而使GNNs能夠很好地泛化。換句話(huà)說(shuō),是為GNNs設(shè)計(jì)了一種新的穩(wěn)定預(yù)測(cè)框架,該框架能捕獲每個(gè)節(jié)點(diǎn)的穩(wěn)定屬性,在此基礎(chǔ)上學(xué)習(xí)節(jié)點(diǎn)表示并進(jìn)行預(yù)測(cè)(局部穩(wěn)定),并規(guī)范GNNs在異構(gòu)環(huán)境中的訓(xùn)練(全局穩(wěn)定)。該方法的本質(zhì)如圖所示。
整體架構(gòu)
由兩個(gè)基本組成部分組成,即在每個(gè)目標(biāo)節(jié)點(diǎn)的表示學(xué)習(xí)中捕獲跨環(huán)境穩(wěn)定的屬性的局部穩(wěn)定學(xué)習(xí),以及顯式平衡不同訓(xùn)練的全局穩(wěn)定學(xué)習(xí)環(huán)境。
在圖基準(zhǔn)實(shí)驗(yàn)中,浙江大學(xué)況琨老師團(tuán)隊(duì)使用OGB數(shù)據(jù)集和傳統(tǒng)基準(zhǔn)Citeseer數(shù)據(jù)集,構(gòu)建兩層GCN和GAT。所有其他方法(包括我們的方法)也包含兩個(gè)圖形層以進(jìn)行公平比較。OGBarxiv的所有方法的隱藏層神經(jīng)節(jié)點(diǎn)個(gè)數(shù)為250,Citeseer的隱藏層神經(jīng)節(jié)點(diǎn)個(gè)數(shù)為64,學(xué)習(xí)率為0.002。
穩(wěn)定預(yù)測(cè)框架有著更穩(wěn)定的實(shí)驗(yàn)結(jié)果。當(dāng)測(cè)試分布與訓(xùn)練分布的差異更大時(shí),大多數(shù)GNNs會(huì)遭受分布變化并且產(chǎn)生較差的性能(例如,圖a的右側(cè))。盡管穩(wěn)定預(yù)測(cè)框架在分布更接近訓(xùn)練的測(cè)試環(huán)境中犧牲了一些性能(例如,圖a的左側(cè)),但獲得了顯著更高的 Average_Score 和更低的 Stability_Error。
在OGB-Arxiv數(shù)據(jù)集上的測(cè)試結(jié)果
在Citeseer數(shù)據(jù)集上的測(cè)試結(jié)果
為了證明穩(wěn)定預(yù)測(cè)框架在實(shí)際應(yīng)用中的有效性,浙江大學(xué)況琨老師團(tuán)隊(duì)收集真實(shí)世界的嘈雜數(shù)據(jù)集,對(duì)推薦系統(tǒng)的用戶(hù)-項(xiàng)目二分圖進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,穩(wěn)定預(yù)測(cè)框架比其他基線方法取得了明顯更穩(wěn)定的結(jié)果。
具有由節(jié)點(diǎn)屬性引起的分布偏移的真實(shí)世界推薦數(shù)據(jù)集的結(jié)果
具有真實(shí)世界環(huán)境的推薦數(shù)據(jù)集的結(jié)果(每天作為一個(gè)單獨(dú)的環(huán)境)
二、深度神經(jīng)網(wǎng)絡(luò)中的穩(wěn)定學(xué)習(xí)
基于深度神經(jīng)網(wǎng)絡(luò)的方法在測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)共享相似分布時(shí)取得了驚人的性能,但有時(shí)可能會(huì)失敗。因此,消除訓(xùn)練和測(cè)試數(shù)據(jù)之間分布變化的影響對(duì)于構(gòu)建性能有希望的深度模型至關(guān)重要。崔鵬老師團(tuán)隊(duì)建議通過(guò)學(xué)習(xí)訓(xùn)練樣本的權(quán)重來(lái)消除特征之間的依賴(lài)關(guān)系來(lái)解決這個(gè)問(wèn)題,這有助于深度模型擺脫虛假關(guān)聯(lián),進(jìn)而更多地關(guān)注判別特征和標(biāo)簽之間的真正聯(lián)系。
崔鵬老師團(tuán)隊(duì)提出了一種稱(chēng)為StableNet的方法。該方法通過(guò)全局加權(quán)樣本來(lái)解決分布偏移問(wèn)題,以直接對(duì)每個(gè)輸入樣本的所有特征進(jìn)行去相關(guān),從而消除相關(guān)和不相關(guān)特征之間的統(tǒng)計(jì)相關(guān)性。這是一種基于隨機(jī)傅立葉特征 (Random Fourier Features, RFF) 的新型非線性特征去相關(guān)方法,具有線性計(jì)算復(fù)雜度。同時(shí),它也是有效的優(yōu)化機(jī)制,通過(guò)迭代保存和重新加載模型的特征和權(quán)重來(lái)全局感知和消除相關(guān)性,還能在訓(xùn)練數(shù)據(jù)量大時(shí)減少存儲(chǔ)的使用和計(jì)算成本。此外,如圖16所示,StableNet可以有效地剔除不相關(guān)的特征(例如,水)并利用真正相關(guān)的特征進(jìn)行預(yù)測(cè),從而在野外非平穩(wěn)環(huán)境中獲得更穩(wěn)定的性能。
當(dāng)識(shí)別狗的訓(xùn)練圖像包含很多水時(shí),StableNet模型主要關(guān)注于狗
StableNet的整體架構(gòu)
為了涵蓋更普遍和更具挑戰(zhàn)性的分布變化案例,崔鵬老師團(tuán)隊(duì)在實(shí)驗(yàn)中采用如下四種設(shè)置:非平衡、靈活、對(duì)抗、經(jīng)典。在不同的實(shí)驗(yàn)設(shè)置下,StableNet都能不同程度得優(yōu)于其他方法。
在消融研究中,通過(guò)隨機(jī)選擇用于計(jì)算具有不同比率的依賴(lài)關(guān)系的特征來(lái)進(jìn)一步降低特征維度。下圖顯示了具有不同維度隨機(jī)傅里葉特征的實(shí)驗(yàn)結(jié)果。
消融研究的結(jié)果
圖像分類(lèi)模型的一種直觀解釋是識(shí)別對(duì)最終決策有很大影響的像素。所以,在顯著性圖像上,為了演示模型在進(jìn)行預(yù)測(cè)時(shí)是關(guān)注對(duì)象還是上下文(域),對(duì)類(lèi)別得分函數(shù)相對(duì)于輸入像素的梯度進(jìn)行了可視化。可視化結(jié)果如圖所示。
StableNet的顯著性圖像。像素越亮,它對(duì)預(yù)測(cè)的貢獻(xiàn)就越大
各種實(shí)驗(yàn)結(jié)果表明,StableNet方法可以通過(guò)樣本加權(quán)消除相關(guān)和不相關(guān)特征之間的統(tǒng)計(jì)相關(guān)性,進(jìn)而有效剔除不相關(guān)的特征并利用真正相關(guān)的特征進(jìn)行預(yù)測(cè)。
三、穩(wěn)定學(xué)習(xí)與公平性
如今,公平問(wèn)題已經(jīng)成為了決策系統(tǒng)中的重要問(wèn)題。已經(jīng)有很多學(xué)者提出了各種公平的概念來(lái)衡量算法的不公平程度。珀?duì)栄芯苛瞬死髮W(xué)研究生入學(xué)性別偏見(jiàn)的案例。數(shù)據(jù)顯示,總體而言,男性申請(qǐng)人的入學(xué)率較高,但在研究院系選擇時(shí),結(jié)果有所不同。由院系選擇引起的偏差應(yīng)該被認(rèn)為是公平的,但傳統(tǒng)的群體公平觀念由于沒(méi)有考慮院系選擇而無(wú)法判斷公平。受此啟發(fā),基于因果關(guān)系的公平理念應(yīng)運(yùn)而生。在這些論文中,作者首先假設(shè)了特征之間的因果圖,然后,他們可以將敏感屬性對(duì)結(jié)果的不公平因果效應(yīng)定義為一個(gè)度量。然而,這些公平性概念需要非常有力的假設(shè),而且它們不可擴(kuò)展。在實(shí)踐中,經(jīng)常存在一組我們稱(chēng)之為公平變量的變量,它們是決策前的協(xié)變量,例如用戶(hù)的選擇。
公平變量并不會(huì)影響評(píng)估決策支持算法的公平性。因此,崔鵬老師團(tuán)隊(duì)通過(guò)設(shè)置公平變量將條件公平定義為更合理的公平度量。通過(guò)選取不同的公平變量,崔鵬老師團(tuán)隊(duì)證明了傳統(tǒng)的公平概念,例如統(tǒng)計(jì)公平和機(jī)會(huì)均等,是條件公平符號(hào)的特例。并且提出了一種可求導(dǎo)的條件公平正則化器(Derivable Conditional Fairness Regularizer, DCFR),它可以集成到任何決策模型中,以跟蹤算法決策的精度和公平性之間的權(quán)衡。
DCFR的框架
為了公平比較,在實(shí)驗(yàn)中,選擇也使用對(duì)抗性表示學(xué)習(xí)的方法來(lái)解決問(wèn)題的公平優(yōu)化算法作對(duì)照。有UNFAIR、ALFR、CFAIR和LAFTR,以及它的變體LAFTR-DP和LAFTR-EO。
各種數(shù)據(jù)集(從上到下依次為收入數(shù)據(jù)集、荷蘭人口普查數(shù)據(jù)集、COMPAS數(shù)據(jù)集)上不同公平性指標(biāo)(從左到右依次為Δ 、Δ 、Δ )的準(zhǔn)確性-公平性權(quán)衡曲線。DCFR以粗線顯示。
很明顯,在實(shí)驗(yàn)中DCFR更有優(yōu)勢(shì),在準(zhǔn)確性和公平性上達(dá)到更好的權(quán)衡效果。對(duì)于統(tǒng)計(jì)公平和機(jī)會(huì)均等任務(wù),DCFR的退化變體能有與專(zhuān)為這些任務(wù)設(shè)計(jì)的最先進(jìn)基線方法相當(dāng)?shù)男阅埽袝r(shí)甚至還能有更好的結(jié)果。綜上所述,DCFR在真實(shí)數(shù)據(jù)集上非常有效,并在條件公平目標(biāo)上取得了良好的性能。并且隨著公平變量的數(shù)量增加,其表現(xiàn)會(huì)更好。
四、穩(wěn)定學(xué)習(xí)與領(lǐng)域自適應(yīng)
穩(wěn)定學(xué)習(xí)最初的定義是不需要目標(biāo)域信息的,這里的領(lǐng)域自適應(yīng)是一種利用了目標(biāo)域信息的做法,可以理解為拓展了最初的穩(wěn)定學(xué)習(xí)的含義。
研究表明,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的表征可以轉(zhuǎn)移到我們沒(méi)有充足標(biāo)記數(shù)據(jù)的其他領(lǐng)域中,并進(jìn)行類(lèi)似的預(yù)測(cè)任務(wù)。然而,當(dāng)我們過(guò)渡到模型中的更高神經(jīng)層時(shí),表征變得更加適用于特定任務(wù)而不通用。關(guān)于這個(gè)問(wèn)題,深度域適應(yīng)的研究提出通過(guò)強(qiáng)制深度模型學(xué)習(xí)更多跨域可遷移的表征來(lái)緩解。這其實(shí)是通過(guò)將域適應(yīng)方法整合到深度學(xué)習(xí)管道中來(lái)實(shí)現(xiàn)的。然而,相關(guān)性并不總是可轉(zhuǎn)移的。亞利桑那州立大學(xué)(Arizona State University,ASU)劉歡老師團(tuán)隊(duì)提出了一個(gè)用于無(wú)監(jiān)督域適應(yīng) (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示學(xué)習(xí)框架,以學(xué)習(xí)用于目標(biāo)域預(yù)測(cè)的可遷移特征表示,如圖22所示。其實(shí)就是使用來(lái)自源域的重新加權(quán)樣本來(lái)模擬虛擬目標(biāo)域,并估計(jì)特征對(duì)結(jié)果的因果影響。
DCDAN概述
DCDAN由一個(gè)正則化項(xiàng)組成,該正則化項(xiàng)通過(guò)平衡從數(shù)據(jù)中學(xué)習(xí)到的特征表示的分布來(lái)學(xué)習(xí)源數(shù)據(jù)的平衡權(quán)重。這些權(quán)重的設(shè)計(jì)有助于模型捕捉特征對(duì)目標(biāo)變量的因果影響,而不是它們的相關(guān)性。此外,我們的模型包括深度神經(jīng)網(wǎng)絡(luò)的加權(quán)損失函數(shù),其中每個(gè)樣本的權(quán)重來(lái)自正則化項(xiàng),損失函數(shù)負(fù)責(zé)學(xué)習(xí)預(yù)測(cè)域不變特征,以及將學(xué)習(xí)到的表征映射到輸出的分類(lèi)器或因果機(jī)制。將學(xué)習(xí)組件的樣本權(quán)重嵌入到模型的管道中,并將這些權(quán)重與表征聯(lián)合學(xué)習(xí),這樣不僅可以從深度模型中受益,還能學(xué)習(xí)對(duì)目標(biāo)具有可轉(zhuǎn)移性和良好預(yù)測(cè)效果的因果特征。
DCDAN生成的數(shù)據(jù)集中樣本示例(EQ2)和熱圖。(a)顯示了來(lái)自數(shù)據(jù)的示例圖像,圖23(b)顯示了從VQA-X數(shù)據(jù)集中提取的圖23(a)的因果特征的基本事實(shí),圖23(c) 顯示了DCDAN為因果表征生成的熱圖
為了驗(yàn)證該框架的有效性,亞利桑那州立大學(xué)(Arizona State University,ASU)劉歡老師團(tuán)隊(duì)將ResNet-50、DDC、DAN、Deep CORAL、DANN、HAFN設(shè)置為對(duì)照方法來(lái)進(jìn)行實(shí)驗(yàn)。
DCDAN和Resnet-50 在VQA-X數(shù)據(jù)子集上生成的熱圖
在實(shí)驗(yàn)中,DCDAN在許多情況下優(yōu)于基線方法,結(jié)果表明DCDAN可以執(zhí)行無(wú)監(jiān)督的域自適應(yīng),顯示了它在學(xué)習(xí)因果表示方面的有效性。而且這還驗(yàn)證了因果特征表示有助于學(xué)習(xí)跨域的可遷移特征,進(jìn)一步證實(shí)了因果損失和分類(lèi)損失之間的良好權(quán)衡可以導(dǎo)致學(xué)習(xí)更多可轉(zhuǎn)移的特征。
因果啟發(fā)的穩(wěn)定學(xué)習(xí)研究進(jìn)展
一、清華大學(xué)崔鵬:關(guān)于分部外泛化和穩(wěn)定學(xué)習(xí)的一些思考
近年來(lái),分布外(OOD)泛化問(wèn)題廣泛引起了機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等領(lǐng)域研究者的興趣。以監(jiān)督學(xué)習(xí)為例,我們希望找到一個(gè)模型 f 以及其參數(shù) θ,使得我們能夠在測(cè)試數(shù)據(jù)分布上最小化和y之間損失的期望。
原則上說(shuō),我們測(cè)試時(shí)的數(shù)據(jù)分布是未知的,為了對(duì)其進(jìn)行優(yōu)化,傳統(tǒng)的機(jī)器學(xué)習(xí)方法認(rèn)為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)滿(mǎn)足獨(dú)立同分布假設(shè),從而對(duì)問(wèn)題進(jìn)行簡(jiǎn)化,使我們可以在訓(xùn)練數(shù)據(jù)分布下搜索帶有參數(shù) θ 的函數(shù) f。
然而,這種簡(jiǎn)化的問(wèn)題設(shè)定無(wú)法滿(mǎn)足許多實(shí)際應(yīng)用場(chǎng)景的要求,我們往往很難保證測(cè)試時(shí)和訓(xùn)練時(shí)的數(shù)據(jù)分布一致。通過(guò)上述方式學(xué)習(xí)到的
缺乏理論保障,模型在真實(shí)的測(cè)試環(huán)境下的性能與實(shí)驗(yàn)室中訓(xùn)練時(shí)的性能可能相差甚遠(yuǎn)。為此,一些研究人員開(kāi)始研究分布外場(chǎng)景下的學(xué)習(xí)問(wèn)題。
根據(jù)測(cè)試時(shí)數(shù)據(jù)分布的不同,分布外學(xué)習(xí)問(wèn)題衍生出了兩條技術(shù)路徑:
(1)分布外域自適應(yīng):測(cè)試數(shù)據(jù)(目標(biāo)域)部分已知,基于域自適應(yīng)/遷移學(xué)習(xí)技術(shù),將利用訓(xùn)練數(shù)據(jù)(源域)得到的模型適配到不同的數(shù)據(jù)分布(目標(biāo)域)下
(2)分布外泛化:測(cè)試數(shù)據(jù)分布完全未知。
在傳統(tǒng)的獨(dú)立同分布學(xué)習(xí)場(chǎng)景下,模型泛化是一種內(nèi)插(Interpolation)泛化,在分布外學(xué)習(xí)場(chǎng)景下,模型泛化則指的是外推(Extrapolation)。
如上圖所示,在獨(dú)立同分布場(chǎng)景下,如果 參數(shù)量太少,則模型對(duì)數(shù)據(jù)欠擬合;若參數(shù)量過(guò)多,則模型可能對(duì)數(shù)據(jù)過(guò)擬合。論文「Direct Fit to Nature:An EvolutionaryPerspective on Biological and Artificial Neural Networks」的作者認(rèn)為,過(guò)參數(shù)化的深度學(xué)習(xí)網(wǎng)絡(luò)之所以具有較好的泛化能力,可能是由于模型用類(lèi)似折線的形式直接對(duì)數(shù)據(jù)點(diǎn)進(jìn)行了擬合。
如果我們直觀測(cè)到整體中很小的一部分?jǐn)?shù)據(jù),就需要對(duì)未觀測(cè)到的數(shù)據(jù)進(jìn)行外推。傳統(tǒng)上,我們需要進(jìn)行精巧的實(shí)驗(yàn)設(shè)計(jì),基于小量的觀測(cè)數(shù)據(jù)推理出分布外的情況。在這一過(guò)程中,我們會(huì)引入大量人類(lèi)總結(jié)出的一些通用規(guī)律,從而實(shí)現(xiàn)數(shù)據(jù)的外推。
正所謂「以不變應(yīng)萬(wàn)變」,「不變性」(invariance)是實(shí)現(xiàn)外推的基礎(chǔ)。例如:牛頓觀察到蘋(píng)果從樹(shù)上落下,從而推導(dǎo)出萬(wàn)有引力定律,進(jìn)而可以將這一規(guī)律外推到其它物體的運(yùn)動(dòng)上。
在獨(dú)立同分布場(chǎng)景下,由于我們認(rèn)為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布相同,我們的目標(biāo)是數(shù)據(jù)擬合,此時(shí)「相關(guān)性」自然成為了一個(gè)很好的統(tǒng)計(jì)指標(biāo)。在 OOD 場(chǎng)景下,我們旨在通過(guò)以下兩條路徑尋找「不變性」:
(1)因果推理
(2)從變化中尋找不變性
1、因果推理
因果推理是一種與不變性相關(guān)的科學(xué)。在經(jīng)典的因果模型中,我們?cè)噲D控制X,尋找 T 的變化對(duì) Y 的影響。具體而言,利用觀測(cè)數(shù)據(jù),我們會(huì)通過(guò)樣本重加權(quán)(Sample Reweighting)將 T=1 和 T=0 時(shí)的樣本具有相似的 X 分布,如果這兩種情況下的 Y 有顯著變化,則 T 對(duì) Y 有因果效應(yīng)。此時(shí),我們估計(jì)出的 T 對(duì) Y 的因果效應(yīng)平均而言對(duì)于 X的變化是具有不變性的。
為了將不變性適配到學(xué)習(xí)框架中,我們要研究多個(gè)輸入變量對(duì)輸出變量預(yù)測(cè)性的影響。在穩(wěn)定學(xué)習(xí)框架下,我們?cè)噲D找到一組合適的樣本權(quán)重,進(jìn)行樣本重加權(quán)后再通過(guò)輸入變量對(duì)輸出變量進(jìn)行回歸,此時(shí)的回歸系數(shù)即為滿(mǎn)足因果關(guān)系的回歸系數(shù)。通過(guò)上述方式訓(xùn)練出的模型具有 OOD 的泛化能力。
2、從變化中尋找不變性
變化與不變性是對(duì)立統(tǒng)一的。在機(jī)器學(xué)習(xí)場(chǎng)景下,數(shù)據(jù)中的「變化」指的是訓(xùn)練數(shù)據(jù)中存在的異質(zhì)性(例如,圖像背景的不同、物體品類(lèi)的不同)。然而,我們無(wú)法手動(dòng)定義這種數(shù)據(jù)的異質(zhì)性,因?yàn)槲覀儫o(wú)法保證數(shù)據(jù)在所有的特征維度上都滿(mǎn)足不變性約束。
因此,一種可行的方式是從潛在的異質(zhì)性中尋找不變性。我們假設(shè)環(huán)境是未知的,存在一定的異質(zhì)性。在這種情況下,我們首先需要發(fā)現(xiàn)數(shù)據(jù)中的異質(zhì)性,再根據(jù)數(shù)據(jù)的異質(zhì)性發(fā)現(xiàn)其中的不變性,接著我們還可以反過(guò)來(lái)利用不變性提升對(duì)變化部分(異質(zhì)性)的學(xué)習(xí)效果,這一過(guò)程將一直迭代下去。
3、穩(wěn)定學(xué)習(xí)的定位
在穩(wěn)定學(xué)習(xí)框架下,我們利用一個(gè)異質(zhì)的數(shù)據(jù)分布學(xué)習(xí)模型,希望將學(xué)習(xí)到的模型應(yīng)用到一系列未知數(shù)據(jù)集上時(shí)具有一定的性能保證。除了通過(guò)實(shí)驗(yàn)證明此類(lèi)模型的有效性,我們還希望為其發(fā)展出理論的支撐。
二、清華大學(xué)張興璇:StableNet——用于分布外泛化的深度穩(wěn)定學(xué)習(xí)
我們具體來(lái)討論深度穩(wěn)定學(xué)習(xí),比如我的訓(xùn)練圖片中是很多狗都在草地上,然后少量的狗在其他背景上時(shí),那么它需要能及及時(shí)分辨出草地上的狗,通常這個(gè)模型可以給出比較準(zhǔn)確的預(yù)測(cè)。但是當(dāng)給到一個(gè)他建的比較少的背景,他可能就會(huì)不一定給出一個(gè)準(zhǔn)確的預(yù)測(cè),但大部分可能還可以給出類(lèi)似的預(yù)測(cè),但是當(dāng)它出現(xiàn)了一個(gè)他完全沒(méi)有見(jiàn)過(guò)的背景的時(shí)候,這個(gè)模型很有可能就給出一個(gè)錯(cuò)誤的預(yù)測(cè)。所以說(shuō)這種分布偏移的問(wèn)題,會(huì)給現(xiàn)在的深度網(wǎng)絡(luò)帶來(lái)很大的挑戰(zhàn)。
對(duì)于當(dāng)下基于獨(dú)立同分布假設(shè)開(kāi)發(fā)的深度學(xué)習(xí)網(wǎng)絡(luò)而言,若訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布不一致時(shí),模型的泛化性能將會(huì)較差。如上圖所示,假設(shè)訓(xùn)練集包含大量背景為草地的狗,如果在測(cè)試時(shí)面對(duì)一張站在草地上的狗的圖片,網(wǎng)絡(luò)一般可以準(zhǔn)確地對(duì)圖片進(jìn)行預(yù)測(cè);然而,如果測(cè)試圖片中的背景在訓(xùn)練集中出現(xiàn)地較少或從未出現(xiàn),則網(wǎng)絡(luò)的預(yù)測(cè)效果很可能較差。這種分布偏移問(wèn)題是當(dāng)前的深度學(xué)習(xí)網(wǎng)絡(luò)面臨的重大挑戰(zhàn)之一。
之所以會(huì)出現(xiàn)上述問(wèn)題,是因?yàn)榫W(wǎng)絡(luò)學(xué)習(xí)到的很可能是數(shù)據(jù)之間的相關(guān)性。在上圖中,由于訓(xùn)練集中大量存在「狗站在草地上」的樣本,因此草地的特征和狗的圖像特征之間建立了關(guān)聯(lián),進(jìn)而在草地的特征和狗的標(biāo)簽之間建立了關(guān)聯(lián),導(dǎo)致在測(cè)試集上對(duì)其它背景圖片的預(yù)測(cè)性能有所下降。
為了解決上述問(wèn)題,我們?cè)噲D轉(zhuǎn)而抽取因果特征(例如,部分和整體的因果關(guān)系)。在穩(wěn)定學(xué)習(xí)框架下,我們重點(diǎn)關(guān)注的是物體本身的因果特征,而非環(huán)境的特征。
如上圖所示,ResNet18(第二行)網(wǎng)絡(luò)不僅關(guān)注狗的特征,也關(guān)注到了背景的無(wú)關(guān)特征,而 Stable Net 則主要關(guān)注狗本身的特征。
具體而言,我們采用全局平衡(Global Balancing)方法提取因果特征。給定任意的干預(yù)(treatment),我們對(duì)訓(xùn)練樣本進(jìn)行加權(quán),從而消除各類(lèi)特征之間的統(tǒng)計(jì)關(guān)聯(lián)性,斷開(kāi)背景與因果特征之間的關(guān)聯(lián),最終找到更加具有因果關(guān)系的特征,實(shí)現(xiàn)更加穩(wěn)定的預(yù)測(cè)。
先前的穩(wěn)定學(xué)習(xí)方法主要針對(duì)較簡(jiǎn)單的模型(例如,線性模型)開(kāi)發(fā),考慮的問(wèn)題主要是消除特征之間的線性相關(guān)性。然而,在深度網(wǎng)絡(luò)中,各類(lèi)特征之間的相關(guān)性通常是非常復(fù)雜的非線性相關(guān)性。因此,StableNet 首先將所有的特征映射到其隨機(jī)傅里葉特征的空間中,該步驟將較低維度空間中的特征映射到較高維度的空間中;接著,我們?cè)谳^高維度的空間中去掉各類(lèi)特征的線性相關(guān)性;這樣以來(lái),我們就可以去掉原始的特征空間中特征之間的線性相關(guān)性以及非線性相關(guān)性,保證特征的嚴(yán)格獨(dú)立。
此外,原始的全局重加權(quán)方法需要對(duì)所有的樣本進(jìn)行操作。然而,在深度學(xué)習(xí)場(chǎng)景下,訓(xùn)練樣本量一般非常大,我們無(wú)法對(duì)全局樣本進(jìn)行加權(quán)。為此,我們提出了一種預(yù)存儲(chǔ)的方式,將網(wǎng)絡(luò)之前見(jiàn)過(guò)的特征和樣本權(quán)重存儲(chǔ)下來(lái),進(jìn)而在新的一輪訓(xùn)練中結(jié)合當(dāng)前的特征進(jìn)行重加權(quán)。
StableNet 的網(wǎng)絡(luò)架構(gòu)如上圖如所示。網(wǎng)絡(luò)架構(gòu)有兩個(gè)分支,下面的分支為基本的圖像分類(lèi)網(wǎng)絡(luò),上面的分支是對(duì)樣本進(jìn)行 RFF 映射后再進(jìn)行重加權(quán)的過(guò)程。我們可以將兩個(gè)分支分離開(kāi)來(lái),從而將StableNet 插入到任何深度學(xué)習(xí)架構(gòu)中。
目前,在計(jì)算機(jī)視覺(jué)領(lǐng)域的域泛化任務(wù)中,我們往往假設(shè)訓(xùn)練數(shù)據(jù)中的異質(zhì)性十分顯著,且各個(gè)域的樣本容量相當(dāng)。這在一定程度上限制了在 CV 領(lǐng)域中對(duì) OOD 泛化方法進(jìn)行驗(yàn)證。
本文作者基于 PACS 和 VLCS 兩個(gè)數(shù)據(jù)集構(gòu)建了各個(gè)圖片域數(shù)量不平衡的實(shí)驗(yàn)環(huán)境,有一些圖片域占據(jù)主導(dǎo)地位,具有更強(qiáng)的虛假關(guān)聯(lián)。在該設(shè)定下,StableNet 相較于對(duì)比基線具有最佳的泛化性能。
在更加靈活的 OOD 泛化場(chǎng)景下,不同類(lèi)別的圖像所處的域可能不同。在該場(chǎng)景下,StableNet 的性能仍?xún)?yōu)于所有的對(duì)比基線。
在對(duì)抗性 OOD 泛化場(chǎng)景下,域和標(biāo)簽的虛假關(guān)聯(lián)很強(qiáng)(例如,訓(xùn)練集中的大部分?jǐn)?shù)字 1 的顏色為綠色,數(shù)字 2 為黃色;在測(cè)試時(shí)兩種數(shù)字的顏色與訓(xùn)練集中相反)。StableNet 在幾乎所有的實(shí)驗(yàn)設(shè)定下都超過(guò)了現(xiàn)有的方法。
三、浙江大學(xué)況琨:通過(guò)工具變量回歸實(shí)現(xiàn)因果泛化
1、因果關(guān)系與穩(wěn)定學(xué)習(xí)
如前文所述,現(xiàn)有的基于關(guān)聯(lián)關(guān)系的機(jī)器學(xué)習(xí)算法存在一定的不穩(wěn)定性。為此,研究者們提出了穩(wěn)定預(yù)測(cè)/學(xué)習(xí)的框架,重點(diǎn)關(guān)注對(duì)未知的測(cè)試數(shù)據(jù)進(jìn)行準(zhǔn)確、穩(wěn)定的預(yù)測(cè)。
現(xiàn)有的機(jī)器學(xué)習(xí)算法之所以不穩(wěn)定,是因?yàn)檫@些算法是關(guān)聯(lián)驅(qū)動(dòng)的,而數(shù)據(jù)中存在大量的偏差,可能會(huì)導(dǎo)致模型提取出一些非因果關(guān)系的特征(虛假關(guān)聯(lián)),從而導(dǎo)致模型不可解釋、不穩(wěn)定。為此,我們?cè)噲D恢復(fù)出每個(gè)特征變量和標(biāo)簽 Y 之間的因果關(guān)系,從而找出因果特征。
2018 年,崔鵬老師、況琨老師等人提出了因果正則化技術(shù),通過(guò)學(xué)習(xí)到全局權(quán)重使得變量之間相互獨(dú)立,通過(guò)將該技術(shù)應(yīng)用到邏輯回歸、淺層深度網(wǎng)絡(luò)等模型上,可以取得一定的性能提升。這種尋找因果關(guān)系的過(guò)程要求我們能夠觀測(cè)到所有的特征,然而有時(shí)一些因果特征是我們無(wú)法觀測(cè)到的。
2、工具變量回歸
在因果科學(xué)領(lǐng)域,研究者們以往通過(guò)工具變量(InstrumentalVariable)處理未觀測(cè)到的變量。如上圖所示,假設(shè)我們需要估計(jì) T(干預(yù))和 Y(結(jié)果)之間的因果效應(yīng),U 為未觀測(cè)到的變量。工具變量 Z 必須滿(mǎn)足以下三個(gè)條件:(1)Z 與 T 相關(guān)(2)Z 與 U 相互獨(dú)立(3)Z 需要通過(guò) T 影響 Y。
找到合適的工具變量 Z 后,我們可以通過(guò)二階段最小二乘方法估計(jì) T 與 Y 之間的因果效應(yīng)。在第一階段,我們根據(jù) Z 回歸 T,從而得到
;在第二階段,我們根據(jù)
回歸 Y,從而估計(jì)出T 與 Y 之間的因果函數(shù)。在上圖左下角的例子中,黃色的曲線代表直接用神經(jīng)網(wǎng)絡(luò)回歸的結(jié)果,紅色的曲線代表引入工具變量后通過(guò)二階段最小二乘回歸得到的結(jié)果。實(shí)驗(yàn)結(jié)果表明,紅色的曲線對(duì)原函數(shù)的擬合程度更好。
回歸 Y。
在使用原始的工具變量回歸方法時(shí),我們往往需要預(yù)先定義一個(gè)工具變量。在論文「Auto IV:Counterfactual Prediction viaAutomatic Instrumental Variable Decomposition」中,況琨博士等人在給定干預(yù) T,輸出結(jié)果 Y,觀測(cè)到的混淆因子 X,未觀測(cè)到的混淆因子 U 的情況下,從觀測(cè)到的混淆因子 X 中解耦出工具變量。盡管分理出的工具變量可能不具備明確的物理意義,但是它滿(mǎn)足前文提到的工具變量所需要滿(mǎn)足的三個(gè)屬性。這樣生成的工具變量可以幫助我們估計(jì) T 和 Y 之間的關(guān)系。具體而言,我們通過(guò)互信息判斷特征之間的條件獨(dú)立性,以及表征學(xué)習(xí)實(shí)現(xiàn)解耦操作。
3、通過(guò)工具變量回歸實(shí)現(xiàn)因果泛化
工具變量回歸可以被用于域泛化、不變因果預(yù)測(cè)、因果遷移學(xué)習(xí)等任務(wù)中。以域泛化為例,給定來(lái)自不同觀測(cè)環(huán)境中的數(shù)據(jù),該任務(wù)旨在利用給定的 X 預(yù)測(cè) Y。我們希望從多個(gè)數(shù)據(jù)域(環(huán)境)中學(xué)習(xí)不變性,使得預(yù)測(cè)模型對(duì)于所有可能的環(huán)境都魯棒。
在通過(guò)工具變量回歸解決域泛化問(wèn)題時(shí),首先,我們通過(guò)因果圖刻畫(huà)各個(gè)域中數(shù)據(jù)的生成過(guò)程(DGP)。對(duì)于域 m,在生成樣本數(shù)據(jù) X時(shí),除了樣本的域不變性特征之外,還可能受到域特定特征(例如,光照、天氣)的影響;在為樣本打標(biāo)簽時(shí),標(biāo)注者除了會(huì)考慮圖片樣本特征,也會(huì)受到域特定特征的影響。
在具體的求解過(guò)程中,我們首先通過(guò)工具變量回歸,即估計(jì)。接著,我們利用近似出的和學(xué)習(xí)不變性函數(shù)。值得注意的是,在通過(guò)工具變量進(jìn)行域泛化時(shí),我們只需要一個(gè)域中的標(biāo)簽Y,以及其它域中的無(wú)標(biāo)簽數(shù)據(jù) X。
四、清華大學(xué)劉家碩:從異質(zhì)性數(shù)據(jù)到分布外泛化
1、分布外泛化的背景
經(jīng)驗(yàn)損失風(fēng)險(xiǎn)最小化(ERM)是目前最常用的優(yōu)化算法,該算法優(yōu)化的是所有數(shù)據(jù)點(diǎn)的平均損失,所有樣本的權(quán)重都是1/N。如上圖所示,當(dāng)數(shù)據(jù)中存在異質(zhì)性時(shí),數(shù)據(jù)集中的樣本分布并不均衡。因此,通過(guò) ERM 算法進(jìn)行優(yōu)化可能會(huì)更加關(guān)注出現(xiàn)較多的群體,而忽視出現(xiàn)較少的群體對(duì)損失的影響。
具體而言,在真實(shí)場(chǎng)景中,我們采集到的不同來(lái)源的數(shù)據(jù)分布可能不均衡,存在一定的異質(zhì)性。通過(guò) ERM 對(duì)模型進(jìn)行優(yōu)化時(shí),盡管可以在整體上獲得較高的準(zhǔn)確率,但這可能是由于模型對(duì)數(shù)據(jù)集中多數(shù)群體的預(yù)測(cè)性能很完美,而在少數(shù)群體上的預(yù)測(cè)效果并不一定很好。
如上圖所示,當(dāng)訓(xùn)練數(shù)據(jù)分布與測(cè)試數(shù)據(jù)分布一致時(shí),若使用 ERM 算法進(jìn)行優(yōu)化,模型的泛化性能是有理論保證的。然而,如果數(shù)據(jù)的分布出現(xiàn)了偏移,則 ERM 算法的得到的模型的泛化性能可能較差。
因此,我們應(yīng)該充分考慮數(shù)據(jù)的異質(zhì)性,設(shè)計(jì)更加合理的風(fēng)險(xiǎn)最小化方法,為不同的樣本點(diǎn)施加合適的權(quán)重,使得模型對(duì)多數(shù)群體和少數(shù)群體都有較好的預(yù)測(cè)能力,從而提升模型的泛化性能。
如上圖所示,OOD 泛化問(wèn)題旨在保證模型在發(fā)生分布偏移時(shí)的泛化能力,即通過(guò)「min-max」優(yōu)化找到一組參數(shù)
,使得模型在最差的環(huán)境下的表現(xiàn)性能能夠接受。考慮到分布偏移的情況,在不同環(huán)境下采集到的數(shù)據(jù)的 X 和 Y 的聯(lián)合分布也有所區(qū)別。
2、異質(zhì)性風(fēng)險(xiǎn)最小化
要想找到上述不變特征,我們需要對(duì)環(huán)境有很強(qiáng)的約束。現(xiàn)有的許多不變性學(xué)習(xí)方法都會(huì)針對(duì)從多個(gè)環(huán)境中尋找符合上述性質(zhì)的特征。然而,在真實(shí)情況下,許多數(shù)據(jù)集是收集自多個(gè)不同數(shù)據(jù)源的混合數(shù)據(jù),我們往往很難為環(huán)境保留明確且對(duì)模型學(xué)習(xí)真正有效的標(biāo)簽。
接著,我們將異質(zhì)性風(fēng)險(xiǎn)最小化問(wèn)題定義為:給定存在異質(zhì)性的混合數(shù)據(jù)集D,在缺乏環(huán)境標(biāo)簽的條件下,旨在學(xué)習(xí)到不變性特征的集合,使模型具有更好的 OOD 泛化能力。
3、核異質(zhì)風(fēng)險(xiǎn)最小化
HRM 算法無(wú)法處理復(fù)雜的數(shù)據(jù)(例如,圖片、文本)。在 KerHRM 中,劉家碩博士等人將 HRM 算法拓展至更加復(fù)雜的數(shù)據(jù)類(lèi)型上。
在 HRM 算法流程的基礎(chǔ)之上,劉家碩博士等人在 KerHRM 中引入了神經(jīng)正切核(NTK)。根據(jù) NTK 理論,神經(jīng)網(wǎng)絡(luò)(例如,MLP)的操作等價(jià)于在復(fù)雜的特征空間中進(jìn)行線性回歸。
4、仿真實(shí)驗(yàn):Colored MNIST
本文作者采用與論文「Invariant RiskMinimization」中相同的實(shí)驗(yàn)設(shè)定,測(cè)試了 KerHRM 方法在 Colored MNIST 數(shù)據(jù)集上的性能。在該實(shí)驗(yàn)環(huán)境下,作者將 MNIST 中 0-4 的數(shù)字標(biāo)記為「0」類(lèi),將「5-9」的數(shù)字標(biāo)記為「1」類(lèi),從而將十分類(lèi)問(wèn)題改造為了二分類(lèi)問(wèn)題。接著,作者將「0」類(lèi)中大部分的圖片染成某種顏色,將「1」類(lèi)中大部分的圖片染成另一種顏色,從而構(gòu)建了數(shù)字標(biāo)簽和顏色之間的虛假關(guān)聯(lián)。在測(cè)試時(shí),我們將圖片的染色情況翻轉(zhuǎn)過(guò)來(lái),此時(shí)傳統(tǒng)的機(jī)器學(xué)習(xí)模型的性能往往會(huì)大幅下降。
實(shí)驗(yàn)結(jié)果如上圖所示,隨著迭代輪數(shù)的增加,KerHRM 框架學(xué)習(xí)到的環(huán)境的異質(zhì)性逐漸變大,測(cè)試時(shí)的預(yù)測(cè)準(zhǔn)確率也遞增。同時(shí),訓(xùn)練時(shí)和測(cè)試時(shí)準(zhǔn)確率的差距在逐漸縮小。可見(jiàn),OOD 泛化的性能和我們構(gòu)造的環(huán)境的異質(zhì)性程度呈十分強(qiáng)的正相關(guān),異質(zhì)性對(duì)于 OOD 泛化性能十分重要。因此,環(huán)境標(biāo)簽的質(zhì)量(異質(zhì)性)對(duì)于泛化性能也會(huì)有很大的影響。
五、清華大學(xué)何玥:分布外泛化圖像數(shù)據(jù)集——NICO
1、非獨(dú)立同分布圖像分類(lèi)
圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域中最基礎(chǔ)、最重要的任務(wù)之一。在傳統(tǒng)的獨(dú)立同分布假設(shè)下,通過(guò)最小化訓(xùn)練集上的經(jīng)驗(yàn)損失,現(xiàn)有的深度學(xué)習(xí)模型已經(jīng)可以在測(cè)試時(shí)達(dá)到很好的預(yù)測(cè)性能。然而,在真實(shí)情況下采集到的數(shù)據(jù)集很難滿(mǎn)足獨(dú)立同分布假設(shè),訓(xùn)練集幾乎不可能覆蓋所有的測(cè)試樣本中的數(shù)據(jù)分布情況。此時(shí),如果我們依然通過(guò)最小化模型在訓(xùn)練集上的經(jīng)驗(yàn)損失來(lái)優(yōu)化模型,往往會(huì)導(dǎo)致模型在測(cè)試時(shí)的性能?chē)?yán)重下降。
如上圖所示,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中貓和狗所處的背景差異很大,并不滿(mǎn)足獨(dú)立同分布假設(shè),深度學(xué)習(xí)模型可能會(huì)錯(cuò)誤地將背景當(dāng)做對(duì)圖片進(jìn)行分類(lèi)的標(biāo)準(zhǔn)。而人類(lèi)對(duì)此類(lèi)分類(lèi)問(wèn)題則天然地具有很強(qiáng)的泛化能力,好的分類(lèi)模型也應(yīng)該對(duì)這種背景分布的變化不敏感。
我們將該問(wèn)題稱(chēng)為非獨(dú)立同分布的圖像分類(lèi)問(wèn)題,其中訓(xùn)練集和測(cè)試集中的數(shù)據(jù)分布不同。此類(lèi)問(wèn)題包含兩種子任務(wù):
(1)Targeted Non-I.I.D 圖像分類(lèi):測(cè)試集中的部分信息已知,我們可以借助遷移學(xué)習(xí)等方法將當(dāng)前訓(xùn)練好的模型遷移到目標(biāo)域的數(shù)據(jù)分布上,實(shí)現(xiàn)較好的預(yù)測(cè)性能
(2)General Non-I.I.D 圖像分類(lèi):利用不變性等機(jī)制,將學(xué)習(xí)到的模型以較高準(zhǔn)確率泛化到任意未知數(shù)據(jù)分布上。
實(shí)際上,非獨(dú)立同分布場(chǎng)景下的學(xué)習(xí)問(wèn)題對(duì)計(jì)算機(jī)視覺(jué)任務(wù)十分重要。在自動(dòng)駕駛、自動(dòng)救援等場(chǎng)景下,我們希望模型能夠迅速識(shí)別不常見(jiàn)但非常危險(xiǎn)的情況。
2、衡量數(shù)據(jù)分布差異
為了刻畫(huà)分布之間的差異,我們定義了一種名為「NI」的指標(biāo)。在計(jì)算 NI 的過(guò)程中,我們利用預(yù)訓(xùn)練好的通用視覺(jué)模型提取圖像特征,然后在特征層面上計(jì)算兩個(gè)分布之間的一階矩距離,并采用分布的方差進(jìn)行歸一化。大量實(shí)驗(yàn)證明,NI 對(duì)圖像分布差異的描述是較為魯棒的。此外,在有限采樣的情況下,數(shù)據(jù)分布偏差無(wú)處不在,隨著數(shù)據(jù)分布偏差變強(qiáng),分類(lèi)模型的錯(cuò)誤率也不斷提升。
實(shí)際上,分布偏移現(xiàn)象廣泛的存在PASCAL VOC、ImageNet、MSCOCO 等標(biāo)桿數(shù)據(jù)集中。以 ImageNet 為例,我們首先選取了 10 個(gè)常見(jiàn)的動(dòng)物類(lèi)別,然后針對(duì)每類(lèi)動(dòng)物選取不同的子類(lèi),形成了不同的三個(gè)數(shù)據(jù)集 A、B、C。
接著,我們采集了一些固定的測(cè)試樣本。通過(guò)測(cè)量 NI,我們發(fā)現(xiàn)不同的數(shù)據(jù)集存在數(shù)據(jù)分布偏差,但是這種偏差較弱,且這種數(shù)據(jù)偏差不可控,分布偏差的大小隨機(jī)。為了推動(dòng) OOD 泛化在視覺(jué)領(lǐng)域的研究,我們構(gòu)建了存在明顯的數(shù)據(jù)分布偏差,且偏差可調(diào)節(jié)的視覺(jué)數(shù)據(jù)集——NICO。
3、NICO數(shù)據(jù)集
首先,我們考慮從圖片中分解出主體和上下文的視覺(jué)概念。如上圖所示,主體可能為貓或狗,上下文可能為主體的姿態(tài)、背景、顏色等概念。通過(guò)在訓(xùn)練和測(cè)試中組合不同的主體和上下文,我們可以形成數(shù)據(jù)分布的差異。
上下文概念來(lái)自于真實(shí)世界,我們可以從很多角度描述上下文,進(jìn)而描述一種有偏的數(shù)據(jù)分布。當(dāng)上下文和主體的組合有意義時(shí),我們可以很容易地收集到足夠多的圖像。
目前公開(kāi)的 NICO 數(shù)據(jù)集具有如上圖所示的層次結(jié)構(gòu)。動(dòng)物和交通工具兩個(gè)超類(lèi)包含 9-10 個(gè)主體類(lèi)別,每個(gè)主體類(lèi)別擁有一系列上下文概念。我們希望上下文盡可能多樣,且主體與上下文的組合有意義,各個(gè)上下文之間有一定的重疊。此外,我們要求每類(lèi)主體和上下文組合的樣本數(shù)量盡可能均衡,不同上下文之間的差異盡可能大。
和獨(dú)立同分布的經(jīng)典數(shù)據(jù)集相比,由于 NICO 引入了上下文概念,且圖像是非中心化、非規(guī)則的,所以 NICO 數(shù)據(jù)集上的圖像分類(lèi)任務(wù)更加具有挑戰(zhàn)性。
面對(duì)有限樣本,無(wú)論如何采樣都會(huì)產(chǎn)生一定程度的數(shù)據(jù)分布偏差,這是由圖像本身的性質(zhì),以及采樣規(guī)模的差異造成的。在 NICO 數(shù)據(jù)集中,我們通過(guò)隨機(jī)采樣的方式模擬近似獨(dú)立同分布的場(chǎng)景。與ImageNet 數(shù)據(jù)集相比,確實(shí) NICO 引入了非中心化性質(zhì)/上下文概念,其識(shí)別任務(wù)更加困難。
4、OOD 泛化——比例偏差
當(dāng)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)分布存在「比例偏差」時(shí),我們要求訓(xùn)練集和測(cè)試集數(shù)據(jù)都包含所有類(lèi)別上下文,但是我們?cè)谟?xùn)練和測(cè)試中選擇不同的上下文作為主導(dǎo)上下文(在整采集的圖像中占比較高)。通過(guò)在訓(xùn)練和測(cè)試中設(shè)置不同的主導(dǎo)上下文,我們可以自然地形成數(shù)據(jù)分布的差異。
在這里,我們還定義了「主導(dǎo)率」(Dominant Ratio)指標(biāo)來(lái)刻畫(huà)具有主導(dǎo)上下文的樣本量具有其它上下文的樣本量的比例。如上圖所示,隨著主導(dǎo)率的提升,訓(xùn)練和測(cè)試數(shù)據(jù)之間的分布差異越來(lái)越大,對(duì)模型準(zhǔn)確率的影響也越來(lái)越大,
5、OOD 泛化——成分偏差
「成分偏差」模擬了我們?cè)谟?xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)采樣時(shí)的時(shí)空限制。在該設(shè)定下,訓(xùn)練集并不包含所有類(lèi)別的上下文,有一些測(cè)試集中的上下文是訓(xùn)練中未曾見(jiàn)過(guò)的。隨著訓(xùn)練集包含上下文的種類(lèi)減少,測(cè)試集和訓(xùn)練集的數(shù)據(jù)分布差異遞增,模型學(xué)習(xí)的效果也越來(lái)越差。
為了實(shí)現(xiàn)更大的數(shù)據(jù)分布偏差,我們還可以組合成分偏差和比例偏差。我們可以要求某些類(lèi)別上下文在訓(xùn)練集包含的上下文中占據(jù)主導(dǎo)地位,即通過(guò)同時(shí)調(diào)節(jié)訓(xùn)練集可見(jiàn)上下文的數(shù)量和主導(dǎo)率控制數(shù)據(jù)分布偏差的程度,進(jìn)而觀察模型在不同數(shù)據(jù)偏差場(chǎng)景下表現(xiàn)出的性能。
6、OOD 泛化——對(duì)抗攻擊
在「對(duì)抗偏差」場(chǎng)景下,我們選擇某些類(lèi)樣本作為正類(lèi),其它類(lèi)別的樣本作為負(fù)類(lèi)。接著,我們定義某種上下文只出現(xiàn)在訓(xùn)練集的正類(lèi)中,以及測(cè)試集的負(fù)類(lèi)中。此時(shí),模型就會(huì)錯(cuò)誤地將該上下文與正類(lèi)聯(lián)系到一起,從而在測(cè)試時(shí)取得較差的性能。我們將這種上下文稱(chēng)為混淆上下文,隨著混淆上下文比例的增加,模型對(duì)正類(lèi)的學(xué)習(xí)越來(lái)越容易受到虛假關(guān)聯(lián)的影響。
藍(lán)海大腦深度學(xué)習(xí)解決方案
機(jī)器學(xué)習(xí)模型已經(jīng)在許多面向互聯(lián)網(wǎng)的場(chǎng)景取得成功。在諸如預(yù)測(cè)點(diǎn)擊量或?qū)D像進(jìn)行分類(lèi)等應(yīng)用場(chǎng)景中,模型做出錯(cuò)誤決策的代價(jià)似乎并不高,因此從業(yè)者采用“性能驅(qū)動(dòng)”的模式優(yōu)化人工智能技術(shù),即只關(guān)注該模型在完成目標(biāo)任務(wù)時(shí)體現(xiàn)出的性能而不太關(guān)注技術(shù)發(fā)生錯(cuò)誤時(shí)的風(fēng)險(xiǎn)。當(dāng)任務(wù)環(huán)境發(fā)生變化,預(yù)測(cè)出現(xiàn)錯(cuò)誤的時(shí)候,人們通過(guò)頻繁地更新黑盒模型以保證預(yù)測(cè)的性能。
然而,在諸如醫(yī)療保健、工業(yè)制造、金融和司法等與社會(huì)生活息息相關(guān)的領(lǐng)域,機(jī)器學(xué)習(xí)模型做出的錯(cuò)誤預(yù)測(cè)的后果往往是難以接受的,這些場(chǎng)景也因此被稱(chēng)為風(fēng)險(xiǎn)敏感的場(chǎng)景。由于數(shù)據(jù)獲取困難以及倫理問(wèn)題,在風(fēng)險(xiǎn)敏感的場(chǎng)景中因?yàn)榄h(huán)境變化而重新訓(xùn)練機(jī)器學(xué)習(xí)模型的代價(jià)會(huì)比較昂貴,因此模型的短期預(yù)測(cè)性能之外的特性也十分重要。為了促進(jìn)機(jī)器學(xué)習(xí)模型在更多風(fēng)險(xiǎn)敏感場(chǎng)景的應(yīng)用,我們需要仔細(xì)分析機(jī)器學(xué)習(xí)模型面臨的技術(shù)性風(fēng)險(xiǎn),并采取辦法克服這些風(fēng)險(xiǎn)。
藍(lán)海大腦面向廣大深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、因果學(xué)習(xí)研究者、AI開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家提出穩(wěn)定學(xué)習(xí)液冷解決方案,通過(guò)軟硬件一體式交付,提供數(shù)據(jù)標(biāo)注、模型生成、模型訓(xùn)練、模型推理服務(wù)部署的端到端能力,降低使用AI的技術(shù)門(mén)檻,讓客戶(hù)更聚焦業(yè)務(wù)本身,使AI業(yè)務(wù)能快速開(kāi)發(fā)與上線。
該方案提供一站式深度學(xué)習(xí)平臺(tái)服務(wù),內(nèi)置大量?jī)?yōu)化的網(wǎng)絡(luò)模型算法,以便捷、高效的方式幫助用戶(hù)輕松使用深度學(xué)習(xí)技術(shù),通過(guò)靈活調(diào)度按需服務(wù)化方式提供模型訓(xùn)練、評(píng)估與預(yù)測(cè)。
一、優(yōu)勢(shì)特點(diǎn)
1、節(jié)能性更優(yōu)
整體機(jī)房空調(diào)系統(tǒng)能耗降低70%;服務(wù)器風(fēng)扇功耗降低70%~80%;液冷系統(tǒng)可實(shí)現(xiàn)全年自然冷卻,PUE<1.1,整體機(jī)房風(fēng)液混合冷卻系統(tǒng)PUE<1.2
2、器件可靠性更高
CPU滿(mǎn)載運(yùn)行核溫約40-50℃,比風(fēng)冷降低約 30℃;服務(wù)器系統(tǒng)溫度比風(fēng)冷降低約 20℃
3、性能更優(yōu)
CPU和內(nèi)存工作溫度大幅降低,可實(shí)現(xiàn)超頻運(yùn)行,計(jì)算集群性能可提高5%
4、噪聲更低
液冷散熱部分水循環(huán)噪音極低,風(fēng)冷部分風(fēng)扇轉(zhuǎn)速降低,噪音減小,降低約30dB,滿(mǎn)載運(yùn)行噪音<60dB
5、率密度提升
單機(jī)柜功率密度可達(dá)25kW以上,相比風(fēng)冷散熱方式大幅提升
二、液冷服務(wù)器架構(gòu)
超融合架構(gòu)承擔(dān)著計(jì)算資源池和分布式存儲(chǔ)資源池的作用,極大地簡(jiǎn)化了數(shù)據(jù)中心的基礎(chǔ)架構(gòu),通過(guò)軟件定義的計(jì)算資源虛擬化和分布式存儲(chǔ)架構(gòu)實(shí)現(xiàn)無(wú)單點(diǎn)故障、無(wú)單點(diǎn)瓶頸、彈性擴(kuò)展、性能線性增長(zhǎng)等能力。通過(guò)簡(jiǎn)單方便的統(tǒng)一管理界面,實(shí)現(xiàn)對(duì)數(shù)據(jù)中心計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、虛擬化等資源的統(tǒng)一監(jiān)控、管理和運(yùn)維。
超融合基礎(chǔ)架構(gòu)形成的計(jì)算資源池和存儲(chǔ)資源池直接可以被云計(jì)算平臺(tái)進(jìn)行調(diào)配,服務(wù)于OpenStack、EDP、Docker、Hadoop、HPC等IaaS、PaaS、SaaS平臺(tái),對(duì)上層的應(yīng)用系統(tǒng)或應(yīng)用集群等進(jìn)行支撐。同時(shí),分布式存儲(chǔ)架構(gòu)簡(jiǎn)化容災(zāi)方式,實(shí)現(xiàn)同城數(shù)據(jù)雙活和異地容災(zāi)。現(xiàn)有的超融合基礎(chǔ)架構(gòu)可以延伸到公有云,可以輕松將私有云業(yè)務(wù)遷到公有云服務(wù)。
三、客戶(hù)收益
1、節(jié)約能源
原有數(shù)電力使用成本在總體擁有成本TCO中占比最大。實(shí)現(xiàn)IT設(shè)備按需供電與制冷,讓供電和制冷系統(tǒng)的容量與負(fù)載需求更為匹配,從而提高了工作效率并減少過(guò)度配置。
2、運(yùn)維監(jiān)管
幫助客戶(hù)實(shí)現(xiàn)數(shù)據(jù)中心多層級(jí)、精細(xì)化能耗管理,通過(guò)多種報(bào)表確定能源額外損耗點(diǎn),實(shí)現(xiàn)節(jié)能降耗。資產(chǎn)管理幫助用戶(hù)制定資產(chǎn)維護(hù)計(jì)劃,實(shí)現(xiàn)主動(dòng)預(yù)警,動(dòng)態(tài)調(diào)整維護(hù)計(jì)劃,按照實(shí)際情況輸出優(yōu)化方案,構(gòu)建最佳資產(chǎn)管理功能。
審核編輯黃昊宇
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8458瀏覽量
133223 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121710
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
NPU在深度學(xué)習(xí)中的應(yīng)用
GPU深度學(xué)習(xí)應(yīng)用案例
AI大模型與深度學(xué)習(xí)的關(guān)系
預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系
深度學(xué)習(xí)中的時(shí)間序列分類(lèi)方法
深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述
深度學(xué)習(xí)與nlp的區(qū)別在哪
遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法
深度學(xué)習(xí)中的模型權(quán)重
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么
深度學(xué)習(xí)常用的Python庫(kù)
深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比
深度解析深度學(xué)習(xí)下的語(yǔ)義SLAM

為什么深度學(xué)習(xí)的效果更好?

評(píng)論