自 2012 年以來(lái),深度學(xué)習(xí)的發(fā)展有目共睹,今年 3 月,為此做出巨大貢獻(xiàn)的 Yoshua Bengio、Yann Lecun和Geofrey Hinton 一同獲得了圖靈獎(jiǎng)。但現(xiàn)在,深度學(xué)習(xí)需要被進(jìn)一步挖掘。
在最近一次采訪中,圖靈獎(jiǎng)得主Bengio再次再次警示了可解釋因果關(guān)系對(duì)深度學(xué)習(xí)發(fā)展的重要性。
在他看來(lái),除非深度學(xué)習(xí)能夠超越模式識(shí)別并了解因果關(guān)系的更多信息,否則它將無(wú)法實(shí)現(xiàn)其全部潛力,也不會(huì)帶來(lái)真正的AI革命。換句話說(shuō),深度學(xué)習(xí)需要開(kāi)始知道事情發(fā)生的因果關(guān)系,這將使現(xiàn)有的 AI 系統(tǒng)更加智能,更加高效。
不過(guò),對(duì)于深度學(xué)習(xí)未來(lái)發(fā)展的具體思路,AI 大佬們也有不同意見(jiàn),在前幾日,紐約大學(xué)教授 Gary Marcus 和 Bengio 就此來(lái)了一場(chǎng)隔空“互懟”。
不管怎樣,Bengio 在研究深度學(xué)習(xí)可解釋性方面已經(jīng)出發(fā)了。今年年初,他其他研究者合作發(fā)表了《通過(guò)元遷移目標(biāo)來(lái)學(xué)習(xí)理解因果關(guān)系》一文,提出了一種基于學(xué)習(xí)器適應(yīng)稀疏分布變化速度的元學(xué)習(xí)因果結(jié)構(gòu),還生成了因果關(guān)系的綜合數(shù)據(jù)集。
以下為這篇論文的主要內(nèi)容要點(diǎn),AI科技大本營(yíng)(ID:rgznai100)編譯:
本文提出了一種基于學(xué)習(xí)器適應(yīng)稀疏分布變化速度的元學(xué)習(xí)因果結(jié)構(gòu),這些變化因素如干預(yù),智能體的行為和其他不穩(wěn)定因素。本文表明,在這種假設(shè)下,正確的因果結(jié)構(gòu)選擇會(huì)使學(xué)習(xí)器更快適應(yīng)修改后的分布,因?yàn)楫?dāng)對(duì)所學(xué)知識(shí)進(jìn)行適當(dāng)模塊化時(shí),分布變化僅會(huì)集中在一種或幾種機(jī)制中。這導(dǎo)致為了適應(yīng)這種變化,需要重新學(xué)習(xí)梯度和一些自由度較低的參數(shù)。并將適應(yīng)修改后分布的速度作為元學(xué)習(xí)目標(biāo)的激勵(lì)項(xiàng)。
本文闡述了如何將其用于確定兩個(gè)觀察到的變量之間的因果關(guān)系。分布的變化不需要對(duì)應(yīng)于某種標(biāo)準(zhǔn)的干預(yù)(固定變量),并且學(xué)習(xí)器不會(huì)了解這些干預(yù)相關(guān)的知識(shí)。本文證明了因果結(jié)構(gòu)可以通過(guò)連續(xù)變量和端到端的學(xué)習(xí)進(jìn)行參數(shù)化。然后,本文探討了如何將這些想法用于學(xué)習(xí)一種編碼器,該編碼器能將初級(jí)觀察變量映射到未觀察到的因果變量,從而導(dǎo)致更快的分布適應(yīng)。它學(xué)習(xí)的是一種表示空間,在這種表示空間中,可以滿足獨(dú)立性以及微小和稀疏變化的假設(shè)。
引言
當(dāng)目前的機(jī)器學(xué)習(xí)方法需要泛化到訓(xùn)練分布之外的場(chǎng)景時(shí),模型的能力似乎很薄弱,而這通常是非常需要的。在與訓(xùn)練數(shù)據(jù)相同的分布相似的測(cè)試集上獲得良好的泛化性能是不夠的,我們還希望在一種數(shù)據(jù)集中學(xué)到的知識(shí)能夠很好的泛化到其他相關(guān)的分布中。這些分布可能涉及模型之前所見(jiàn)的內(nèi)容,而它的一些變化則是由智能體引起的。
更籠統(tǒng)地說(shuō),我們希望以前學(xué)到的知識(shí)形成一個(gè)豐富的基礎(chǔ),從中可以非常迅速地適應(yīng)新的但相關(guān)的分布,即獲得良好的遷移。可能模型必須學(xué)習(xí)一些新內(nèi)容,但是由于它已經(jīng)掌握了大多數(shù)其他相關(guān)內(nèi)容(以及它們的組成方式),因此在遷移目標(biāo)分布上,可以非常快速的完成學(xué)習(xí)。
沒(méi)有任何假設(shè),就不可能成功遷移到一個(gè)無(wú)關(guān)的分布上。在本文中,我們關(guān)注于以下假設(shè):當(dāng)以適當(dāng)?shù)哪K化方式表示知識(shí)時(shí),改變是稀疏的,即只有一個(gè)或幾個(gè)模塊更改了。當(dāng)分布變化是由于一種或多種因素的作用引起的,這尤其相關(guān),例如因果關(guān)系文獻(xiàn)中討論的干預(yù)措施,其中單個(gè)因果變量被限制在特定值。
總的來(lái)說(shuō),模型很難一次影響許多潛在的因果變量,盡管本文并不是關(guān)于模型學(xué)習(xí),但這是我們建議在此處利用的一個(gè)特性,用于幫助發(fā)現(xiàn)這些變量它們之間的因果關(guān)系。
為了激發(fā)推斷因果結(jié)構(gòu)的需求,需要考慮可以實(shí)際執(zhí)行或可以想象的干預(yù)。可以想象一下,由于一項(xiàng)干預(yù)措施,可能會(huì)改變相關(guān)變量的聯(lián)合分布,即以前從未觀察到過(guò)。這超出了遷移學(xué)習(xí)的范圍,因此需要因果學(xué)習(xí)和因果推理。
為此,僅學(xué)習(xí)觀測(cè)變量的聯(lián)合分布是不夠的。人們還應(yīng)該對(duì)潛在的高級(jí)變量及其因果關(guān)系有足夠的了解,以能夠正確推斷干預(yù)的效果。例如,A =下雨,它會(huì)導(dǎo)致B =打開(kāi)雨傘(反之亦然)。改變下雨的邊緣概率(例如,因?yàn)樘鞖庾兓┎粫?huì)改變A和B的之間的關(guān)系(即P(B | A)),但會(huì)對(duì)邊緣概率P(B)卻產(chǎn)生了影響。相反,智能體對(duì)B(打開(kāi)雨傘)的干預(yù)不會(huì)對(duì)A(下雨)的邊緣分布產(chǎn)生影響。通常僅從(A,B)訓(xùn)練對(duì)中看不到這種不對(duì)稱性,直到發(fā)生分布變化(例如由于干預(yù)引起的)。
這是本文的動(dòng)機(jī),在本文中,人們可以從不一定是已知的干預(yù)措施分布中學(xué)習(xí),而不僅僅是獲取一個(gè)聯(lián)合分布,還可以發(fā)現(xiàn)一些潛在的因果結(jié)構(gòu)。機(jī)器學(xué)習(xí)方法通常會(huì)利用某種形式的關(guān)于數(shù)據(jù)分布的假設(shè)。在本文中,我們不僅要考慮數(shù)據(jù)分布的假設(shè),還要考慮其變化方式(例如,從訓(xùn)練分布轉(zhuǎn)到遷移分布時(shí),可能是由于某些智能體的行為造成的)。
我們建議基于這樣的假設(shè):當(dāng)表示有關(guān)分布的知識(shí)時(shí),其中的變化很小。之所以出現(xiàn)這種情況,是因?yàn)橐粋€(gè)或幾個(gè)基本事實(shí)機(jī)制的假設(shè)(但很難直接驗(yàn)證),會(huì)因?yàn)槟撤N干預(yù)形式而改變。
我們?nèi)绾卫眠@個(gè)假設(shè)?如果我們擁有正確的知識(shí)表示,那么從一個(gè)訓(xùn)練好的模型開(kāi)始,我們應(yīng)該能快速適應(yīng)遷移的分布。之所以出現(xiàn)這種情況,是因?yàn)槲覀兗僭O(shè)數(shù)據(jù)的生成過(guò)程是獨(dú)立獲得的,而且從訓(xùn)練分布到轉(zhuǎn)移分布,幾乎不需要改變真正的機(jī)制和參數(shù)。因此,捕獲相應(yīng)知識(shí)分解的模型僅需要進(jìn)行一些更新和一些樣例,即可適應(yīng)遷移分布。
因此,基于正確知識(shí)表示空間的微小變化的假設(shè),我們可以定義一個(gè)衡量適應(yīng)速度的元學(xué)習(xí)目標(biāo),以便優(yōu)化知識(shí)的表示,分解和結(jié)構(gòu)化方式。這是本文提出的核心思想。
請(qǐng)注意,當(dāng)存在更多的非平穩(wěn)性(即分布變化很多)時(shí),可以獲得更強(qiáng)的信號(hào),就像在元學(xué)習(xí)中一樣,通過(guò)更多的元示例獲得更好的結(jié)果。通過(guò)這種方式,我們可以將通常被認(rèn)為是機(jī)器學(xué)習(xí)中令人討厭的東西(由于非平穩(wěn)性,不受控制的干預(yù)等導(dǎo)致的分布變化)轉(zhuǎn)化為訓(xùn)練信號(hào),從而找到一種將知識(shí)分解為要素和知識(shí)的好方法。
在本文中,我們將通過(guò)對(duì)合成生成的數(shù)據(jù)進(jìn)行特定的實(shí)驗(yàn)來(lái)探索上述想法,以便對(duì)其進(jìn)行驗(yàn)證并證明存在利用它們的簡(jiǎn)單算法。但是,對(duì)我們來(lái)說(shuō)很明顯,將需要更多的工作來(lái)評(píng)估提出方法的多樣性。設(shè)置以及具有不同的具體參數(shù)設(shè)置,訓(xùn)練目標(biāo),環(huán)境等。
我們從最簡(jiǎn)單的設(shè)置開(kāi)始,并評(píng)估上述方法是否可用于了解因果關(guān)系的方向。然后,我們研究獲得訓(xùn)練信號(hào)的關(guān)鍵問(wèn)題,該訓(xùn)練信號(hào)關(guān)于如何將原始觀測(cè)數(shù)據(jù)轉(zhuǎn)換為表示空間,在該表示空間中,潛在變量可以通過(guò)具有稀疏分布變化的稀疏因果圖來(lái)建模,并顯示正確的編碼器確實(shí)可以更好地實(shí)現(xiàn)我們期望的元學(xué)習(xí)目標(biāo)的價(jià)值。
何為因?何為果?
作者在本節(jié)中考慮確定變量A是否導(dǎo)致變量B或反之的問(wèn)題。學(xué)習(xí)器(模型)會(huì)從一對(duì)相關(guān)分布中觀察訓(xùn)練樣本(a,b),按照慣例,我們將其稱為訓(xùn)練分布和遷移分布。請(qǐng)注意,僅基于來(lái)自單個(gè)(訓(xùn)練)分布的樣本,通常A→B模型(A導(dǎo)致B)和B→A模型(反之亦然,請(qǐng)參見(jiàn)下面的公式(1))另請(qǐng)參見(jiàn)附錄A中的理論論證和模擬結(jié)果。
為了突出提出的元學(xué)習(xí)目標(biāo)的功能,我們考慮了很多可用于訓(xùn)練分布但不能用于遷移分布的樣例。實(shí)際上,正如我們將在下面討論的那樣,如果我們可以訪問(wèn)更多短時(shí)遷移的樣例,則推斷出正確因果方向的訓(xùn)練信號(hào)會(huì)更強(qiáng)烈。
學(xué)習(xí)帶兩個(gè)離散變量的因果關(guān)系圖
我們需要比較兩個(gè)假設(shè)(A→B與B→A)的性能,即兩個(gè)模型在訓(xùn)練分布上進(jìn)行訓(xùn)練后在遷移分布上的適應(yīng)速度。我們將在此參數(shù)上假設(shè)簡(jiǎn)單的隨機(jī)梯度下降,但是當(dāng)然可以使用其他過(guò)程。在不失一般性的前提下,令A(yù)→B為正確的因果模型。為了使條件更強(qiáng),可以考慮兩個(gè)分布之間的變化等于原因A的真實(shí)P(A)值的隨機(jī)變化(因?yàn)檫@會(huì)對(duì)效果B產(chǎn)生影響,并揭示因果關(guān)系方向)。我們不假定學(xué)習(xí)器(模型)知道進(jìn)行了何種干預(yù),這與更常見(jiàn)的因果發(fā)現(xiàn)和受控實(shí)驗(yàn)方法不同。我們僅假設(shè)發(fā)生了某些變化,然后嘗試?yán)盟鼇?lái)揭示結(jié)構(gòu)性的因果信息。
適應(yīng)遷移分布的實(shí)驗(yàn)
本文目前進(jìn)行的實(shí)驗(yàn)是將正確因果模型的學(xué)習(xí)曲線與遷移模型上的因果模型的學(xué)習(xí)曲線進(jìn)行了比較。對(duì)于來(lái)自不同但相關(guān)的遷移分布的數(shù)據(jù),僅需幾個(gè)梯度步驟,我們的元學(xué)習(xí)算法就可以獲取至關(guān)重要的一些信息(信號(hào))。為了展示這種適應(yīng)的效果,僅使用遷移分布中的少量數(shù)據(jù),本文對(duì)離散隨機(jī)變量的模型進(jìn)行了實(shí)驗(yàn)。如上圖1。
一個(gè)簡(jiǎn)單的參數(shù)計(jì)數(shù)能有助于我們理解圖1中的觀察結(jié)果。首先,考慮在適應(yīng)遷移分布的階段,指定不同模塊參數(shù)的預(yù)期梯度,并對(duì)應(yīng)于學(xué)習(xí)的元示例。作者提出了三個(gè)見(jiàn)解
見(jiàn)解1對(duì)于在訓(xùn)練階段已正確學(xué)習(xí)的模塊參數(shù),遷移分布相對(duì)于模塊參數(shù)的預(yù)期梯度為零,并且具有正確的因果關(guān)系集合,對(duì)應(yīng)于正確的因果圖,如果(c)相應(yīng)的正確條件分布沒(méi)有從訓(xùn)練分布變?yōu)檫w移分布。
見(jiàn)解2上述公式(2)中遷移數(shù)據(jù)的負(fù)對(duì)數(shù)似然率的梯度。其結(jié)構(gòu)參數(shù)由下式給出
其中D2是遷移數(shù)據(jù),而
是假設(shè)A->B的后驗(yàn)概率。此外,這可以等效地寫(xiě)為
其中
是遷移數(shù)據(jù)D2上兩個(gè)假設(shè)對(duì)數(shù)似然之間的差異。
見(jiàn)解3
隨機(jī)梯度下降(適當(dāng)降低學(xué)習(xí)率)趨向于
作者通過(guò)附錄及實(shí)驗(yàn)證實(shí)了上述三個(gè)見(jiàn)解,具體可以參見(jiàn)論文。
總結(jié)展望
作者使用非常簡(jiǎn)單的雙變量設(shè)置,確定了學(xué)習(xí)器可以用適應(yīng)觀察數(shù)據(jù)分布稀疏變化的速率來(lái)選擇或優(yōu)化因果結(jié)構(gòu)并解耦因果變量。基于這樣的假設(shè):在具有正確因果結(jié)構(gòu)的情況下,這些分布變化是局部且稀疏的。本文通過(guò)理論結(jié)果和實(shí)驗(yàn)驗(yàn)證了這些想法。
這項(xiàng)工作只是基于修改分布速率優(yōu)化因果結(jié)構(gòu)的第一步。在實(shí)驗(yàn)方面,除了本文研究的設(shè)定外,還應(yīng)考慮許多其他條件設(shè)定,包括各種參數(shù)設(shè)置,更豐富和更大的因果圖,各種優(yōu)化程序等。此外,由于我們?cè)谶@一點(diǎn)上僅使用了具有單一自由度的最簡(jiǎn)單的編碼器進(jìn)行了實(shí)驗(yàn),在探索如何學(xué)習(xí)更優(yōu)的學(xué)習(xí)表達(dá)時(shí),還需要更多的工作。擴(kuò)充這些想法,便能應(yīng)用于提升學(xué)習(xí)器處理非平穩(wěn)性的分布,從而提高學(xué)習(xí)器的魯棒性。
-
AI
+關(guān)注
關(guān)注
87文章
32013瀏覽量
270878 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121702
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
小白學(xué)解釋性AI:從機(jī)器學(xué)習(xí)到大模型

NPU與機(jī)器學(xué)習(xí)算法的關(guān)系
NPU在深度學(xué)習(xí)中的應(yīng)用
一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

GPU深度學(xué)習(xí)應(yīng)用案例
AI大模型與深度學(xué)習(xí)的關(guān)系
當(dāng)系統(tǒng)鬧脾氣:用「因果推斷」哄穩(wěn)技術(shù)的心

pytorch和python的關(guān)系是什么
深度學(xué)習(xí)中的時(shí)間序列分類(lèi)方法
深度學(xué)習(xí)在視覺(jué)檢測(cè)中的應(yīng)用
深度學(xué)習(xí)與nlp的區(qū)別在哪
深度解析深度學(xué)習(xí)下的語(yǔ)義SLAM

為什么深度學(xué)習(xí)的效果更好?

使用MDA8108HD電機(jī)驅(qū)動(dòng)分析儀進(jìn)行復(fù)雜的電機(jī)驅(qū)動(dòng)和交互控制測(cè)試

評(píng)論