玄幻小说排行榜,我欲封天耳根小说零,国际完美世界下载

本文認為機器學習和人工智能領域中的待解難題本質上與因果關系有關。

圖靈獎得主、貝葉斯網絡之父 Judea Pearl 曾自嘲自己是「AI 社區的反叛者」，因為他對人工智能發展方向的觀點與主流趨勢相反。Pearl 認為，盡管現有的機器學習模型已經取得了巨大的進步，但遺憾的是，所有的模型不過是對數據的精確曲線擬合。從這一點而言，現有的模型只是在上一代的基礎上提升了性能，在基本的思想方面沒有任何進步。

那么，怎樣才能推動 AI 社區解決這一問題呢？Pearl 認為，我們需要一場「因果革命」。研究者應該考慮采用因果推斷模型，從因果而非單純的數據角度進行研究。

近日，馬克斯·普朗克智能系統中心主任 Bernhard Sch?lkopf 發表論文，談論了因果關系和機器學習之間的聯系，并科普了一些相關的重要概念。Judea Pearl 轉發相關推文，表示「這是一篇非常全面、令人愉悅且極具啟發性的論文」，適合所有人，而不僅僅是機器學習/人工智能從業者閱讀。

機器之心對這篇論文進行了摘要編譯，感興趣的同學可以查看原論文獲取更多信息。

論文地址：https://arxiv.org/pdf/1911.10500.pdf

Judea Pearl 開創的圖因果推斷源自人工智能研究，長期以來與機器學習領域關聯甚少。本文討論因果推斷和機器學習已有的聯系以及應該建立哪些聯系，并介紹其中的核心概念。本文認為機器學習和人工智能領域中的待解難題本質上與因果關系有關，并解釋了該領域逐漸理解它們的過程。

引言

近年來，機器學習社區對因果關系的興趣顯著增長。我對因果關系的了解來自于 Judea Pearl 和一些合作者以及同儕，我將其中一些知識寫在了與 Dominik Janzing、Jonas Peters 合著作品《Elements of Causal Inference》中。

我曾在多個場合談論過這個話題，其中一些觀點正在融入機器學習主流視角，比如「因果建模能夠帶來更穩健的模型」。

我很激動能夠看到因果和機器學習的交集，這篇文章嘗試表達我的思想，并繪制更廣闊的圖景。我希望本文不僅能夠幫助探討因果思維之于 AI 的重要性，還能夠作為入門文章，引導機器學習群體了解圖因果模型或結構因果模型的相關概念。

盡管近期機器學習取得了很大成功，但如果我們將機器學習能夠完成的事與動物能做的事進行對比，就會發現機器學習對于動物擅長的一些技能表現并不好。這包括將解決問題的能力遷移至新問題，以及任意形式的泛化，這里不是指從一個數據點到另一個數據點的泛化（且數據點來自同一分布），而是從一個問題泛化至下一個問題。

二者雖然都是「泛化」，但后者難度更高。這個缺點并不令人吃驚，因為機器學習是忽視動物嚴重依賴的信息：對世界的干預、域偏移、時間結構，總體上，我們覺得這些因素很煩并盡量移除。

最后，機器學習還不擅長在想象空間中行動。我認為，關注對干預進行建模和推理的因果關系可以極大地幫助理解和解決這些問題，從而將機器學習領域推向新高度。

從統計模型到因果模型

獨立同分布（IID）數據驅動的方法

我們的社區在使用機器學習解決大數據問題上取得了很多成功。這其中呈現出多個趨勢：

我們擁有海量數據，這些數據通常來自模擬或大規模人類標注；

我們使用高容量機器學習系統（即具備很多可調整參數的復雜函數類）；

我們使用高性能計算系統；

問題是獨立同分布的（IID，這一點經常被忽視，但是在涉及因果關系時，這很關鍵）。

這些設置通常要么一開始就是 IID（如使用基準數據集的圖像識別），要么被人工處理為 IID，如為給定的應用問題精心收集合適的訓練數據集，或者使用類似 DeepMind「經驗回放」（experience replay）的方法，即強化學習智能體存儲觀測結果稍后再打亂以便后續訓練。

IID 數據具備統計學理論中的強泛相合性（strong universal consistency），這確保學習算法可以最小風險獲得收斂。此類算法確實存在，比如最近鄰分類器和支持向量機。

從這個角度看，在提供足夠數據的前提下，機器達到甚至超過人類性能也無可厚非。但是，當機器面對的問題不遵循 IID 假設時，那么即使這類問題對 IID 假設的破壞在人類看來微不足道，機器也通常很難解決。

當一個能以高準確率被正常識別的物體被放進與該物體出現場景呈負相關的場景訓練集時，視覺系統很容易被誤導。例如，此類系統可能無法識別站在沙灘上的奶牛。

更夸張的是，「對抗脆弱性」（adversarial vulnerability）現象強調，即使對 IID 假設作出非常微小但有針對性的破壞（這類破壞可以通過向圖像添加精心選擇的噪聲來實現，而人類無法察覺此類更改），也會造成危險的錯誤，比如混淆交通標志。

近年來，「防御機制」和之后很快出現并重新確立問題的新型攻擊展開了攻防戰。總體上，大量（試圖解決 IID 基準問題的）當前實踐和大部分（關于 IID 設置泛化的）理論結果無法解決在不同問題上進行泛化這一待解難題。

為了進一步了解 IID 假設究竟哪里有問題，我們先來考慮一個購物案例。假設愛麗絲在網上查找電腦包，網店的推薦系統建議她搭配購買一臺筆記本電腦。這看起來很奇怪，因為她很可能已經買過筆記本電腦了，不然她也不會先看電腦包啊。

在某種程度上，筆記本電腦是「因」，電腦包是「果」。如果有人告訴我某位顧客是否購買過筆記本電腦，那么我對顧客是否購買過電腦包的不確定性會減少，且反之亦然。二者對我的影響是同等程度的（互信息），所以因果之間的方向性丟失了。

然而，這種情況出現在生成統計相關性（statistical dependence）的物理機制中，例如使擁有筆記本電腦的顧客想要購買電腦包。推薦待購買物品構成了對系統的干預，超出了 IID 設置。我們不再處理觀測數據分布，而是某些變量或機制已經發生改變了的分布。這就屬于因果關系的范疇了。

Reichenbach (1956) 明確指出了因果關系和統計相關性之間的聯系。他提出共同原因原理（Common Cause Principle）：如果兩個觀測對象 X、Y 具備統計相關性，則存在變量 Z 對二者造成因果作用，且通過使它們基于 Z 互相獨立來解釋二者之間的相關性。

在特殊情況下，變量 Z 可與 X 或 Y 重疊。假設 X 是鸛鳥的數目，Y 是人類出生率（在一些歐洲國家中，二者具備相關性）。如果是鸛鳥帶來了人類嬰兒，則正確的因果圖是 X → Y。如果是嬰兒吸引來了鸛鳥，則因果圖是 X ← Y。如果某個其他變量引出了這兩者（如經濟發展），則因果圖為 X ← Z → Y。

我們可以從中得出一個重要結論：在沒有額外假設的情況下，我們無法利用觀測數據區分這三種情況。在這三個案例中，X 和 Y 的觀測分布類別（可通過模型得到）是相同的。因此，因果模型所包含的信息超出統計模型。

鑒于僅有兩個觀測對象的案例已經很難，我們會思考，包含更多觀測對象的案例是否完全沒有希望解決呢？

令人驚訝的是，事實并非如此：一定意義上這類問題變得更加簡單了，因為這類問題中存在因果結構暗含的非平凡條件獨立性（nontrivial conditional independence）屬性。這類屬性可以通過因果圖或結構因果模型來描述，它們集成了概率圖模型和干預（intervention）概念，最好使用直接的函數式父子（parent-child）關系來描述，而不是使用條件句（conditional）。

盡管現在看來其概念很簡單，但它構成了理解因果關系的關鍵一步，正如 Pearl (2009a, p. 104) 后來所述：

我們研究用函數式父子關系 X_i = f_i(PA_i , U_i) 替代父子關系 P(X_i |PA_i) 的可能性，突然間一切就緒：我們最終得到了一個數學對象，我們可以將物理機制中的熟悉屬性歸因于它，而不是歸因于那些狡猾的認知概率 P(X_i |PA_i)，它也是我們在貝葉斯網絡研究中長期研究的對象。

結構因果模型（SCM）

對于更習慣于用估計函數而非概率分布來思考問題的機器學習研究者而言，SCM 比較直觀。SCM 提供了一組觀測對象 X_1, . . . , X_n（被建模為隨機變量），它們與有向無環圖（DAG）G 的頂點相關聯。我們假設每個觀測對象是一個任務的結果：

該公式使用確定性函數 f_i，該函數依賴于 X_i 在圖中的父親 PA_i 和隨機未解釋變量 U_i。圖中的有向邊表示直接因果關系，因為父親通過有向邊與 X_i 相連，并通過公式 (1) 直接影響 X_i 的任務。噪聲 U_i 確保整體目標 (1) 表示通用條件分布 p(X_i |PA_i)，噪聲集合 U_1, . . . , U_n 是聯合獨立的。如果它們不是這樣，則根據共同原因原理，應存在另一個變量引起它們的相關性，因而該模型不具備充足的因果關系。

如果我們指定 U_1, . . . , U_n 的分布，則對 (1) 的遞歸應用使得我們能夠計算得到的觀測聯合分布 p(X_1, . . . , X_n)。該分布具備繼承自圖的結構屬性：它滿足因果馬爾可夫條件，即基于其父親，每個 X_j 都獨立于其非后代。

直觀上，我們可以將獨立噪聲想象為在圖中擴展的「信息探針」（類似于在社交網絡中蔓延的閑話的獨立元素）。其信息互相糾纏，以條件依賴性的足跡呈現，反映出使用獨立性檢驗從觀測數據中推斷出圖結構屬性的可能性。

就像剛才那個閑話的類比一樣，該足跡不足以確定獨特的因果結構。具體來說，如果只有兩個觀測對象，它肯定無法確定因果結構，因為任意非平凡條件獨立性語句都至少需要三個變量。

過去十年，我們一直研究雙變量問題。我們意識到通過額外的假設可以解決該問題，因為不僅圖拓撲在觀測分布中留下足跡，函數 f_i 也是如此。這一點對于機器學習而言非常有趣，在機器學習中大量注意力被傾注在函數類的屬性上（如先驗或容量度量），稍后我們再討論這一點。

在討論之前，我們需要注意 (1) 的其他兩個屬性。首先，SCM 語言可以直接將干預公式化為修改任務 (1) 子集的運算，如更改 U_i 或將 f_i（X_i）設置為常量。其次，具備噪聲聯合獨立性的圖結構說明可將從 (1) 得到的聯合分布正準分解為因果條件句，這又叫做因果（或解糾纏，disentangled）分解

盡管存在很多其他糾纏分解，如

但公式 (2) 是唯一一個將聯合分布分解為結構任務 (1) 對應條件句的分解形式。我們認為它們是解釋觀測對象之間統計相關性的因果機制。因此，與 (3) 相反，該解糾纏分解將聯合分布表示為因果機制的積。

統計學習的概念基礎是聯合分布 p(X_1, . . . , X_n)（其中通常存在一個 X_i 是 Y 指定的反應變量），我們假設要逼近的函數類是回歸 E(Y |X)。因果學習考慮更多類的假設，且尋求利用聯合分布具備因果分解 (2) 這一事實。它涉及因果條件句 p(X_i | PA_i)（即 (1) 中的函數 f_i 和 U_i 分布）、這些條件句彼此之間的關聯，以及它們容許的干預或更改。稍后我們將進行詳細討論。

因果建模的層級

我接受過物理學訓練，喜歡將一組耦合微分方程作為建模物理現象的黃金標準。它幫助我們預測系統的未來行為，推斷干預對系統的影響，以及通過適當的平均步驟預測耦合時間演化生成的統計相關性。此外，它還允許我們獲得對系統的見解，解釋其運作，尤其是獲取其因果結構。下面是一組耦合微分方程

其初始值 x(t_0) = x_0。根據皮卡-林德勒夫定理，如果 f 滿足利普希茨條件，則至少在局部范圍內，存在唯一解 x(t)。這表明，x 最近的未來值將由其之前的值決定。

基于此，我們可以確定向量 x(t) 的哪些條目導致 x(t+dt)，即因果結構。這說明，如果我們擁有一個可使用此類常微分方程 (4) 進行建模的物理系統，且該系統的解為 dx/dt（該導數僅出現在公式 (4) 的左側），則我們可以直接讀取其因果結構。

微分方程是對系統相對完整的描述，統計模型則可視為較為粗淺的描述。它通常不會談及時間，相反，它告訴我們在實驗條件不變的情況下某些變量如何執行對其他變量的預測。例如，如果我們使用某種類型的噪聲驅動微分方程系統，或者按時間進行平均，則 x 的組件之間可能出現統計相關性，并被機器學習利用。

此類模型不能預測干預的作用，但是其優勢在于，它通常基于數據學得，而微分方程通常需要智慧的人類來提出。因果建模位于這兩個極端之間，它旨在提供對干預的理解，并預測其影響。因果發現和學習試圖在僅使用弱假設的前提下，以數據驅動的方式獲得此類模型。

表 1 總結了整體狀況，該表基于 Peters 等人（2017）的論文內容進行了改編。

表 1：模型的簡單分類。最詳細的模型（第一行）是機械/物理模型，通常以微分方程的形式呈現。而另一個極端（最后一行）是純統計模型，它可從數據中學得，但無法對建模副現象（epiphenomenon）之間關聯以外的事情提供見解。因果模型是中間派，既抽象了物理實在（physical realism）又保留了回答特定干預或反事實問題的能力。讀者可以查閱 Mooij 等人（2013）的論文，了解物理模型和結構因果模型之間的正式聯系。

獨立因果機制

現在回到聯合分布 p(X_1, . . . , X_n) 的解糾纏分解 (2)。根據因果圖，當 U_i 是獨立的時，該分解通常是可行的，但是我們現在要考慮 (2) 中因子之間的獨立性這一額外概念。我們可以利用視錯覺 Beuchet Chair 來非正式地介紹它，如圖 1 所示。

圖 1：Beuchet Chair 由兩個單獨物體構成，從破壞了物體和感知過程獨立性的特定視角看，它們「組成」了一把椅子。

我們在感知物體時，大腦會假設該物體和其光線所包含信息抵達大腦的機制是相互獨立的。我們可以從特定視角觀看該物體，來破壞這一假設。如果我們這么做了，則感知會出錯：在 Beuchet Chair 的例子中，我們感知到椅子的三維結構，而現實中并沒有這樣一把椅子。

上述獨立性假設是有用的，因為在實踐中，它符合絕大多數情況，因此我們的大腦依賴獨立于特定視角和光照的物體。類似地，不應出現偶然巧合，比如以 2D 形式組合的 3D 結構，或者與紋理邊界重合的陰影邊界。在視覺研究中，這叫做通用視角假設（generic viewpoint assumption）。

同樣地，如果我們圍繞該物體移動，則特定視角隨之改變，但我們假設整體生成過程中的其他變量（如光照、物體位置和結構）不受此影響。這是上述獨立性所暗含的不變性，允許我們即使在沒有立體視覺（運動恢復結構，structure from motion）的情況下也能推斷 3D 信息。極端破壞此原則的一個例子是頭戴式 VR 設備，它追蹤感知者的頭部位置，并對設備進行相應的調整。此類設備創建了與現實不對應的視覺場景。我們再來看另一個例子，假設一個數據集包含海拔高度 A 和年均氣溫 T。A 和 T 具備相關性，我們認為其原因在于高度對溫度有因果作用。假設我們有兩個這樣的數據集，一個是奧地利，一個是瑞士。則兩個聯合分布可能截然不同，因為海拔高度的邊緣分布 p(A) 不同。

但是，條件句 p(T|A) 可能是類似的，因為它們描述基于高度生成溫度的物理機制。然而，當我們僅關注整體聯合分布，缺乏因果結構 A → T 的相關信息時，這種相似性就丟失了。因果分解 p(A)p(T|A) 包含的組件 p(T|A) 可泛化至不同國家，而糾纏分解 p(T)p(A|T) 不具備這種穩健性。

當我們考慮系統中的干預時，也會出現相同的情況。對于正確預測干預作用的模型，它需要具備穩健性，能從觀測分布泛化至特定干預分布。

我們可以將以上見解表述如下：

獨立因果機制（ICM）原理。系統變量的因果生成過程由多個自主模塊構成，它們彼此之間不會互相影響。在概率案例中，這意味著每個變量基于其原因（即機制）的條件分布不會影響其他機制；

機制相關性度量（measures of dependence of mechanisms）。注意 p(X_i |PA_i) 和 p(X_j |PA_j ) 這兩個機制的相關性不與隨機變量 X_i and X_j 的統計相關性重合。在因果圖中，很多隨機變量具備相關性，即使這些機制是完全獨立的。

圖 2：如果 f 和 p_x 是獨立的，則 p_Y 的峰值可能出現在 f 斜率較小、f^?1 斜率較大的區域。因而 p_Y 包含 f^?1 的信息。

因果發現

我們回到從觀測數據中發現因果關系的問題。如果存在合適的假設，如忠實性，則我們有時可通過執行條件獨立性檢驗從觀測數據中恢復底層圖的屬性。但是，該方法存在一些問題。其中之一是，在實踐中，數據集通常是有限的，條件獨立性檢驗是非常困難的問題，尤其是當條件集連續多維時。

因此，盡管原則上不論 SCM 中的函數具備怎樣的復雜度，遵循因果馬爾可夫條件的條件獨立性都成立，但對于有限數據集，條件獨立性檢驗在沒有額外假設時是非常困難的。另一個問題是，在僅具備兩個變量的案例中，條件獨立性的三元概念不成立，因此馬爾可夫條件沒有有效作用。

對函數類作出假設可以解決上述兩個問題。尤其是對機器學習而言，我們都知道在機器學習中，不對函數類進行假設，則有限樣本泛化不可能實現。具體而言，盡管一些學習算法是普遍一致的，即在無限樣本限制下接近最小預期誤差，但對于數據中的任意函數相關性，存在一些收斂很慢的情況。

因此對于給定樣本數量，這取決于待學習問題是否達到低預期誤差，統計學習理論以函數類復雜度度量提供概率保證。

回到因果關系，我們為 SCM 中函數假設對基于數據學習因果關系的必然性做出了直觀解釋?？紤]一個僅具備兩個觀測對象的 SCM X → Y，則 (1) 變成：

且?，F在假設 V 是從函數集 F = {f_v(x) ≡ f(x, v) | v ∈ supp(V)} 中選擇的隨機選擇器變量。如果 f(x, v) 以一種不平滑的方式依賴于 v，則從有限數據集中收集 SCM 相關信息是很難的，因為 V 不被觀測，它在任意不同的 f_v 之間隨機切換。這促進了對復雜度的限制。一種自然的限制是假設一個加性噪聲模型 ?

如果 (7) 中的 f 平滑依賴于 V，V 相對密集，則對復雜度的限制可以通過局部泰勒展開式來促進。它極大降低了函數類的有效規模，如果沒有此類假設，則后者會指數級依賴 supp(V) 的基數（cardinality）。

對函數類的限制不僅使從數據中學習函數變得簡單，還能夠打破雙變量案例中因果之間的對稱性：給定 X, Y 的分布（由加性噪聲模型生成），無法在相反方向擬合加性噪聲模型（即 X 和 Y 的角色互換）。這符合特定的泛型假設，U、X 是高斯分布，f 是線性函數的情況屬于例外。它推廣了 Shimizu 等人（2016）對于線性函數的結論，該觀點可泛化至非線性重縮放、循環、干擾因子（confounder）和多變量設置等情況。我們收集了一組因果推斷基準問題，目前已有大量方法可以檢測出因果方向，其中一些方法基于上述 Kolmogorov 復雜度模型構建，一些則直接學習將雙變量分布分類為因果和非因果。

因此，對函數類的假設有助于解決因果推斷問題。它們還能夠幫助解決基于條件獨立性檢驗的因果發現方法的其他弱點。（條件）獨立性檢驗的近期進展主要依賴核函數類，來表示再生核希爾伯特空間（RKHS）中的概率分布。

因此，我們收集了一些證據，證明機器學習中的想法可以幫助解決之前被認為很難的因果關系問題。但是，相反方向也同樣有趣：因果關系能夠幫助改善機器學習嗎？目前的機器學習（以及現代 AI 的相當多部分）是基于統計建模的，但是隨著這些方法變得普遍，其局限性也會更加明顯。

不變性、穩健性、半監督學習

大約在 2009 或 2010 年，我們開始對如何利用因果關系改進機器學習感興趣。具體而言，「神經網絡坦克的都市傳說」似乎可以說明些什么。在這個故事中，神經網絡被訓練用于以高準確率分類坦克，但之后發現該網絡只是成功地聚焦于包含坦克類型信息的某個特征（如時間段或天氣），問題出在數據收集過程中。在不同環境下拍攝的坦克照片上進行測試時，此類系統沒有展示出一點穩健性。

我希望包含因果關系的分類器能夠對此類變化具備不變性，關于這個主題我之前使用非因果方法研究過 (Chapelle and Sch?lkopf, 2002)。我們開始思考因果關系和協變量偏移之間的連接。我們知道因果機制應該具備不變性，類似地，任何基于學習因果機制獲得的分類器也應該具備不變性。但是，很多機器學習分類器不使用因果特征作為輸入，我們注意到它們的確更經常解決非因果問題，即使用結果特征來預測原因。

從 2010 年 4 月在雷伯格舉辦的院系 retreat 到 2011 年 7 月的 Dagstuhl 研討會，我與 Dominik、Jonas、Joris Mooij、Kun Zhang、Bob Williamson 等進行了大量討論，我們關于不變性的想法在此期間逐漸成熟。

當我收到 NIPS 會議 Posner 演講邀請后，將這些想法構建成結論的壓力明顯更大了。那時，我需要建設新的馬普所，很難勻出時間處理這件事并作出進展。因此，我和 Dominik 決定在黑森林度假屋待一周全力處理這件事。

在 2011 年 11 月的那一周中，我們完成了草稿 invariant.tex，之后不久我們將其投遞到 arXiv 網站。這篇論文認為因果方向對于特定機器學習問題非常重要，對協變量偏移保持穩健性（不變性）是可以期待的，對于從因預測果的學習問題，遷移也變得更加簡單，這為半監督學習打了頭陣。

論文地址：https://arxiv.org/abs/1112.2738

半監督學習（SSL）

假設底層因果圖是 X → Y，同時我們嘗試學習映射 X → Y。則該案例的因果分解 (2) 為：

ICM 原理認為聯合分布因果分解中的模塊無法彼此影響。這意味著，p(X) 不應包含關于 p(Y |X) 的任何信息，即半監督學習是徒勞的，除非它使用來自無標注數據的額外 p(X) 信息來改善對 p(Y |X = x) 的估計。那么反方向呢？半監督學習在相反的情況下是可能的嗎？答案是「Yes」，參見第 5 章使用獨立因果機制的因果推斷研究。

該研究與 Povilas Daniu?is 等人合作完成（2010），它提出對輸入和給定輸入的輸出條件句之間相關性的度量方法，并展示了如果該相關性在因果方向上為 0 時，則它在相反方向上為正。因此，因果獨立性和因果方向中的機制表明，在反方向中（即非因果學習），輸入變量的分布應包含給定輸入的輸出條件句的信息，即機器學習通常關注的量。我之前研究過半監督學習，現在可以明確的是，當嘗試使用無標注輸入改進對輸出的估計時，給定輸入的輸出條件句的信息恰是 SSL 所需要的。因此，我們預測 SSL 無法處理因果學習問題，但適合處理非因果問題。

之后的研究也證明了這一點（詳情參見原論文）。

對抗脆弱性

你可以假設因果方向應該對分類器能否抵抗對抗攻擊產生影響。最近，這類攻擊變得流行，它們包含對輸入進行的微小更改，人類觀察者無法察覺此類更改，但它們確實改變了分類器的輸出。

這在多個維度上與因果關系相關。首先，這些攻擊明確構成了對預測式機器學習的底層 IID 假設的破壞。如果我們想做的是在 IID 設置下執行預測，則統計學習完全足夠。而在對抗環境下，修改后的測試樣本和訓練樣本不來自同一個分布：它們構成了干預，干預經優化后可用來揭示（非因果）p(y|x) 的非穩健性。

對抗現象還說明目前分類器所具備的穩健性與人類不同。如果我們知道兩種穩健性度量，我們會嘗試最大化其中一個、最小化另外一個。目前的方法可被視為對此的粗略逼近，將人類的穩健性有效建模為簡單的數學集合，如半徑 > 0 的球 l_p：它們通常試圖找出給分類器輸出帶來最大改變的樣本，不過需遵循一項限制，即這些樣本必須在 l_p 球內（以像素度量形式）。這也導致對抗訓練的步驟類似于在「虛擬」樣本上訓練分類器使其具備不變性的舊方法。

現在，考慮將模型分解為多個組件（參見 (3)）。如果這些組件對應因果機制，則我們預計模型具備一定程度的穩健性，因為因果機制是自然屬性。具體而言，如果我們在因果方向上學習分類器，則該分類器具備一定的穩健性。你可能因此假設，對于因果學習問題（從因預測果），我們不可能或至少更難找到對抗樣本。近期研究支持這一觀點：通過建模因果生成方向來解決非因果分類問題是一種有效的對抗攻擊防御方法，在視覺領域中該方法叫做合成分析（analysis by synthesis）。

更廣泛來講，對于具備兩個以上頂點的圖，我們可以推斷出其結構由多個自主模塊構成，如因果分解 (2) 所提供的組件，這類結構應該對置換或修改單個組件具備一定的穩健性。稍后我們再來講這個話題。

穩健性還應該在研究策略行為時發揮作用，策略行為即考慮其他智能體（包括 AI 智能體）的動作后所做出的決策或動作?？紤]一個試圖基于一組特征預測成功償還信用卡概率的系統。這組特征包括個人當前債務及其地址。為了得到更高的信用積分，人們會（通過償還行為）更改其當前債務金額，或者將個人地址更換到更富裕的地區。前者對償還債務的概率有正面的因果作用，而后者則相反。因此，我們可以僅使用因果特征作為輸入，構建一個對此類策略行為具備更強穩健性的得分系統。

多任務學習

假設我們想構建一個在多個環境中解決多個任務的系統。此類模型可以利用學習視角作為壓縮?；谟柧毤?(x_1, y_1), . . . ,(x_n, y_n) 學習函數 f（從 x 到 y 的映射）可被視為 y 基于 x 的條件壓縮。其思路是，我們可以找出最緊湊的系統來基于 x_1, . . . , x_n 恢復 y_1, . . . , y_n。

假設愛麗絲想與鮑勃交流標簽，二人均知道輸入。首先，他們商定將要使用的函數 F 的有限集。然后愛麗絲從函數集中選出最優函數并告訴鮑勃（選取函數的數量取決于函數集大小，也可能取決于二人商定的先驗概率）。此外，愛麗絲可能還要告訴鮑勃函數無法正確分類的輸入 x_i 的索引 i，即 f(x_i) ≠ y_i。

在選擇大量函數類（編碼函數索引需要很多成本）和允許大量訓練誤差（需要分開編碼）之間存在權衡。該權衡完美對應統計學習理論中的標準 VC 邊界（standard VC bound）。

你可以將其泛化至多任務環境：假設我們有多個數據集，它們從類似但不相同的 SCM 中采樣得來。如果這些 SCM 共享大部分組件，則我們可以通過編碼 SCM 中的函數來壓縮從多個 SCM 中采樣得到的多個數據集。正確的結構（在雙變量案例中，這應該等于正確的因果方向）應該是最緊湊的一個，因為它包含多個數據集共享的多個函數，因此只需要執行一次編碼即可。

強化學習

將統計學習向因果學習推動的計劃與強化學習也有關系。強化學習過去（現在通常也）被認為是很難處理現實世界高維數據的學習方法，原因之一是作為反饋的強化信號相比監督學習中的標簽信息要稀疏很多。DeepQ 智能體取得了當時社區認為不可能實現的結果，但與動物智能相比它仍然存在一些顯著缺陷。其中兩個主要問題可以表述為：

問題 1：為什么強化學習在原始高維 ATARI 游戲中要比在降采樣版本中更難？

對于人類而言，降低游戲屏幕分辨率會使問題變難，這正是 DeepQ 系統的運行原理。動物可以根據「共同命運」或對干預的共同反應，對像素進行分組，從而識別物體（在計算機游戲中這叫做「sprite」）。因此該問題與「物體由什么構成」這個問題相關，后者不僅關乎感知還涉及我們與世界的交互方式。我們可以撿起某個物體，但無法撿起半個物體。因此物體也對應可被單獨干預或操控的模塊化結構。物體由變換下的行為來定義，這個深刻觀點不僅適用于心理學，也適用于數學。

問題 2：為什么在打亂重放（replay）數據后，強化學習會變得簡單？

因為智能體在世界中游蕩時，它對其看到的數據產生影響，因而統計數據隨著時間發生改變。這破壞了 IID 假設，如前所述，DeepQ 智能體存儲之前數據并在其上重新訓練（作者將該過程比作做夢），從而利用標準 IID 函數學習技術。但是，時間順序包含動物智能所使用的信息。信息不僅包含在時間順序中，還包含在統計數據的緩慢改變能夠高效創建多域設置這一事實中。

多域數據被證明有助于識別因果（也是穩?。┨卣?，更廣泛來講，它可以尋找不變性，從而搜尋因果結構。這有助于強化學習智能體找到模型中的穩健組件，這些組件有望泛化至狀態空間的其他部分。一種方式是使用 SCM 部署基于模型的強化學習，該方法可以幫助解決強化學習中的干擾問題，在這類問題中時間變化和時間不變的未觀測干擾因子會影響動作和獎勵。在此類方法中，非平穩性是特征而非 bug，智能體積極尋找不同于已知區域的區域，以挑戰現有模型，并了解哪些組件具備穩健性。這種搜索可被視為一種內在動機，該概念與動物行為學中的潛在學習（latent learning）有關，它在強化學習中得到了重視。

最后，因果學習中還有一個巨大的開放區域是與動態過程的連接。我們可能天真地以為因果關系通常與時間有關，但大部分現有因果模型并非如此。例如海拔高度與溫度那個例子，底層的時間物理過程確保更高的地方溫度更低。在涉及粒子運動的微觀方程層次上，存在清晰的因果結構（如上所述，微分方程確切指明變量的哪些之前值對當前值產生影響）。但是，在提及高度和溫度之間的相關性或因果關系時，我們無需擔憂時間結構的細節，我們使用的數據集沒有出現時間信息，我們可以推斷對溫度或高度進行干預后，數據集會變成什么樣。我們需要思考如何在這些不同的描述層次之間架起橋梁。

在推導出能夠描述耦合系統干預行為的 SCM 方面已經取得了一些進展，耦合系統處于均衡狀態，且可以用「絕熱」方式干擾，并泛化至振動系統。為什么簡單的 SCM 通常是可推導的？這不存在根本性原因。SCM 是對微分方程底層系統的高級抽象，此類方程只在合適的高級變量被定義時才能夠被推導，這可能是例外而非規則。

相比機器學習主流，強化學習與因果關系研究更接近，因為它有時高效直接地估計執行某個行為的概率（在策略學習）。但是，一旦涉及離策略學習，特別是在批量（或觀測）設置下，因果關系的問題就變得很微妙。

因果表示學習

傳統的因果發現和推理假設單元是由因果圖連接的隨機變量。但是，現實世界觀測結果通常無法在一開始就結構化為這類單元，如圖像中的對象。因果表示學習這一新興領域致力于從數據中學習這些變量，就像超出符號 AI 的機器學習，不需要為算法操控的符號提供先驗。定義與因果模型相關的對象或變量等同于對更詳細的世界模型進行粗糙模仿。在合適的條件下，對微觀模型的粗糙模仿可以產生結構模型，這些微觀模型包括微觀結構方程模型、常微分方程和時間聚合時序（temporally aggregated time serie）。盡管經濟學、醫療或心理學中的每一個因果模型使用的變量是對較初級概念的抽象，但是表述粗糙變量容許因果模型（具備定義規范的干預）的通用條件是很有難度的。

識別容許因果模型的合適單元這一任務對于人類和機器智能都有難度，但是它與現代機器學習學習有意義的數據表示這一通用目標是一致的，「有意義」表示穩健、可遷移、可解釋或公平。為了結合結構因果建模 (1) 和表示學習，我們應將 SCM 嵌入到更大的機器學習模型中，該模型的輸入和輸出可能是高維和非結構化的，但是其內在工作機制至少部分受 SCM 控制。實現這一點的一種方式是，將未解釋變量實現為生成模型中的（潛在）噪聲變量。此外，還需注意 SCM 和現代生成模型之間存在自然連接：它們都使用重參數化技巧，包括使期望隨機性作為模型的（外生）輸入（在 SCM 中，這些是未解釋變量）而非內在組件。

學習可遷移機制

復雜世界中的人工或自然智能體面臨的資源有限。這涉及到訓練數據，即每個任務/領域的數據有限，因此需要尋求池化/數據重用方法，這與人類執行大規模標注工作的當前行業實踐形成鮮明對比。它還涉及計算資源的問題：動物的大腦規模存在限制，進化神經科學中有很多大腦區域被重新規劃的示例。類似的規模和能量限制也出現在機器中，因為機器學習方法嵌入的（小型）物理設備可能是電池供電。因此，未來穩健地解決大量現實問題的 AI 模型有可能需要重用組件，這要求組件對多個任務和環境具備穩健性。

實現該目標的一種優雅方式是，利用能夠反映世界對應模塊的模塊化結構。換言之，如果世界確實是模塊化的，那么一定程度上世界的不同組件在大量環境、任務和設置中發揮作用，模型需要謹慎利用對應模塊。例如，如果自然光線的變化（如太陽、云的位置等）表明視覺環境的光照條件多達數個數量級，則人類神經系統中的視覺處理算法應利用能夠因子化這些變化的方法，而不是針對每一種光照條件構建不同的人臉識別器。

如果我們的大腦能夠通過增益控制機制彌補光線變化，那么該機制無需與帶來光照變化的物理機制有任何關系。但是，它會在模塊化結構中發揮作用，這對應于物理機制在世界的模塊化結構中的作用。這會使向我們無法直接識別的世界展示特定形式的結構同構（structural isomorphism）的模型出現偏差，這很有趣，因為最終我們的大腦什么都沒做，只是將神經元信號轉換為其他神經元信號。

學習此類模型的合理歸納偏置是尋找獨立因果機制，有競爭力的訓練可以發揮作用：對于模式識別任務，Parascandolo 等人（2018）展示了學習包含獨立機制的因果模型有助于在迥異領域中實現模塊遷移。在這篇研究中，手寫字符被一組未知機制（包括平移、噪聲和對照倒置）扭曲。神經網絡試圖通過一組模塊去除這些變換，這組模塊中的每一個都專注于一個機制。

對于任意輸入，每個模塊嘗試生成正確的輸出，然后判別器來分辨哪個模塊效果最好。獲勝的模塊通過梯度下降進行訓練，進一步提升其對該輸入的性能。最終系統學得平移、倒置或去噪等機制，這些機制可遷移至來自其他分布的數據，如梵語字符。近期，這已發展到新的階段：將一組動態模塊嵌入到循環神經網絡中，注意力機制對此進行協調。這使得學習模塊的動態過程大部分時間獨立運轉，但偶爾也會彼此交互。

學習解糾纏表示（disentangled representation）

上文我們探討了 ICM 原理，它既表明 (1) 中 SCM 噪聲項的獨立性，又進而說明解糾纏表示具備可行性：

以及條件句 p(S_i | PA_i) 可被獨立操控，且在大量相關問題上具備強大的不變性。假設我們希望利用來自數據的獨立機制 (11) 重建此類解糾纏表示，但是沒有因果變量 S_i 作為先驗，只有（可能是高維度的）X = (X_1, . . . , X_d)（下文中，我們將 X 想象為具備像素 X_1, . . . , X_d 的圖像），基于此我們應構建因果變量 S_1, . . . , S_n (n << d) 以及機制（參見 (1)）， ?

建模 S_i 中的因果關系。為此，我們首先使用編碼器 q : R^d → R^n 將 X 輸入潛在「瓶頸」表示，該表示包含未解釋噪聲變量 U = (U_1, . . . , U_n)。然后是結構化任務 f_1, . . . , f_n 確定的映射 f(U)。最后，我們使用解碼器 p : R^n → R^d。如果 n 足夠大，則該系統可利用重建誤差訓練，以在觀測圖像上滿足 p ? f ? q ≈ id。為了使其具備因果關系，我們使用 ICM 原理，即我們應使 U_i 具備統計獨立性，使機制 f_i 獨立。這可以通過確保它們對多個問題具備不變性或可被獨立干預來實現：如果我們操控其中一些，它們應該仍能生成有效圖像，這可以通過生成對抗網絡的判別器來訓練。

我們完美地操控了完整機制 f_i，現在我們來討論干預潛在噪聲變量的特例。一種干預方式是用基于其他輸入圖像計算出的對應值替換噪聲變量，該步驟被 Besserve 等人 (2018b) 稱為「雜合」（hybridization）。在極端情況下，我們可以雜合每個組件都計算自另一個訓練樣本的潛在向量。對于 IID 訓練設置，這些潛在向量具備統計獨立性組件。

在此類架構中，編碼器是識別或重建世界中因果驅動因素的非因果映射。這樣，機制可被公式化，也可在不同任務中遷移。解碼器在（驅動因果模型噪聲的）低維潛在表示和高維世界之間建立連接，這部分構成了因果生成圖像模型。ICM 假設表明，如果潛在表示重建真正的因果變量（以及驅動它們的噪聲），則對這些噪聲（以及被驅動的機制）的干預是允許的，且能夠有效生成圖像數據。

學習干預式世界模型（interventional world model）和推理

現代表示學習擅長為保留相關統計屬性的數據學習表示。但是，這樣做沒有考慮到變量的因果屬性，也就是說它不關心它所分析或重建變量的干預屬性。我希望未來，因果關系可以在推動表示學習更進一步的道路上發揮重要作用，使其超出統計相關性結構的表示，向支持干預、規劃和推理的模型前進，實現 Konrad Lorenz「像在想象空間中行動那樣思考」的概念。這最終需要回顧個人行為和設想其他場景的能力，可能需要自由意志。自我意識的生物功能可能與個人的 Lorenzian 想象空間中表示自身的變量有關，自由意志可能是交流該變量所執行動作的方式，這對社會和文化學習都很重要，這個話題尚未進入機器學習研究，盡管它是人類智能的核心。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴