【編者按】Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas討論了基于部分可觀察馬爾可夫決策過程思考自然語言處理和強化學習問題的一些想法。
AI研究應該操心話語含義的明確表示嗎?我這里說的“含義的明確表示”指具備預定義的解釋的結構化變量——語義學家關心的那類事情。長期以來,這樣的含義表示一直是將語義與其他任務連接起來的成功努力的中心,這些任務涉及推理、感知、行動(從SHRDLU到現代語義解析器)。另外,長期以來,結構化的含義表示同時也是一些不成功的工作的中心,這些工作包括機器翻譯、句法等。這種表示使用了許多不同的表示形式化系統——新戴維森邏輯形式(AZ13),組合子邏輯(LJK11),其他非邏輯結構(TK+11)——不過,從某種角度上來說,它們基本上都屬于基于預測-論據結構實現的模型-理論語義,也許預言主體有幾個自由變量。
這類方法看起來正在消失?,F在所有一切都是端到端的,接受手工設計的邏輯語言的值,帶有這樣的顯式潛變量的模型非常罕見。話語傳入模型,模型產生行為,我們并不怎么操心中間進行的運算的結構。從某種標準上來說,這是一件好事:在更形式化的方法中,機器學習和表示的緊密耦合意味著,數據中出現新的語義現象導致模型突然變得無用的風險始終存在。足夠一般的學習表示的機制(非邏輯)讓這一風險不那么可怕了。當然,在舊模型中毫不費力就能得到的一些特定種類的概括和歸納偏置,我們尚未完全搞清楚如何重建。不過,結構化正則器(OS+17)和我們的NMN工作(AR+16)這樣的混合方法的成功,暗示我們將逐漸達到這一步。
但是端到端世界的態度看起來是,既然我們不再進行邏輯推理,那么我們完全沒有必要考慮含義。突然之間,所有人都喜歡稱引維特根斯坦,主張我們應該以下游任務的成功來評估“語言理解”,而不是通過預測正確的邏輯形式(WLM16、GM16、LPB16)——這很棒!——但是這背后似乎有這么一種哲學:“含義即使用,所以如果我們能以很高的精確度預測使用,那么我們就已經理解了我們需要理解的關于含義的一切”。特別是考慮到我們實際上并沒有解決“使用”,我認為機器學習在等式的含義這邊有很多需要學、需要說的。而且我從不認為這是維特根斯坦《哲學研究》中的主張——就算使用(而不是指代)是我們應該嘗試解釋的主要內容,《哲學研究》則對依據哪種語言使用是可能的判斷~~心智表示~~過程表示特別感興趣。
本文的主張是,p(世界狀態|話語)形式的信念狀態的明確表示,適合作為“非結構”機器學習模型的含義表示。這類表示很自然地源于社區最近熱衷的決策任務,但也和語言學的經典表示理論很像。這一綜合暗示了同時訓練和解釋語言處理模型的道路。
信念狀態和內涵
考慮這樣一個問題,在部分觀察的世界中,通過和人們交談降低不確定性,決定如何行動。你應該如何選擇應該采取的最佳行動?給定單一話語w,可能真實的世界狀態x,就某風險函數R而言,最小化貝葉斯風險的行動為:
任何希望在這個世界成功的聽話人需要至少成功地逼近這一優化問題的解,在實踐中,聽話人大概需要表示分布p(x|w),至少隱式地表示。在POMDP中,我們稱p(x|w)為信念狀態;對一給定w而言,這是一個映射可能世界x至變量可信度判斷的函數——給定我們觀察到某人說了w這一事實,x是真實世界的可能性有多大?
和蒙塔古語義學中的內涵概念對比一下:“映射可能世界和時刻至真值的函數”(J11)。大多數(模型-理論)語義程序使用邏輯表達式(而不是表格)表示內涵。但邏輯形式只不過是表達類型正確的函數的一種方式;在蒙塔古傳統下,“含義的明確表示”正是內涵——類似p(x|w)的離散版。
信念狀態是包含概率的內涵。含義的內涵表示很有用,不僅是因為它們有助于解決語言學問題,還因為它們逼近一個量,我們知道,這個量有助于語言使用者利用從語言中獲取的信息進行有用之事。另一方面,POMDP告訴我們,我們需要在聽到話語后進行的計算,差不多是語言學家至始自終告訴我們需要計算的東西。或者,幾乎就是語言學習家已經告訴我們的東西——比起回答p(x|w)請求的黑箱,如果是帶一點結構的東西就更好了,也許是某種分解表示,讓我們可以通過檢查所有可信世界共有的一組屬性高效地找出MBR行動。也許是關于個體的斷言、他們的性質、他們之間的關系……等的乘積。要是邏輯語義學不存在的話,我們將不得不發明它。
準確地說,作為“含義”的p(x|w)應該理解為聽話人含義:已經計入格萊斯說話人含義類型效應(寓意)以及說話人也許不想讓聽話人進行的進一步推理(例如,w是謊言的概率)的精確信念狀態。我們這里不在乎p(x|w)來自何處,所以也許可以通過RSA之類的技術計算(使用不同的內嵌句含義概念)(FG12)。
最后一項調整:現實世界聽話人并不從白板開始:所有話語都基于現存信念狀態p(x)的上下文進行解讀,與其將句子的含義直接視作p(x|w),不如將其視作一個更新函數p(x) ? p(x∣w)。就“Pat loves Lou”這樣的句子而言,我想這一更新基本上一直是連續的;即p(x) ? (1/Z)?p(x)?p(x∣w). 但要處理指示詞和Quine問題中bachelor的含義(譯者注:bachelor既可以指學士,也可以指單身漢),我們需要更新函數的一般版本。
實際影響
這些都很好,不過我們注意到明確指稱含義表示(邏輯、概率或其他形式)并沒有在實踐中表現良好的那些模型中得到應用。所以這有什么可在意的?
語言理解系統要想工作良好,必定選擇了類似最小貝葉斯風險的行動。奧妙在于:深度網絡的后綴是一個通過固定回路轉換輸入表示至輸出行動的函數;如果這個后綴可以為每個輸入表示選擇良好的行動,那么它實際上實現了類似MBR解碼算法的東西(盡管也許只是逼近,同時在表示的經驗分布上特化);呈現給這一部分網絡的語言上下文表示必須足以解決優化問題,所以會是類似p(x|w)表示的東西。
這不是一個很好的論據:模型的“句子表示”和“優化”部分之間可能實際上沒有明顯的界限。但在實踐中,我們確實看到了含義類的句子表示出現(特別是在句子表示獨立于聽話人具備的關于世界狀態的初始信息計算的模型中(DP+18))。當在較大規模網絡中使用專門化的優化模塊時(TW+17、LFK18),我們可以很明確地看到兩者的差別。
在任何情形下,我們模型的某種中間表示解碼(或應該能解碼)知識為世界狀態分布,并為我們提供了兩種工具:
可解釋性:通過估計p(x|rep(w))可以測試表示是否捕捉了正確的語義(或者識別表示捕捉了什么奇異的不規則性),其中rep(w)是模型學習到的話語w的表示。判斷這是否對應于w的真實(即人類聽話人的)指稱。我們發表的一些論文(ADK17、AK17)在這一技術上取得了一些進展。我們組的其他一些學生使用這一技術分析遵循指令的模型的預訓練方案。不過,某種程度上,應用這一技術學習自然語言自身的表示要比應用于學習到的消息/抽象行動的空間更加自然。
輔助目標:指令遵循/QA問題的一般目標是p(行動|話語, 聽話人觀測)。不過,如果碰到了過擬合問題,在說話人觀測可用的情況下,可以直接加上一項p(說話人觀測, 聽話人觀測|話語)。對某些問題而言(例如GeoQuery類的語義解析),在“說話人觀測”和“行動”之間不存在有意義的差別;對另一些問題而言,這看起來像是完全不同的學習問題。在指代表達任務中,指稱輔助問題是“生成/獲取圖像對,在這一對對圖像之間,這將是不同的描述”;在指令遵循模型中,它是“生成目標狀態(但未必是能讓我到達那里的行動)”。
結語
在語言任務中思考POMDP風格的解答,我們得到了疑似模型-理論語義學中的含義的描述。這一類比提供了解釋學習到的模型的工具,并暗示了提升模型精確度的輔助目標。
-
強化學習
+關注
關注
4文章
269瀏覽量
11607 -
自然語言處理
+關注
關注
1文章
628瀏覽量
14168
原文標題:AI研究應該關注語含義的明確表示嗎?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論