在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于預訓練語言模型設計了一套統一的模型架構

深度學習自然語言處理 ? 來源:RUC AI Box ? 2023-04-07 10:38 ? 次閱讀

本文介紹了本小組發表于ICLR 2023的論文UniKGQA,其基于預訓練語言模型設計了一套統一的模型架構,同時適用于多跳KBQA檢索和推理,在多個KBQA數據集上取得顯著提升。

f96b6e60-d4e9-11ed-bfe3-dac502259ad0.png

該論文發表于 ICLR-2023 Main Conference:

論文鏈接:https://arxiv.org/pdf/2212.00959.pdf

開源代碼:https://github.com/RUCAIBox/UniKGQA

進NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進入對應投稿群)

前言

如何結合PLM和KG以完成知識與推理仍然是一大挑戰。我們在NAACL-22關于常識知識圖譜推理的研究 (SAFE) 中發現,PLM 是執行復雜語義理解的核心。因此,我們深入分析了已有的復雜 GNN 建模外部 KG 知識的方法是否存在冗余。最終,基于發現,我們提出使用純 MLP 輕量化建模輔助 PLM 推理的 KG 知識,初步探索了 PLM+KG 的使用方法。

進一步,本文研究了在更依賴 KG 的知識庫問答任務中如何利用 PLM。已有研究通常割裂地建模檢索-推理兩階段,先從大規模知識圖譜上檢索問題相關的小子圖,然后在子圖上推理答案節點,這種方法忽略了兩階段間的聯系。我們重新審視了兩階段的核心能力,并從數據形式,模型架構,訓練策略三個層面進行了統一,提出UniKGQA。同時受 SAFE 啟發,我們認為 KG 僅為執行推理的載體,因此 UniKGQA 架構的設計思考為:核心利用 PLM 匹配問題與關系的語義,搭配極簡 GNN 在 KG 上傳播匹配信息,最終推理答案節點。針對這樣的簡潔架構,我們同時設計了一套高效的訓練方法,使得 UniKGQA 可以將檢索的知識遷移到推理階段,整體性能更高效地收斂到更好的表現。實驗證明,在多個標準數據集上相較于已有 SOTA,取得顯著提升。

一、研究背景與動機

f981d7e0-d4e9-11ed-bfe3-dac502259ad0.png

1、多跳知識庫問答

給定一個自然語言問題 和一個知識圖譜 ,知識圖譜問答 (KGQA) 旨在從知識圖譜上尋找答案集合,表示為 。我們在圖1 (a)中展示了一個例子。給定問題:Who is the wife of the nominee for The Jeff Probst Show?,該任務的目標是從主題實體 The Jeff Probst Show 開始,尋找匹配問題語義的推理路徑 nominee --> spouse,最終得到答案實體 Shelley Wright 和 Lisa Ann Russell。已有研究通常假設問題中提到的實體 (例如圖1 (a)中的The Jeff Probst Show) 被標記并鏈接到知識圖譜上,即主題實體,表示為 。

本文關注多跳 KGQA 任務,即答案實體和主題實體在知識圖譜上距離多跳。考慮到效率和精度之間的平衡,我們遵循已有工作,通過檢索-推理兩階段框架解決此任務。具體而言,給定一個問題 和主題實體 ,檢索階段旨在從超大知識圖譜 中檢索出一個小的子圖 ,而推理階段則在檢索子圖 上推理答案實體 。

2、研究動機

雖然兩個階段的目的不同,但是兩個階段都需要評估候選實體與問題的語義關聯性 (用于檢索階段remove或推理階段rerank)。本質上,上述過程可以被視為一個語義匹配問題。由于 KG 中實體與實體間的聯系通過關系表示,為了衡量實體的相關性,在構建語義匹配模型時,基于關系的特征(直接的一跳關系或復合的多跳關系路徑),都被證明是特別有用的。如圖1 (a)所示,給定問題,關鍵是要在知識圖譜中識別出與問題語義匹配的關系及其組成的關系路徑 (例如nominee --> spouse),以找到答案實體。

由于兩個階段處理知識圖譜時,面臨的搜索空間尺度不同 (例如,檢索時數百萬個實體結點與推理時數千個實體結點),已有方法通常割裂地為兩階段考慮對應的解決方案:前者關注如何使用更高效的方法提升召回性能,而后者關注如和利用更細粒度的匹配信號增強推理。這種思路僅將檢索到的三元組從檢索階段傳遞到推理階段,而忽略了整個流程中其他有用的語義匹配信號,整體性能為次優解。由于多跳知識圖譜問答是一項非常具有挑戰性的任務,我們需要充分利用兩個階段習得的各種能力。

因此,本文探討能否設計一個統一的模型架構來為兩個階段提供更好的性能?如果這樣,我們可以緊密關聯兩階段并增強習得能力的共享,從而提升整體性能。

二、UniKGQA:適用于檢索和推理的統一架構

然而,實現統一的多跳 KGQA 模型架構面臨兩個主要挑戰: (1) 如何應對兩個階段的搜索空間尺度差異很大的問題? (2) 如何在兩個階段之間有效地共享或傳遞習得的能力? 考慮到這些挑戰,我們從數據形式,模型架構,訓練策略三方面進行探索,最終對兩階段的模型架構進行了統一。

1、數據形式

在 KG 中,存在大量的一對多現象,例如,頭實體為中國,關系為城市,那么存在多個尾實體,每個尾實體又會存在各自的一對多現象,使得圖的規模隨跳數成指數級增長。實際上,在檢索階段,我們僅需要通過關系或關系路徑召回一批相關的實體,而不需要細粒度關注實體本身的信息。結合以上思考,我們針對檢索階段提出了Abstract Subgraph(抽象子圖) 的概念,核心是將同一個頭實體和關系派生出的尾實體聚合在一起,得到對應的抽象結點,如圖1 (b)即為圖1 (a)的抽象子圖表示,這樣可以顯著降低原始知識圖譜的規模。因此,檢索階段通過關系或關系路徑判斷抽象節點的相關性,檢索完成后,將含有抽象節點的子圖進行還原,得到包含原始節點的子圖;推理階段通過關系或關系路徑同時考慮具體的節點信息推理最終的答案節點。這樣,我們就可以減緩兩個階段面臨的搜索空間尺度過大的問題。

基于抽象子圖,我們針對兩階段提出一個評估實體相關性的通用形式,即給定問題 和候選實體的子圖 。對于檢索階段, 是抽象子圖,包含抽象節點以合并同一關系派生的尾實體。對于推理階段, 是基于檢索階段的檢索子圖構建的,還原后沒有抽象節點。這種通用的輸入格式為開發統一的模型架構提供了基礎。接下來,我們將以一般方式描述針對這種統一數據形式設計的模型架構,而不考慮特定的檢索或推理階段。

2、模型架構

f9ba0b2e-d4e9-11ed-bfe3-dac502259ad0.png

基于上述統一數據形式,我們開發的模型架構包含兩個基礎模塊:(1) 語義匹配 (SM) 模塊,利用 PLM 執行問題和關系之間的語義匹配;(2) 匹配信息傳播 (MIP) 模塊,在知識圖譜上傳播語義匹配信息。我們在圖2中展示了模型架構的概覽。

語義匹配 (SM):SM 模塊旨在生成問題 與給定子圖 中的三元組間的語義匹配特征。具體而言,我們首先利用 PLM 對和的文本進行編碼,然后使用 [CLS] 令牌的輸出表示作為它們的表示:

基于 和 ,受 NSM 模型的啟發,我們通過對應的投影層,在第 步獲得問題 和三元組間語義匹配特征的向量間語義匹配特征的向量:

其中,, 是第 步投影層的參數, 和 分別是 PLM 和特征向量的隱藏層維度, 是 sigmoid 激活函數,而 是 hadamard 積。

匹配信息傳播 (MIP):基于語義匹配特征,MIP 模塊首先將它們聚合起來以更新實體表示,然后利用它來獲取實體匹配得分。為了初始化匹配得分,對于給定問題 和子圖 中的每個實體 ,我們將 和 之間的匹配分數設置為:如果 是主題實體,則 ,否則 。在第 步,我們利用上一步計算出的頭實體的匹配分數作為權重,聚合相鄰三元組的匹配特征,以獲得尾實體的表示:

其中, 是第 步中實體 的表示, 是可學習的矩陣。在第一步中,由于沒有匹配分數,我們按照NSM模型的方法,直接將其一跳關系的表示聚合為實體表示:,其中 是可學習的矩陣。基于所有實體 的表示,我們使用 softmax 函數更新它們的實體匹配分數:

其中, 是一個可學習的向量。

經過 步迭代,我們可以獲得最終的實體匹配得分 ,它是子圖 中所有實體的概率分布。這些匹配分數可以用來衡量實體作為給定問題 答案的可能性,并將在檢索和推理階段中使用。

訓練策略

我們在多跳知識圖譜問答的推理和檢索階段都使用了前述的模型架構,分別為推理模型和檢索模型。由于這兩個模型采用相同的架構,我們引入 和 來分別表示用于檢索和推理的模型參數。如前所述,我們的架構包含兩組參數,即基礎 PLM 以及用于匹配和傳播的其他參數。因此, 和 可以分解為 和 ,其中下標 和 分別表示我們架構中的 PLM 參數和其他參數。為了學習這些參數,我們基于統一架構設計了預訓練 (即問題-關系匹配)和微調 (即面向檢索和推理的學習)策略。下面,我們描述模型訓練方法。

問題-關系匹配的預訓練 (QRM): 對于預訓練,我們主要關注學習基礎 PLMs (即 和 ) 的參數。在實現中,我們讓兩個模型共享相同的 PLM 參數,即 。語義匹配模塊的基本功能是對一個問題和一個單獨的關系進行相關性建模 (式2)。因此,我們設計了一個基于問題-關系匹配的對比預訓練任務。具體來說,我們采用對比學習目標來對齊相關問題-關系對的表示,同時將其他不相關的對分開。為了收集相關問題-關系對,對于一個由問題 、主題實體 和答案實體 組成的例子,我們從整個知識圖譜中提取 和 之間的所有最短路徑,并將這些路徑中的所有關系視為與 相關的關系,表示為 。這樣,我們就可以獲得許多弱監督樣例。在預訓練期間,對于每個問題 ,我們隨機采樣一個相關的關系 ,并利用對比學習損失進行預訓練:

其中,是一個溫度超參數,是一個隨機采樣的負關系,是余弦相似度,、是由SM模塊(式1)中的 PLM 編碼的問題和關系。這樣,通過預訓練 PLM 參數,問題-關系匹配能力將得到增強。請注意,在預訓練之后,PLM 參數將被固定。

在抽象子圖上微調檢索 (RAS):在預訓練之后,我們在檢索任務上學習參數 。回憶一下,我們將子圖轉化為一種抽象子圖的形式,其中包含抽象節點,用于合并來自同一關系派生的尾實體。由于我們的 MIP 模塊可以生成子圖中節點的匹配分數 (式4),其中下標 表示節點來自抽象子圖。此外,我們利用標注的答案來獲取標簽向量,表示為 。如果抽象節點中包含答案實體,則在 中將抽象節點設置為1。接下來,我們最小化學習匹配得分向量和標簽向量之間的KL散度,如下式所示:

通過RAS損失微調后,可以有效地學習檢索模型。我們通過它們的匹配得分選擇排名前 個節點,利用它們來檢索給定問題 的子圖。請注意,僅選擇與主題實體距離合理的節點進入子圖,這可以確保推理階段使用的子圖 相對較小但與問題相關。

在檢索子圖上微調推理 (RRS):在微調檢索模型后,我們繼續微調推理模型,學習參數 。通過微調后的檢索模型,我們可以獲得每個問題 的較小子圖 。在推理階段,我們專注于執行準確的推理,以找到答案實體。因此,我們還原抽象節點中的原始節點及其原始關系。由于檢索和推理階段高度依賴,我們首先使用檢索模型的參數來初始化推理模型的參數: 。然后,根據式4,我們采用類似的方法使用KL損失函數來使學習到的匹配得分 (表示為 ) 擬合標簽向量 (表示為 ):

其中,下標 表示節點來自檢索子圖。通過RRS損失的微調后,我們可以利用學習的推理模型選擇排名前個實體。

如圖1 (c)所示,整體的訓練過程由以下三個步驟組成:(1) 與 共享參數,(2) 使用問題-關系匹配預訓練 ,(2) 使用抽象子圖微調 以進行檢索,(3) 使用子圖微調 以進行推理,其中 使用 進行初始化。

討論

f9d4124e-d4e9-11ed-bfe3-dac502259ad0.png

據我們所知,我們是KGQA領域首次提出使用統一模型在檢索和推理階段共享推理能力。在表格1中,我們總結了我們的方法和幾種流行的多跳知識庫問答方法(包括 GraphfNet、PullNet、NSM 和 SR+NSM 之間的區別。我們可以看到,現有方法通常針對檢索和推理階段采用不同的模型,而我們的方法更為統一。統一帶來的一個主要優點是,兩個階段之間的信息可以有效地共享和復用,即,我們使用學習的檢索模型來初始化推理模型。

三、實驗結果

1、主實驗

我們在3個公開的文檔檢索數據集上進行實驗,分別是 WebQuestionsSP (WebQSP)、Complex WebQuestions 1.1 (CWQ)、和 MetaQA 數據集。實驗結果如下表所示,通過對比可以清晰地看出我們的方法的優勢。例如,在難度較大的數據集 WebQSP 和 CWQ 上,我們的方法遠遠優于現有的最先進基線(例如,WebQSP 的 Hits@1 提高了8.1%,CWQ 的 Hits@1 提高了2.0%)。

f9e8e3ea-d4e9-11ed-bfe3-dac502259ad0.png

在我們的方法中,為了提高效率,我們固定了基于 PLM 的編碼器的參數。實際上,更新其參數可以進一步提高模型性能。這樣的方法使研究人員在實際應用中可以權衡效率和精度。因此,我們提出了兩種 UniKGQA 的變體來研究它:(1) 僅在編碼問題時更新 PLM 編碼器的參數,(2) 同時在編碼問題和關系時更新 PLM 編碼器的參數。事實上,這兩種變體都可以提高我們的 UniKGQA 的性能。只在編碼問題時更新 PLM 編碼器可以獲得與同時更新兩者相當甚至更好的性能。可能的原因是在編碼問題和關系時更新 PLM 編碼器可能會導致過度擬合下游任務。因此,僅在編碼問題時更新PLM 編碼器是更有價值的,因為它可以在相對較少的額外計算成本下實現更好的性能。

2、深入分析

fa2df962-d4e9-11ed-bfe3-dac502259ad0.png

檢索性能:我們從三個方面評估檢索性能:子圖大小、答案覆蓋率和最終 QA 性能。可以看到,在檢索出相同大小的子圖的情況下,UniKGQA 和 SR 的答案覆蓋率顯著高于 PPR 的。這證明了訓練可學習的檢索模型的有效性和必要性。此外,盡管 UniKGQA 和 SR 的曲線非常相似,但我們的 UniKGQA 比 SR+NSM 可以實現更好的最終 QA 性能。原因是 UniKGQA 可以基于統一體系結構將相關信息從檢索階段傳遞到推理階段,學習更有效的推理模型。這一發現可以通過將我們的 UniKGQA 與 UniKGQA+NSM 進行比較來進一步驗證。

微調效率:我們比較了 UniKGQA 和較強基線模型 NSM 在相同檢索的子圖上進行微調時,性能隨迭代輪數的變化。如圖3右側展示。首先,我們可以看到,在微調之前(即迭代輪數為零時),我們的 UniKGQA 已經達到了與 NSM 最佳結果相當的性能。這表明推理模型已經成功利用了檢索模型習得的知識,可以進行一定的推理。迭代兩輪之后,我們的 UniKGQA 已經達到接近收斂的性能。表明我們的模型可以實現高效的微調。

fa4e6e36-d4e9-11ed-bfe3-dac502259ad0.png

消融實驗:我們提出兩個重要的訓練策略以提高性能:(1) 使用問題-關系匹配進行預訓練,(2) 使用檢索模型的參數初始化推理模型。我們通過消融實驗驗證它們的有效性。我們提出了三種變體:(1) 去除預訓練過程, (2) 去除使用檢索模型參數初始化,(3) 同時去除預訓練和初始化過程。我們在表格4中展示了消融研究的結果。可以看到,所有這些變體的性能都低于完整的 UniKGQA,這表明這兩個訓練策略對最終性能都很重要。此外,這種觀察還驗證了我們的 UniKGQA 確實能夠轉移和重用習得的知識以提高最終性能。

四、總結

在這項工作中,我們提出了一種多跳知識圖譜問答任務新的模型架構。作為主要技術貢獻,UniKGQA 引入了基于 PLMs 的統一模型架構,可同時適用于檢索階段與推理階段。為了應對兩個階段的不同搜索空間規模,我們提出了檢索階段專用的抽象子圖的概念,它可以顯著減少需要搜索的節點數量。此外,我們針對統一模型架構,設計了一套高效的訓練策略,包含預訓練(即問題-關系匹配)和微調(即面向檢索和推理的學習)。得益于統一的模型架構,UniKGQA 可以有效增強兩個階段之間習得能力的共享和轉移。我們在三個基準數據集上進行了廣泛的實驗,實驗結果表明,我們提出的統一模型優于競爭方法,尤其是在更具挑戰性的數據集(WebQSP 和 CWQ)上表現更好。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    124

    瀏覽量

    20910
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10342
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24835
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7742

原文標題:四、總結

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    文詳解知識增強的語言訓練模型

    隨著訓練語言模型(PLMs)的不斷發展,各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習定的知識,但仍舊存在很
    的頭像 發表于 04-02 17:21 ?9724次閱讀

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示語言
    發表于 04-30 15:35

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第階段,
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    模型架構奠定基礎。然后,引介些經典的訓練模型,如BERT、GPT等。最后,解讀ChatGPT
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    訓練語言模型設計的理論化認識

    Language Model)統一個框架中,并且基于它們的優勢和缺點,取長補短,提出了個新的訓練
    的頭像 發表于 11-02 15:09 ?2761次閱讀

    如何向大規模訓練語言模型中融入知識?

    本文關注于向大規模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發表于 06-23 15:07 ?4309次閱讀
    如何向大規模<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    Multilingual多語言訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)文中提出XLM訓練語言
    的頭像 發表于 05-05 15:23 ?3055次閱讀

    種基于亂序語言模型訓練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕訓練任務與微調任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼
    的頭像 發表于 05-10 15:01 ?1601次閱讀

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景文本
    的頭像 發表于 08-08 15:33 ?1460次閱讀

    CogBERT:腦認知指導的訓練語言模型

    方面,從語言處理的角度來看,認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計
    的頭像 發表于 11-03 15:07 ?1126次閱讀

    什么是訓練 AI 模型

    訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用,
    的頭像 發表于 04-04 01:45 ?1529次閱讀

    一套開源的大型語言模型(LLM)—— StableLM

    對于任何沒有額外微調和強化學習的訓練大型語言模型來說,用戶得到的回應質量可能參差不齊,并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好
    的頭像 發表于 04-24 10:07 ?2633次閱讀
    <b class='flag-5'>一套</b>開源的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)—— StableLM

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)
    的頭像 發表于 07-03 18:20 ?3153次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這技術發展的關鍵步驟,它通過在海量無標簽數據上進行
    的頭像 發表于 07-11 10:11 ?539次閱讀
    主站蜘蛛池模板: 久久五月网 | 深夜视频在线免费观看 | 五月综合激情网 | 欧美军同video69视频 | 永久看免费bbbbb视频 | 性爽爽 | 日韩一级欧美一级 | 国产女人伦码一区二区三区不卡 | 婷婷丁香色综合狠狠色 | 国产精品成人在线播放 | 五月天婷婷丁香 | 一级毛片免费全部播放完整 | bt天堂在线www最新版资源网 | 亚洲视频www | 人人人人凹人人爽人人澡 | 在线观看国产三级 | 91精品福利视频 | 看黄色一级毛片 | 女人69xxx| 欧美黄色片 一级片 | 欧美黄又粗暴一进一出抽搐 | 国产伦精品一区二区三区 | 97影院理论 | 欧美三级一区二区三区 | 成人在线视频网 | 日本妞xxxxxxxxx69| 欧美在线免费 | 黄床大片 | 永久免费观看视频 | 天天干天天舔天天射 | 日本三浦理惠子中文字幕 | 波多野结衣在线视频免费观看 | 天天玩夜夜操 | 色视频亚洲 | www午夜视频| 日本三级日产三级国产三级 | 久久夜夜肉肉热热日日 | 4455四色永久免费 | 九九色网站 | www.av在线.com| 男女交性视频免费视频 |