在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Entity-Linking及基于Retreval的方法

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-07-13 14:29 ? 次閱讀

NLP預訓練模型需要非常大的參數量以及非常多的語料信息,這些都是希望能盡可能多的記住文本中的知識,以此提升下游任務效果。相比而言,直接從數據庫、知識圖譜、搜索引擎等引入外部知識進行知識增強,是一種更直接、節省資源的方法。知識增強也是NLP未來的重要發展方向,由于在NLU這種需要理解、常識性知識的領域,知識增強更加重要。

ACL 2022的一篇Tutorial:Knowledge-Augmented Methods for Natural Language Understanding,對知識增強在NLU中的方法進行了詳細匯總。本文整理了這篇Tutorial中重點介紹知識增強模型的10篇工作,包括基于Entity-Linking的方法以及基于Retreval的方法兩大類。

Entity-Linking based methodsERNIE: Enhanced Language Representation with Informative Entities(ACL 2019)

ERNIE利用知識圖譜中的實體信息給BERT模型引入外部知識,提升預訓練語言模型效果。模型主要包括Text-Encoder和Knowledge-Encoder兩個部分。在輸入部分,除了原始的文本維度embedding,還會引入實體embedding,實體embedding利用TrasE算法基于知識圖譜進行預訓練。Text-Encoder和BERT相同,對原始的文本輸入進行處理生成文本表示。Knowledge-Encoder將文本和對應位置的entity表示進行融合,得到實體知識增強的表示。Knowledge-Encoder的整個計算過程如下圖,首先利用兩個獨立的multi-head attention生成文本word embedding和entity embedding,再將實體和對應位置的文本進行對齊,輸入到融合層,再通過融合層生成新的word embedding和entity embedding,這樣循環多層得到最終結果。

eeee622a-026d-11ed-ba43-dac502259ad0.png

在預訓練階段,ERNIE增加了一個entity denoising的任務:mask掉或者隨機打亂某些word和entity之間的對齊關系,讓模型去預測。這種預訓練任務起到了將實體知識融入到語言模型中的作用。

KEAR: Augmenting Self-Attention with External Attention(IJCAI 2022)

為了讓Transformer存儲更多的知識來提升下游任務效果,一般都會采用更大的模型尺寸、更多的訓練數據。而KEAR提出引入外部知識的方法,這樣即使在中等尺寸的Transformer上也能由于這些外部知識增益帶來顯著效果提升。

本文主要關注QA任務,給定一個問題和一組答案,從中選擇正確答案。模型的結構比較簡單,將輸入的文本,以及從各種外部知識庫中檢索到和原始輸入相關的知識信息,都以文本的形式拼接到一起,輸入到Transformer中。

外部知識主要來源于三個渠道,第一個渠道是知識圖譜,從問題和答案中提取entity,然后從ConcepNet中提取包含對應entity的三元組;第二個渠道是從字典中檢索相應實體的描述性定義,來彌補模型對于低頻詞的embedding可能學的不好的情況;第三個渠道是從訓練數據中檢索和當前輸入相關的信息作為補充,緩解模型由于對某些訓練數據中的信息記憶不全導致的信息缺失。

ef101f00-026d-11ed-ba43-dac502259ad0.png

Entities as Experts: Sparse Memory Access with Entity Supervision(2020,EaE)

這篇文章在Transformer模型中引入了一個Entity Memory Layer組件,用來從已經訓練好的entity embedding memory中引入和輸入相關的外部知識。Entity Memory Layer模塊可以非常靈活的嵌套在Transformer等序列模型中。

具體做法為,首先要有一個已經訓練好的entity embedding存儲起來。在Transformer的一層輸出結果后,對于輸入文本中的每個entity mention,使用這個entity span的起始位置和終止位置的embedding拼接+全連接得到一個虛擬的entity embedding。利用這個虛擬的entity embedding去entity embedding memory中,利用內積檢索出最相關的top K個實體的embedding,最后加權融合,得到這個entity對應的實體表示,公式如下。這個表示會和Transformer上層輸入融合,作為下一層的輸入。

ef54f6c0-026d-11ed-ba43-dac502259ad0.png

預訓練任務除了MLM外,還包括Mention Detection和Entity Linking兩個優化任務。其中,Mention Detection用來預測每個實體的start和end,采用BIO classification的方式;而Entity Limking任務主要為了拉近Transformer生成的虛擬entity embedding和其對應的entity embedding memory的距離。

ef84dec6-026d-11ed-ba43-dac502259ad0.png

FILM: Adaptable and Interpretable Neural Memory Over Symbolic Knowledge(NAACL 2021)

FILM在上一篇文章中的entity embedding memory基礎上,引入了Fact Memory模塊,entity embedding layer部分的實現和EaE中相同。

Fact Memory模塊和Entity Memory使用的是相同的embedding。Fact Memory模塊由Keys和Values兩個部分組成,Keys對應的是知識圖譜中的subject和relation,而Values是同一個subject和relation下的所有object的集合。使用subject和relation的表示拼接轉換得到每個Keys的embedding表示。當需要預測輸入文本被mask部分的答案時,使用Transformer在mask位置生成的embedding作為query,在Fact Memory中和各個Keys的embedding做內積,檢索相關的object。這些檢索出的object信息的embedding會和被mask部分的embedding融合,用于進行答案的預測。

下圖是一個例子,被mask部分的embedding包含了句子中的關鍵信息,利用該embedding在fact memory中可以實現相關信息的檢索,對于QA有比較大的幫助。

efd36ed8-026d-11ed-ba43-dac502259ad0.png

K-BERT: Enabling Language Representation with Knowledge Graph(2019)

K-BERT首先將輸入文本的實體識別出來,然后去知識圖譜中搜索和該實體相關的子圖,用這個子圖插入到輸入句子的對應位置,形成一個句子樹。比如下面的圖中,Tim Cook從知識圖譜檢索出是蘋果CEO,就將對應文本插入到Tim Cook后面的位置。

f003fdd2-026d-11ed-ba43-dac502259ad0.png

一個核心問題在于,新引入的知識圖譜文本會影響原來輸入句子的語義。另外,文中采用的是將知識圖譜引入的文本直接插入到對應實體后面,其他文本位置對應后移,如何設置position embedding也是個問題。如果直接按照順序設定position embedding,會讓原本距離比較近的單詞之間的position embedding變遠,也會影響原始語義。為了解決這個問題,插入的知識圖譜文本不會影響原來句子各個單詞的posistion編號。同時引入了Visible Matrix,讓原始輸入中和引入的知識信息不相關的文本在計算attention時不可見。通過這種方式,引入的知識信息只會直接影響與其相關的實體的表示生成,不會直接影響原始句子中其他文本的表示生成。引入的知識通過影響對應實體的表示生成,間接影響其他文本的表示生成過程。

2

Retrieval based methodsDense Passage Retrieval for Open-Domain Question Answering(2020)

這篇文章采用的是一種最基礎的基于檢索的QA解決方法。離線訓練一個passage encoder和一個question encoder,目標是讓question和包含其答案的passage的表示的內積最大。訓練過程中的負樣本構造采用了隨機采樣、BM25和question高相關性但不包含答案的passage、訓練樣本中包含答案但不包含當前question答案的passage三種方法。在在線使用時,通過計算question和passage表示內積的方式,檢索出高相關性的passage解析出問題答案。

REALM: Retrieval-Augmented Language Model Pre-Training(2020)

REALM在預訓練語言模型中引入了外部知識檢索模塊,讓模型在進行預測時,不僅能夠根據自身參數保存的信息,也能根據豐富的外部信息給出答案。整個預測過程包括兩個部分:檢索階段和預測階段。檢索階段根據輸入句子從外部知識中檢索相關的文檔;預測階段根據輸入句子以及檢索到的信息進行最終結果的預測。

在檢索階段,跟上一篇文章類似,使用預訓練的兩個BERT的表示計算內積求得輸入和各個文檔的相關性,并進行高相關文檔的檢索。檢索到的文檔和原始輸入拼接到一起,輸入到BERT模型中進行結果預測。

f01f3ca0-026d-11ed-ba43-dac502259ad0.png

RETRO: Improving language models by retrieving from trillions of tokens(2022)

RETRO相比REALM,采用的是chunks維度的檢索。首先構造一個數據庫,存儲文本chunks以及它們的embedding,embedding是由一個預訓練BERT產出的。接下來在訓練語言模型時,對于每個輸入文本,將其切分成多個chunk,每個chunk利用向量檢索從數據庫中檢索出k個最近鄰chunks。這些被檢索出來的相關chunks會利用attention和原始輸入進行融合,增強原始輸入信息。原始輸入的每個chunk都和該chunk檢索出的chunks以及其鄰居檢索出的chunks進行attention。

f0af4962-026d-11ed-ba43-dac502259ad0.png

WebGPT: Browser-assisted question-answering with human feedback(2022)

WebGPT實現了利用GPT模型使用搜索引擎檢索答案。人們在瀏覽器中搜索的操作可以表述成例如下面的這些文本。預先定義一些下表中的command,訓練GPT模型讓它根據已經進行的搜索操作,生成下一個command。這個過程一直執行到某個終止條件位置(例如生成end command、執行次數超過一定長度)。某些command代表著采用這些文檔作為reference。在執行完所有command后,根據收集到的reference以及問題,生成最終的答案。比如下圖b中就是已經執行的command以及問題等信息,這些信息組成了當前搜索的上下文,以文本形式輸入GPT中,讓模型生成下一個command。

f0ee15d4-026d-11ed-ba43-dac502259ad0.png

f1577b50-026d-11ed-ba43-dac502259ad0.png

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data(2022)

這篇文章通過檢索+拼接的方法擴充原始輸入文本的信息,提升多項任務上的效果。整個檢索過程在訓練數據中進行,將訓練數據構造成key-value對。對于輸入樣本,從訓練數據中檢索出高相關性的樣本,作為知識信息拼接到原始輸入中。不同任務會采用不同的檢索對象以及拼接方法,如下圖。

f197d2d6-026d-11ed-ba43-dac502259ad0.png

3

總結知識增強方法是解決自然語言理解的核心方法,重點在于研究從哪獲取知識、如何獲取知識以及如何融合知識。使用知識增強的方法可以幫助模型更直接獲取預測需要用到的外部知識,也能緩解需要越來越大的預訓練模型提升下游任務效果的問題。知識增強+預訓練語言模型起到互補的作用,知識增強方法可以給模型提供預訓練階段沒見過或者忘記的信息,提升預測效果。

原文標題:ACL 2022 Tutorial解析——知識增強自然語言理解

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3384

    瀏覽量

    49337
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22131
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7754

原文標題:ACL 2022 Tutorial解析——知識增強自然語言理解

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    焊接技術流程優化方法

    焊接是現代制造業中不可或缺的一部分,廣泛應用于建筑、汽車、航空、船舶等領域。隨著科技的發展,對焊接技術的要求越來越高,優化焊接流程顯得尤為重要。 1. 焊接工藝的優化 1.1 選擇合適的焊接方法
    的頭像 發表于 01-19 13:52 ?428次閱讀

    焊接方法對焊接質量的影響

    焊接方法對焊接質量的影響是顯著的,不同的焊接方法會直接影響焊縫的質量、強度、密封性以及焊接效率。以下是對焊接方法如何影響焊接質量的分析: 一、焊縫質量 焊縫外觀 不同焊接方法產生的焊縫
    的頭像 發表于 11-01 09:55 ?385次閱讀

    C語言生成可執行二進制文件的具體過程

    C語言源碼到生成可執行文件的過程通常包括預處理(Preprocessing)、編譯(Compilation)、匯編(Assembly)、鏈接(Linking)等多個步驟,每個步驟都有其特定的任務
    的頭像 發表于 10-21 14:30 ?753次閱讀
    C語言生成可執行二進制文件的具體過程

    如何將布局受限的從屬entity應用到另一個項目

    為了方便大家理解,以下將準備兩個項目,分別為 [項目A] 和 [項目B]。我們需要在 [項目B] 中實現 [項目A] 中使用的低級別 entity。在這種情況下,器件型號和 Quartus Prime Pro Edition 環境如下表 (表1) 所示:
    的頭像 發表于 08-22 16:42 ?619次閱讀
    如何將布局受限的從屬<b class='flag-5'>entity</b>應用到另一個項目

    DC/DC模擬的基本使用方法和特性確認方法

    本篇介紹了DC/DC模擬的基本使用方法及確認基本特性的方法
    的頭像 發表于 08-20 17:08 ?871次閱讀
    DC/DC模擬的基本使用<b class='flag-5'>方法</b>和特性確認<b class='flag-5'>方法</b>

    常見的測量電池內阻的方法

    測量電池內阻的方法多種多樣,每種方法都有其獨特的原理和適用范圍。以下是一些常見的測量電池內阻的方法
    的頭像 發表于 08-13 18:14 ?3971次閱讀

    聚徽觸控-拼接屏的安裝方法和維護方法是什么

    拼接屏的安裝方法和維護方法如下:
    的頭像 發表于 07-18 09:34 ?570次閱讀

    nlp自然語言處理的主要任務及技術方法

    (Tokenization)、詞性標注(Part-of-Speech Tagging)和命名實體識別(Named Entity Recognition)等子任務。 1.1.1 分詞(T
    的頭像 發表于 07-09 10:26 ?1354次閱讀

    ESP32S2 ADF的例子編譯后鏈接失敗了是怎么回事?

    其中 ESP-IDF是 v4.4-dev-1594-g1d7068e4b ESP-ADF 是 v2.2-119-g18bd5d5 輸出打印信息 [1136/1138] Linking CXX
    發表于 06-28 07:52

    鴻蒙開發接口Ability框架:【@ohos.ability.wantConstant (wantConstant)】

    wantConstant模塊提供want中action和entity的權限列表的能力,包括系統公共事件宏,系統公共事件名稱等。
    的頭像 發表于 04-30 16:33 ?694次閱讀
    鴻蒙開發接口Ability框架:【@ohos.ability.wantConstant (wantConstant)】

    Go語言中的函數、方法與接口詳解

    Go 沒有類,不過可以為結構體類型定義方法方法就是一類帶特殊的接收者參數的函數。方法接收者在它自己的參數列表內,位于 func 關鍵字和方法名之間。(非結構體類型也可以定義
    的頭像 發表于 04-23 16:21 ?933次閱讀

    stm32cubemx生成電機庫5.33,啟用了RTOS會報錯的原因?

    Internal fault: [0xc43ed8:5050106] in osSignalWait Please contact your supplier. linking
    發表于 04-22 08:18

    《深入理解FFmpeg閱讀體驗》FFmpeg攝像頭測試

    : Found UVC 1.00 device HIK 720P Camera (2bdf:0280) [ 1812.863363] uvcvideo 1-1.5:1.0: Entity type
    發表于 04-17 19:06

    【米爾-芯馳D9360商顯板試用評測】USB攝像頭測試

    :0280) [ 1812.863363] uvcvideo 1-1.5:1.0: Entity type for entity Extension 3 was not initialized
    發表于 04-17 19:03

    以太網中MDIO協議工作原理與應用

    MDIO主機(即產生MDC時鐘的設備)通常被稱為STA(Station Management Entity),而MDIO從機通常被稱為MMD(MDIO Management Device)。通常STA都是MAC層器件的一部分,而MMD則是PHY層器件的一部分。
    發表于 02-27 09:32 ?3908次閱讀
    以太網中MDIO協議工作原理與應用
    主站蜘蛛池模板: 国产午夜视频在线观看 | 日本人zzzwww| 天天干天天澡 | 午夜一级毛片看看 | 午夜精品aaa国产福利 | 99热精品久久只有精品30 | 尤物久久99热国产综合 | 男女做视频网站免费观看 | 亚洲天堂爱爱 | 免费a网址 | 久久水蜜桃网 | 成年色黄大色黄大片 视频 成年视频xxxxx免费播放软件 | 夜色福利久久久久久777777 | 日日噜噜噜夜夜爽爽狠狠视频 | 99久久免费精品高清特色大片 | 四虎免费永久观看 | 天天做天天爽爽快快 | a级黄视频 | 亚洲一区三区 | 亚洲haose在线观看 | 噜噜色小说 | 亚洲毛片免费在线观看 | 五月综合激情久久婷婷 | 国产一级特黄生活片 | 日本特黄a级高清免费大片18 | 在线观看成人网 | 99久久免费中文字幕精品 | 日本精品一在线观看视频 | 免费国产一区二区三区 | 天天透天天操 | 四虎传媒| 天天操天天射天天操 | 毛片爽爽爽免费看 | 一本大道一卡二卡四卡 | 色播在线| 欧美黄又粗暴一进一出抽搐 | 天天干天天玩 | 8050午夜一级二级全黄 | 亚州 色 图 综合 | 天堂影院在线 | 凹凸福利视频导航 |