在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

預訓練語言模型的字典描述

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-08-11 10:37 ? 次閱讀

今天給大家帶來一篇IJCAI2022浙大和阿里聯合出品的采用對比學習的字典描述知識增強的預訓練語言模型-DictBERT,全名為《Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning》

又鴿了許久,其實最近看到一些有趣的論文,大多以知乎想法的形式發了,感興趣可以去看看,其實碼字還是很不易的~

介紹

預訓練語言模型(PLMs)目前在各種自然語言處理任務中均取得了優異的效果,并且部分研究學者將外部知識(知識圖譜)融入預訓練語言模型中后獲取了更加優異的效果,但具體場景下的知識圖譜信息往往是不容易獲取的,因此,我們提出一種新方法DictBert,將字典描述信息作為外部知識增強預訓練語言模型,相較于知識圖譜的信息增強,字典描述更容易獲取。

在預訓練階段,提出來兩種新的預訓練任務來訓練DictBert模型,通過掩碼語言模型任務和對比學習任務將字典知識注入到DictBert模型中,其中,掩碼語言模型任務為字典中詞條預測任務(Dictionary Entry Prediction);對比學習任務為字典中詞條描述判斷任務(Entry Description Discrimination)。

在微調階段,我們將DictBert模型作為可插拔的外部知識庫,對輸入序列中所包含字典中的詞條信息作為外部隱含知識內容,注入到輸入中,并通過注意機制來增強輸入的表示,最終提升模型表征效果。

模型

字典描述知識

字典是一種常見的資源,它列出了某一種語言所包含的字/詞,并通過解釋性描述對其進行含義的闡述,常常也會指定它們的發音、來源、用法、同義詞、反義詞等,如下表所示,9b54f80c-1895-11ed-ba43-dac502259ad0.png我們主要利用四種信息進行模型的預訓練,包括:詞條、描述、同義詞和反義詞。在詞條預測任務中,利用字典的詞條及其描述進行知識學習;在詞條描述判斷任務中,利用同義詞和反義詞來進行對比學習,從而學習到知識表征。

預訓練任務

預訓練任務主要包含字典中詞條預測任務和字典中詞條描述判斷任務,如下圖所示。9b6402ac-1895-11ed-ba43-dac502259ad0.png詞條預測任務,實際上是一個掩碼語言模型任務,給定詞條和它對于的描述,然后將詞條的內容使用特殊字符[MASK]進行替換,最終將其[MASK]內容進行還原。注意,當詞條包含多個token時,需要將其全部掩掉。

詞條描述判斷任務,實際上是一個對比學習任務,而對比學習就是以拉近相似數據,推開不相似數據為目標,有效地學習數據表征。如下表所示,9b93dbe4-1895-11ed-ba43-dac502259ad0.png對于詞條“forest”,正例樣本為同義詞“woodland”,負例樣本為反義詞“desert”。對比學習中,分別對原始詞條+描述、正例樣本+描述和負例樣本+描述進行模型編碼,獲取、和,獲取對比學習損失,

最終,模型預訓練的損失為

其中,為0.4,為0.6。

微調任務

在微調過程中,將DictBert模型作為可插拔的外部知識庫,如下圖所示,首先識別出輸入序列中所包含字典中的詞條信息,然后通過DictBert模型獲取外部信息表征,再通過三種不同的方式進行外部知識的注入,最終將其綜合表征進行下游具體的任務。并且由于可以事先離線對一個字典中所有詞條進行外部信息表征獲取,因此,在真實落地場景時并不會增加太多的額外耗時。9bacbe8e-1895-11ed-ba43-dac502259ad0.png知識注入的方式包含三種:

Pooled Output Concatenation,即將所有詞條的信息表征進行求和,然后與原始模型的進行拼接,最終進行下游任務;

Extra-hop Attention,即將所有詞條的信息表征對進行attition操作,獲取分布注意力后加權求和的外部信息表征,然后與原始模型的進行拼接,最終進行下游任務;

Layer-wise Extra-hop Attention,即將所有詞條的信息表征對每一層的進行attition操作,獲取每一層分布注意力后加權求和的外部信息表征,然后對其所有層進行mean-pooling操作,然后與原始模型的進行拼接,最終進行下游任務;

結果

如下表所示,采用劍橋字典進行預訓練后的DictBert模型,在CoNLL2003、TACRED、CommonsenseQA、OpenBookQA和GLUE上均有提高。其中,Concat表示Pooled Output Concatenation方式,EHA表示Extra-hop Attention,LWA表示Layer-wise Extra-hop Attention,K表示僅采用詞條進行信息表征,K+V表示采用詞條和描述進行信息表征。9bd971a4-1895-11ed-ba43-dac502259ad0.png9bf0d920-1895-11ed-ba43-dac502259ad0.png9c07435e-1895-11ed-ba43-dac502259ad0.png

總結

挺有意思的一篇論文吧,相較于知識圖譜來說,字典確實較容易獲取,并在不同領域中,也比較好通過爬蟲的形式進行詞條和描述的獲取;并且由于字典的表征可以進行離線生成,所以對線上模型的耗時并不明顯,主要在attention上。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    959

    瀏覽量

    54969
  • 字典
    +關注

    關注

    0

    文章

    13

    瀏覽量

    7724
  • 語言模型
    +關注

    關注

    0

    文章

    542

    瀏覽量

    10344

原文標題:IJCAI2022 | DictBert:采用對比學習的字典描述知識增強的預訓練語言模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文詳解知識增強的語言訓練模型

    隨著訓練語言模型(PLMs)的不斷發展,各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識,但仍舊存在很多問題,如知識量有限、受
    的頭像 發表于 04-02 17:21 ?9741次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    訓練語言模型設計的理論化認識

    在這篇文章中,我會介紹一篇最新的訓練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經典的
    的頭像 發表于 11-02 15:09 ?2769次閱讀

    如何向大規模訓練語言模型中融入知識?

    本文關注于向大規模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發表于 06-23 15:07 ?4318次閱讀
    如何向大規模<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    Multilingual多語言訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM訓練語言模型,整體思路基于BERT,并提出了針
    的頭像 發表于 05-05 15:23 ?3063次閱讀

    一種基于亂序語言模型訓練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕了訓練任務與微調任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼語言
    的頭像 發表于 05-10 15:01 ?1604次閱讀

    如何更高效地使用訓練語言模型

    本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是訓練模型的參數實在是太多了,很難找到這么多參數的低維本征子空間。作者基于之前的工作提出了一個
    的頭像 發表于 07-08 11:28 ?1329次閱讀

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景文本
    的頭像 發表于 08-08 15:33 ?1470次閱讀

    CogBERT:腦認知指導的訓練語言模型

    另一方面,從語言處理的角度來看,認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了訓練模型來捕捉大腦如何表示
    的頭像 發表于 11-03 15:07 ?1132次閱讀

    訓練數據大小對于訓練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務上的良好表現主要得益于其在大量無監督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個訓練
    的頭像 發表于 03-03 11:20 ?1535次閱讀

    什么是訓練 AI 模型

    該向孩子展示這種生物的圖像并描述其獨有特征。 那么,如果要教一臺人工智能(AI)機器什么是獨角獸,該從什么地方做起呢? 訓練 AI 模型提供了解決方案。
    的頭像 發表于 04-04 01:45 ?1548次閱讀

    什么是訓練AI模型

    訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用,
    的頭像 發表于 05-25 17:10 ?1148次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?3210次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?553次閱讀
    主站蜘蛛池模板: 四虎永久在线精品 | 天天操操 | 五月天婷婷视频在线观看 | 美女张开腿露出尿口让男人桶 | 四虎永久网址影院 | 欧美影院在线 | 日本特黄特色特爽大片老鸭 | 青青草国产三级精品三级 | 日韩美女三级 | 69日本xxxxxxxx59| 免费一级欧美片在线观免看 | 色噜噜狠狠网站 | youjizz国产 | 天天操夜夜爱 | 欧美性猛交aa一级 | 奇米影视大全 | 失禁h啪肉尿出来高h受 | 天天操天天射天天爽 | 日韩三级毛片 | 免费啪视频在线观看免费的 | 新天堂| 午夜影院欧美 | 亚洲精品美女久久久久网站 | 手机在线看片你懂得 | 中文字幕第15页 | 亚洲天天做夜夜做天天欢人人 | 国产资源在线免费观看 | 三级理论在线 | 国模私拍视频 | 四虎1515hh永久久免费 | 中文字幕亚洲一区婷婷 | 五月婷婷六月丁香综合 | 夜夜想夜夜爽天天爱天天摸 | 亚洲狠狠狠一区二区三区 | 一区二区手机视频 | 在线看一区二区 | 狠狠色狠狠色综合日日32 | 国产精品视频永久免费播放 | 起碰成人免费公开网视频 | 五月天婷婷网站 | 亚洲码欧美码一区二区三区 |