在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識圖譜與BERT相結(jié)合助力語言模型

深度學(xué)習(xí)自然語言處理 ? 來源:樸素人工智能 ? 作者:樸素人工智能 ? 2021-05-19 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

感謝清華大學(xué)自然語言處理實驗室對預(yù)訓(xùn)練語言模型架構(gòu)的梳理,我們將沿此脈絡(luò)前行,探索預(yù)訓(xùn)練語言模型的前沿技術(shù),紅框中為已介紹的文章,綠框中為本期介紹的模型,歡迎大家留言討論交流。

在之前的一期推送中,我們給大家介紹過百度的ERNIE。其實清華大學(xué)NLP實驗室,比百度更早一點,也發(fā)表了名為ERNIE的模型,即Enhanced Language Representation with Informative Entities。

他們認(rèn)為現(xiàn)存的預(yù)訓(xùn)練語言模型很少會考慮與知識圖譜(Knowledge Graph: KG)相結(jié)合,但其實知識圖譜可以提供非常豐富的結(jié)構(gòu)化知識和常識以供更好的語言理解。他們覺得這其實是很有意義的,可以通過外部的知識來強(qiáng)化語言模型的表示能力。在這篇文章中,他們使用大規(guī)模語料的語言模型預(yù)訓(xùn)練與知識圖譜相結(jié)合,更好地利用語義,句法,知識等各方面的信息,推出了Enhanced language representation model(ERNIE),在許多知識驅(qū)動的任務(wù)上獲得了巨大提升,而且更適用于廣泛通用的NLP任務(wù)。

作者提出,要將知識嵌入到自然語言模型表達(dá)中去,有兩個關(guān)鍵的挑戰(zhàn):

知識的結(jié)構(gòu)化編碼

對于一個給定的文本,如何從知識圖譜中,高效地將和文本相關(guān)的常識或知識抽取出來并編碼是一個重要問題。

異構(gòu)信息融合

語言模型表示的形式和知識圖譜的表達(dá)形式是大不相同的,是兩個獨(dú)立的向量空間。怎么樣去設(shè)計一個獨(dú)特的訓(xùn)練任務(wù)來將,語義,句法,知識等信息融合起來是另一個挑戰(zhàn)。

針對這些挑戰(zhàn), 清華NLP實驗室提出方案是 Enhanced Language RepresentatioN with Informative Entities (ERNIE)

首先,通過識別文本中的命名實體,然后將其鏈指到知識圖譜中的相應(yīng)實體上,進(jìn)行知識的抽取和編碼。相比于直接使用知識圖譜中基于圖結(jié)構(gòu)的信息,作者通過TranE這樣的知識嵌入算法,對知識圖譜的圖結(jié)構(gòu)實體進(jìn)行編碼,然后將這富有信息的實體表示作為ERNIE的輸入,這樣就可以把知識模塊中的實體的信息表示,引入到模型下層的語義表示中去。

其次,和BERT類似,采用了MLM和NSP的預(yù)訓(xùn)練目標(biāo)。除此以外,為了更好地融合文本信息和知識信息,設(shè)計了一個新的預(yù)訓(xùn)練目標(biāo),通過隨機(jī)地mask一些命名實體,同時要求模型去知識圖譜中尋找合適的實體,來填充被mask掉的部分。這個訓(xùn)練目標(biāo)這樣做就可以要求語言模型,同時利用文本信息和知識圖譜來對token-entity進(jìn)行預(yù)測,從而成為一個富有知識的語言表達(dá)模型。

本文在兩個知識驅(qū)動的NLP任務(wù)entity typing 和 relation classification進(jìn)行了實驗,ENRIE在這兩個任務(wù)上的效果大幅超越BERT,因為其充分利用了語義,句法和知識信息。在其他的NLP任務(wù)上,ENRIE的效果也很不錯。

定義

首先,定義我們的文本token序列為{w1, 。 . 。 , wn},n為token序列的長度。同時,輸入的token可以在KG中對應(yīng)entity。所對應(yīng)entity的序列為{e1, 。 . 。 , em}, m是序列中entity的數(shù)量。因為不一定每一個token都對應(yīng)得到KG中的一個entity,所以在大多數(shù)情況下m不等于n。所有token的集合也就是字典為V,在KG中所有entity的列表為E。如果,某個在V中的token w ∈ V 在KG中有對應(yīng)的entity e ∈ E。那么這個對應(yīng)關(guān)系定義為f(w) = e

我們可以看下方的模型結(jié)構(gòu)圖,大概包括兩個模塊。

b13d376e-b4a6-11eb-bf61-12bb97331649.png

下層的文本編碼器(T-Encoder),負(fù)責(zé)捕捉基本的詞法和句法的信息,其與BERT的encoder實現(xiàn)是相同的,都是多層的Transformer,層數(shù)為N。

上方的知識編碼器(K-Encoder),負(fù)責(zé)將跟entity相關(guān)的知識信息融入到下方層傳來的文本編碼信息中,兩者可以在統(tǒng)一的特征空間中去表示。T-Encoder的輸出是{w1, 。 . 。 , wn},實體輸入通過TranE得到的知識嵌入為{e1, 。 . 。 , em}。兩者通過K-Encoder計算出對應(yīng)的特征以實現(xiàn)特定任務(wù)。

b1c9e830-b4a6-11eb-bf61-12bb97331649.png

K-Encoder的結(jié)構(gòu)和BERT略微不同,包含M個stacked aggregators。首先對token的輸出和entity的embedding通過兩個多頭自注意力進(jìn)行self attention。

b1f1848a-b4a6-11eb-bf61-12bb97331649.png

接著,通過以下的式子進(jìn)行兩者的結(jié)合。Wt和We分別是token和Embedding的attention權(quán)重矩陣。

b220d94c-b4a6-11eb-bf61-12bb97331649.png

Pre-training for Injecting Knowledge

除了結(jié)構(gòu)的改變以外,文章提出了特殊的預(yù)訓(xùn)練語言模型訓(xùn)練目標(biāo)。通過隨機(jī)地mask一些entity然后要求模型通過知識圖譜中實體來進(jìn)行選擇預(yù)測,起名為denoising entity auto-encoder(dEA)。由于知識圖譜中entity的數(shù)量規(guī)模相對softmax層太大了,會首先在KG中進(jìn)行篩選找到相關(guān)的entity。有時候token和entity可能沒有正確的對應(yīng),就需要采取一些措施。

5%的情況下,會將token對應(yīng)的entity替換成一個隨機(jī)的entity,這是讓模型能夠在align錯的時候,能夠糾正過來。

15%的情況下,會將entity mask掉,糾正沒有把所有存在的entity抽取出來和entity進(jìn)行對應(yīng)的問題。

其余的情況下,保持token-entity alignments 不變,來將entity的表示融合進(jìn)token的表示,以獲得更好的語言理解能力。

Fine-tuning for Specific Tasks

b264de94-b4a6-11eb-bf61-12bb97331649.png

對于大量普通的NLP任務(wù)來說,ERNIE可以采取和BERT相似的finetune策略,將[CLS]的輸出作為輸入文本序列的表示。對于一些知識驅(qū)動的任務(wù),我們設(shè)計了特殊的finetune流程。

對于關(guān)系分類任務(wù),任務(wù)要求模型根據(jù)上下文,對給定的entity對的關(guān)系進(jìn)行分類。本文設(shè)計了特殊的方法,通過加入兩種mark token來高亮實體。[HD] 表示head entity, [TL]表示tail entity。

對于實體類別分類任務(wù),finetune的方式是關(guān)系分類的簡化版,通過[ENT]標(biāo)示出entity的位置,指引模型同時結(jié)合上下文和實體的信息來進(jìn)行判斷。

模型細(xì)節(jié)

從頭開始訓(xùn)ENRIE的代價太大了,所以模型用了BERT的參數(shù)初始化。利用英文WIKI作為語料,和WiKidata進(jìn)行對應(yīng),語料中包含大約4500M個subwords,和140M個entities,將句中小于三個實體的樣本丟棄。通過TranE算法在WiKidata上訓(xùn)練entity的embedding。使用了部分WiKidata,其中包含5040986個實體和24267796個三元組。

模型尺度上來說,T-encoder的層數(shù)N為6,K-encoder層數(shù)M為6。隱藏層維度兩個網(wǎng)絡(luò)分別Hw = 768, He = 100。Attention的頭數(shù)分別 Aw = 12, Ae = 4。總參數(shù)量大約114M。

ERNIE僅在語料上訓(xùn)練了一輪,最大文本長度由于速度原因設(shè)為256,batch-size為512。除了學(xué)習(xí)率為5e-5,其他參數(shù)和BERT幾乎一樣。

實驗效果

直接放圖吧,比當(dāng)時的state-of-the-art :BERT在很多任務(wù)上都提升了不少。

b2cdb2de-b4a6-11eb-bf61-12bb97331649.png

b2fc8046-b4a6-11eb-bf61-12bb97331649.png

這里作者認(rèn)識到,有了知識圖譜的介入,可以用更少的數(shù)據(jù)達(dá)到更好的效果。

b396f4e6-b4a6-11eb-bf61-12bb97331649.png

結(jié)論

在文中提出了一種方法名為ERNIE,來將知識的信息融入到語言表達(dá)的模型中。具體地,提出了knowledgeable aggregator 和預(yù)訓(xùn)練任務(wù)dEA來更好地結(jié)合文本和知識圖譜兩個異構(gòu)的信息源。實驗表明,ENRIE能更好地在有限的數(shù)據(jù)上進(jìn)行訓(xùn)練和泛化。

未來還有幾個重要的方向值得研究

將知識嵌入到基于特征的預(yù)訓(xùn)練語言模型如ELMo。

引入更多不同的結(jié)構(gòu)化知識進(jìn)入到語言表達(dá)模型中去,比如ConceptNet,這和WiKidata是完全不同的方式。

進(jìn)行真實世界更廣泛的語料收集,可以進(jìn)行更通用和有效的預(yù)訓(xùn)練

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3791

    瀏覽量

    137861
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13648
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22593
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7989

原文標(biāo)題:ENRIE:知識圖譜與BERT相結(jié)合,為語言模型賦能助力

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    輕輕松松學(xué)電工(識圖篇)

    內(nèi)容介紹 結(jié)合廣大電工人員的實際需要,主要介紹了常用電工電路識圖的基礎(chǔ)知識、方法及技巧,內(nèi)容包括常用電氣符號、電工識圖基本方法,以及識讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動系統(tǒng)電氣圖、P
    發(fā)表于 04-30 17:18

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?3905次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    中科馭數(shù)DPU助力模型訓(xùn)練和推理

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大模型(如GPT、BERT等)在自然語言處理、計算機(jī)視覺等領(lǐng)域取得了顯著成果。然而,大模型的參數(shù)量和計算量極其龐大,傳統(tǒng)的硬件架構(gòu)或者單臺設(shè)備(如單個GPU
    的頭像 發(fā)表于 02-19 09:48 ?665次閱讀
    中科馭數(shù)DPU<b class='flag-5'>助力</b>大<b class='flag-5'>模型</b>訓(xùn)練和推理

    微軟發(fā)布《GraphRAG實踐應(yīng)用白皮書》助力開發(fā)者

    近日,微軟針對開發(fā)者群體,重磅推出了《GraphRAG實踐應(yīng)用白皮書》。該白皮書全面而深入地涵蓋了知識圖譜的核心內(nèi)容,為開發(fā)者和企業(yè)提供了寶貴的指導(dǎo)和啟示。 從知識圖譜的基礎(chǔ)概念出發(fā),白皮書詳細(xì)闡述
    的頭像 發(fā)表于 01-13 16:11 ?955次閱讀

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?382次閱讀

    利智方:驅(qū)動企業(yè)知識管理與AI創(chuàng)新加速的平臺

    利智方致力于深度整合企業(yè)知識資產(chǎn),全面打通知識生命周期的各個環(huán)節(jié)。通過構(gòu)建強(qiáng)大的知識庫和精準(zhǔn)的知識圖譜,支持快速定制和部署各類AI應(yīng)用,為企業(yè)創(chuàng)新發(fā)展提供堅實的技術(shù)支撐。可多維度提升企
    的頭像 發(fā)表于 12-30 11:07 ?923次閱讀

    傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”一等獎

    和華東師范大學(xué)聯(lián)合申報的“跨語言知識圖譜構(gòu)建與推理技術(shù)研究及應(yīng)用”項目憑借創(chuàng)新性和技術(shù)先進(jìn)性榮獲一等獎。該項目成功突破了多形態(tài)信息抽取技術(shù)、跨語言知識圖譜對齊技術(shù)和
    的頭像 發(fā)表于 12-16 17:04 ?641次閱讀
    傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”一等獎

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?671次閱讀

    三星自主研發(fā)知識圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術(shù),旨在進(jìn)一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1369次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大語言
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應(yīng)用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個讓我了解大語言
    發(fā)表于 07-21 13:35

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?761次閱讀

    語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?966次閱讀

    知識圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢和應(yīng)用場景,同時又相互補(bǔ)充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點、應(yīng)用及相互關(guān)系等方面深入探討知識圖譜與大
    的頭像 發(fā)表于 07-10 11:39 ?2046次閱讀
    主站蜘蛛池模板: 久久在草 | 美女被免费网站视频在线 | 天天天天色 | 五月月色开心婷婷久久合 | 爱爱小说视频永久免费网站 | 色综合久久久久久久久五月性色 | 在线国产资源 | 午夜日韩精品 | 天堂a免费视频在线观看 | 一级片免费视频 | 亚洲图片 欧美色图 | 天天射天天射天天干 | 免费毛片软件 | 小屁孩和大人啪啪 | 国产国语videosex另类 | 免费观看一区二区 | 91色在线观看| 视频在线观看一区 | 9久久99久久久精品齐齐综合色圆 | 免费网站你懂得 | 俄罗斯美女69xxxxxx | 日本丰满毛茸茸熟妇 | 婷婷久久综合 | 一级一片一a一片 | 久操视频在线观看免费 | 久久久久久久久久免观看 | 黄色毛片免费网站 | 四虎永久在线精品国产 | 美女被免费网站视频九色 | 亚洲欧美视频一区二区 | 操你啦网站 | 月夜免费观看完整视频 | 手机在线看片你懂得 | 中文字幕第一页在线 | a级午夜毛片免费一区二区 a看片 | 啪啪免费小视频 | 五月婷婷激情综合网 | 亚洲一卡2卡3卡4卡5卡乱码 | 俺也来俺也去俺也射 | 色噜噜久久| 日日操夜夜操免费视频 |