91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜與訓練模型相結合和命名實體識別的研究工作

深度學習自然語言處理 ? 來源:復旦DISC ? 作者:朱 琦 ? 2021-03-29 17:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本次將分享ICLR2021中的三篇投遞文章,涉及知識圖譜與訓練模型相結合和命名實體識別(NER)的研究工作。

文章概覽

知識圖譜和語言理解的聯合預訓練(JAKET: Joint Pre-training of Knowledge Graph and Language Understanding)。該論文提出了知識圖譜和文本的聯合訓練框架,通過將RoBERTa作為語言模型將上下文編碼信息傳遞給知識圖譜,同時借助圖注意力模型將知識圖譜的結構化信息反饋給語言模型,從而實現知識圖譜模型和語言模型的循環交替訓練,使得在知識圖譜指導下的預訓練模型能夠快速適應新領域知識。

語言模型是開放知識圖譜(Language Models are Open Knowledge Graphs)。該論文提出了能夠自動化構建知識圖譜的Match and Map(MAMA)模型,借助預先訓練好的語言模型中的注意力權重來提取語料中的實體間關系,并基于已有的schema框架自動化構建開放性知識圖譜。

命名實體識別中未標記實體問題的研究(Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition)。論文探究了未標注實體問題對NER實驗指標的影響,并提出了一種負采樣策略,通過改進損失函數,將為標注實體當作負樣本訓練,從而極大改善了未標注實體問題對NER實驗指標的影響。

論文細節

1

論文動機

現有的將知識圖譜與預訓練模型相結合的研究工作還存在挑戰:當預先訓練好的模型與新領域中的知識圖譜結合微調時,語言模型難以高效學習到結構化的實體關系語義信息。同時知識圖譜的理解推理能力也需要上下文的輔助。基于此,論文提出了一個聯合預訓練框架:JAKET,通過同時對知識圖譜和語言建模,實現兩個模型之間的信息互補和交替訓練。方法1. 知識模塊(Knowledge Module,KM)知識模塊主要是對知識圖譜進行建模,生成含有結構化信息的實體表示。采用圖注意力模型和組合算子思想來聚合實體嵌入和關系嵌入信息。在第L層的實體V的嵌入信息傳播公式為:

3bf5710c-8e8f-11eb-8b86-12bb97331649.png

考慮到計算過程中可能會出現的實體數爆炸問題,實驗采用了設置minibatch領域采樣的方法獲取多跳鄰居集合。2. 語言模塊(Language Module,LM)語言模塊主要是對文本建模,學習文本的嵌入表示。采用RoBERT-base作為預訓練模型。3.解決循環依賴問題(Solve the syclic dependency)由于LM和KM是互相傳遞信息的,訓練過程存在循環依賴問題,不便于后續計算優化。論文提出了分解語言模型解決此問題,即將LM分解為LM1和LM2子模塊,將RoBERT的前6層和后6層分別作為LM1和LM2,實現LM1,KM和LM2的聯合訓練。整體框架如下圖所示。

3c6790e8-8e8f-11eb-8b86-12bb97331649.png

實驗結果論文在實體類別預測、關系類別預測、詞塊掩碼預測、實體掩碼預測4個任務上進行預訓練,并在小樣本關系分類、KGQA和實體分類這3個下游任務上進行實驗。實驗結果分別如下圖所示:

3ccab038-8e8f-11eb-8b86-12bb97331649.png

3d660b5a-8e8f-11eb-8b86-12bb97331649.png

由實驗結果可知,在3個任務中論文提出的JAKET都可以進一步提高性能,并且聯合預訓練可以有效減少模型對下游訓練數據的依賴。

2

3dd9f9c0-8e8f-11eb-8b86-12bb97331649.png

論文動機

知識圖譜的構建方法通常需要人工輔助參與,但是人力成本太高;

同時BERT等預訓練模型通常在非常大規模的語料上訓練,訓練好的模型本身包含常識知識,這些知識可以促進上層的其他應用。

所以本論文提出了一種無監督的Match and Map(MAMA)模型,來將預訓練語言模型中包含的知識轉換為知識圖譜。

方法

1. 匹配(Match)

3e6ba8c0-8e8f-11eb-8b86-12bb97331649.png

Match階段主要是自動抽取三元組。對于輸入的文本,使用開源工具抽取出實體,并將實體兩兩配對為頭實體和尾實體,利用預訓練模型的注意力權重來提取實體對的關系。通過beam search的方法搜索多條從頭實體到尾實體的路徑,從而獲取多個候選的三元組。再通過設置一些限制規則過濾掉不符常理的三元組,即得到用于構建知識圖譜的三元組。

2. 映射(Map)

Map階段主要是將Match階段抽取到的三元組映射到知識圖譜中去。利用成熟的實體鏈接和關系映射技術,將三元組映射到已有的固定schema圖譜中。對于部分映射或完全不匹配的三元組,就構建開放schema的知識圖譜,并最后將這兩類知識圖譜融合,得到一個靈活的開放性知識圖譜。

整體框架如下:

3fadc286-8e8f-11eb-8b86-12bb97331649.png

論文中使用BERT-large對Wikipedia語料進行自動化構建知識圖譜,圖譜效果如下:

4008e7b0-8e8f-11eb-8b86-12bb97331649.png

實驗結果

論文在TAC KBP和Wikidata數據集上進行槽填充任務實驗。

在TAC KBP數據集上的結果如下表:

40ab57c0-8e8f-11eb-8b86-12bb97331649.png

基于TAC KBP數據集的實驗結果主要有兩點:一是MAMA模型能夠提升知識圖譜的槽填充效果;二是更大/更深的語言模型能夠抽取出更高質量的知識圖譜。

在Wikidata數據集上的結果如下表:

413cd6fa-8e8f-11eb-8b86-12bb97331649.png

基于Wikidata數據集的實驗結論一方面說明MAMA可擴展到更大的語料庫,另一方面說明MAMA能從更大規模的語料庫中抽取出更完整的知識圖譜。

3

41a55734-8e8f-11eb-8b86-12bb97331649.png

論文動機

實體未標注問題是命名實體識別(NER)任務中的常見問題,且該問題在實際情況中無法完全避免。既然無法徹底解決實體未標注問題,那么該問題是否會對NER模型產生影響呢?若產生較大影響,如何將這種消極影響盡量降低?

基于上述問題,論文分析了未標注實體問題對NER實驗指標的影響及其原因,并提出了一種具有魯棒性的負采樣策略,使得模型能夠保持在未標注實體概率極低的狀態下訓練,從而提升實體標注效果。

方法

1.合成數據集(Synthetic Datasets)

通過在標注完善的CoNLL-2003和OntoNotes5.0數據集按照一定概率隨機掩蓋標注出的實體,獲取人工合成的欠完善標注數據集。

2.衡量指標(Metrics)

文章中設計了侵蝕率(erosion rate)和誤導率(misguidance rate)2種指標來測算NER中未標注實體問題的影響。

侵蝕率代表實體標注量減少對NER指標下降的影響程度。

誤導率代表未標注實體對當作負樣本時對NER指標下降的影響程度。

3.負采樣(Negative Sampling)

文章采用負采樣的方式進行降噪,對所有的非實體進行負采樣,采樣負樣本進行損失函數的計算。改進后的損失函數如下所示:

41f444ca-8e8f-11eb-8b86-12bb97331649.png

其中前半部分表示標注實體集合的損失,后半部分則是負采樣實體集合的損失。文章的整體模型框架如下圖所示,總體就是BERT/LSTM編碼+softmax的思路。

427335d2-8e8f-11eb-8b86-12bb97331649.png

實驗結果

文章在合成數據集上進行NER任務實驗,分析未標注問題的影響和負采樣的訓練效果。

首先是分別基于CoNLL-2003和OntoNotes5.0合成數據集進行的實驗結果:

42ec9c38-8e8f-11eb-8b86-12bb97331649.png

4371e92e-8e8f-11eb-8b86-12bb97331649.png

由圖可知:隨著實體掩蓋概率p增大,即未標注實體數量增多,NER指標下降明顯;在p很低的時候,誤導率就較高了,而侵蝕率受影響較小,說明把未標注實體當作負樣本訓練、對NER指標下降的影響程度很大,實體標注量減少對指標下降的影響較小

其次將文章提出的負采樣訓練模型與其他SOTA模型分別在完全標注數據集和真實數據集上做對比,實驗結果如下:

44481878-8e8f-11eb-8b86-12bb97331649.png

結果表明本模型在完全標注數據集上的效果和其他模型相差不大,并且真實世界數據集上的效果遠優于其他的模型,所以本文模型的綜合效果最好。

總結

此次解讀的三篇論文圍繞知識建模和信息抽取的研究點展開。感覺知識圖譜結合語言模型的相關研究的趨勢是嘗試使用同一套編碼系統,同時對語言模型中的上下文信息和知識圖譜中的結構化語義信息進行編碼和訓練,從而實現知識融合或知識挖掘。此外,第三篇文章主要想給廣大做知識圖譜方向的研究者分享一個命名實體識別的技巧思路,當面對標注質量不那么高的數據集時,或許可以嘗試一下負采樣的方法。

以上就是Fudan DISC本期的論文分享內容,歡迎大家的批評和交流。

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3531

    瀏覽量

    50564
  • 深度學習
    +關注

    關注

    73

    文章

    5564

    瀏覽量

    122923

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    訓練模型后用cls_video.py在canmvIDE上運行,按著步驟操作但是攝像頭沒有識別到是什么情況?

    訓練模型后用cls_video.py在canmvIDE上運行,按著步驟操作但是攝像頭沒有識別到是什么情況啊,沒有框出現
    發表于 06-10 06:57

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入式AI模型模型升級AI攝像機,進行AI識別應用。 AI訓練
    發表于 04-28 11:11

    請問如何能讓模型的效果更好?

    重現步驟 我用yolov8n訓練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發板上,無論是穩定性還是框的大小以及識別的準確性都比較差,再試了幾次
    發表于 03-11 07:21

    小白學大模型訓練大語言模型的深度指南

    在當今人工智能飛速發展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學家們為了深入了解如何高效地訓練大型語言
    的頭像 發表于 03-03 11:51 ?777次閱讀
    小白學大<b class='flag-5'>模型</b>:<b class='flag-5'>訓練</b>大語言<b class='flag-5'>模型</b>的深度指南

    GPU是如何訓練AI大模型

    在AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓練AI大
    的頭像 發表于 12-19 17:54 ?788次閱讀

    AI模型部署邊緣設備的奇妙之旅:如何實現手寫數字識別

    學習。 過程: 教師模型訓練:先訓練出一個高性能但可能過于龐大的教師模型。 學生模型訓練:使用教
    發表于 12-06 17:20

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應用開發與優化

    與編造、錯誤的復雜推理或者在復雜語境下處理能力不足等。其主要原因來自于: (1)訓練知識存在偏差:老師教錯了,學生自然對不了。 在訓練模型時輸入的海量
    發表于 12-04 10:50

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    本文通俗簡單地介紹了什么是大模型、大模型是怎么訓練出來的和大模型的作用。 ? 什么是大模型模型
    的頭像 發表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    ASR與傳統語音識別的區別

    識別技術。 構建更深更復雜的神經網絡模型,利用大量數據進行訓練。 提高了語音識別的準確率和穩定性。 傳統語音識別 : 通常依賴于聲學-語言
    的頭像 發表于 11-18 15:22 ?1433次閱讀

    從零開始訓練一個大語言模型需要投資多少錢?

    關于訓練技巧和模型評估的文章,但很少有直接告訴你如何估算訓練時間和成本的。前面分享了一些關于大模型/本地知識庫的安裝部署方法,無需編寫代碼,
    的頭像 發表于 11-08 14:15 ?816次閱讀
    從零開始<b class='flag-5'>訓練</b>一個大語言<b class='flag-5'>模型</b>需要投資多少錢?

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM模型的一般步驟,以及一些關
    的頭像 發表于 11-08 09:30 ?1592次閱讀

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進一步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?1411次閱讀

    AI大模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取數據以供自然語言處理模型訓練
    的頭像 發表于 10-23 15:32 ?3835次閱讀

    如何訓練自己的AI大模型

    訓練AI大模型之前,需要明確自己的具體需求,比如是進行自然語言處理、圖像識別、推薦系統還是其他任務。 二、數據收集與預處理 數據收集 根據任務需求,收集并準備好足夠的數據集。 可以選擇公開數據集、自有數據集或者通過數據標
    的頭像 發表于 10-23 15:07 ?5150次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的信息,提供更全面的上下文理解。這使得模型能夠更準確地理解復雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓練學習到語言的語義特征,能夠識別文本中的
    發表于 08-02 11:03
    主站蜘蛛池模板: 亚洲深爱 | 成年免费大片黄在线观看免费 | 亚洲综合日韩欧美一区二区三 | 天堂最新版在线地址 | 全免费a级毛片免费看不卡 全日本爽视频在线 | 亚洲伊人成人网 | 男男全肉高h腐文 | 成人欧美一区二区三区小说 | 国产高清视频在线免费观看 | 性a爱片免费视频性 | 天天爱天天做色综合 | a网在线| 欧美性白人极品1819hd | 五月六月伊人狠狠丁香网 | 在线视频毛片 | 亚洲人成77777在线观看网 | 天堂免费在线视频 | 欧美不卡1卡2卡三卡老狼 | 最新四虎4hu影库地址在线 | 婷婷激情小说 | 亚洲 欧美 丝袜 制服 在线 | 五月综合激情久久婷婷 | 国产美女特级嫩嫩嫩bbb | 四虎影院最新 | 午夜香港三级在线观看网 | 天天射狠狠干 | 伊人网大 | 在线亚洲小视频 | 18videosex欧美69| 久久久久久青草大香综合精品 | 狠狠色噜噜狠狠狠狠888奇米 | 天天搞夜夜 | 欧美三级成人 | 一级毛片不收费 | 天天综合天天干 | 美女视频永久黄网站在线观看 | 精品免费久久久久久成人影院 | 人与禽交免费网站视频 | 亚洲人成网站999久久久综合 | 国模龙园园私拍337p | 国产毛片毛片精品天天看 |