前言
關系抽取是自然語言處理中一個比較基礎的任務,除了關系抽取之外還有類似的任務如:屬性抽取等。這些任務也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預測predicate。
聯合抽取方式,一個模型同時將subject,predicate和object抽取出來。
「現實的場景中還存在重疊關系情況,那么針對這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯的并解決嵌套的實體的三元組(文中介紹的是關系抽取)抽取模型。下面我們來看看這篇論文介紹的內容。
背景
早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關系抽取的環節中,如下圖中的Normal情況。
現有的聯合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關系三元組。如下圖中的EPO和SEO。
前言
關系抽取是自然語言處理中一個比較基礎的任務,除了關系抽取之外還有類似的任務如:屬性抽取等。這些任務也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預測predicate。
聯合抽取方式,一個模型同時將subject,predicate和object抽取出來。
「現實的場景中還存在重疊關系情況,那么針對這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯的并解決嵌套的實體的三元組(文中介紹的是關系抽取)抽取模型。下面我們來看看這篇論文介紹的內容。
背景
早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關系抽取的環節中,如下圖中的Normal情況。
現有的聯合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關系三元組。如下圖中的EPO和SEO。
EPO(Entity Pair Overlap)實體對的重疊,換句話說一個實體對包含多種關系,文中的例子就是一個人同時擔任一部電影中的導演和演員的角色。
SEO(Single Entity Overlap)單個實體的重疊,就是有多個關系共享一個實體。
在2020年,預訓練模型大行其道的時期下,文中也是結合了Bert模型完成文本的特征抽取工作。文中的模型在當時也達到了sota水平,下面我們看看模型的具體內容。
模型結構
關系三元組提取的目標是識別句子中所有可能的三元組(主語、關系、賓語),其中一些三元組可能與主語或賓語共享相同的實體。數學表達如下:
具體如下:
BERT Encoder
在編碼器模塊中,使用預訓練Bert模型提取語句的特征為,作為接下來的tagging模塊的輸入。
Cascade Decoder
該模塊主要分為兩個部分,首先從輸入的語句中監測出subjects,即Subject Tagger。接著對候選的subject,檢查其可能的所有關系類型,即Relation-Specific Object Taggers。
Subject Tagger
在這個模塊中主要去識別輸入語句中可能存在的subjects。每一個token會輸出兩個結果:start和end,通過為每個token分配一個二進制標記(0/1)來分別檢測subject的開始和結束位置,該標記指示當前標記是否對應于subject的開始或結束位置。subject標記器對每個token的詳細操作如下:
其中:
總結
實驗效果如下圖:
審核編輯:劉清
-
編碼器
+關注
關注
45文章
3669瀏覽量
135257 -
SEO
+關注
關注
0文章
50瀏覽量
9963
原文標題:一種基于聯合方式的三元組抽取模型——CasRel
文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
乙烯裝置三元制冷技術
回收電芯組,回收庫存電芯組,回收聚合物電芯組,回收鋰電芯組,回收動力電芯組,三元電芯組回收
根據mac地址創建五元組的步驟
一種基于策略元素三元組的策略描述語言
一種基于結構的本體分解方法
基于句法語義依存分析的金融事件抽取
![基于句法語義依存分析的金融事件<b class='flag-5'>抽取</b>](https://file.elecfans.com/web1/M00/E7/01/pIYBAGBa2riAbxLgAAFT5Uwgpdo473.png)
一種改進的膠囊網絡知識圖譜補全方法
![<b class='flag-5'>一種</b>改進的膠囊網絡知識圖譜補全方法](https://file.elecfans.com/web1/M00/E7/F6/pIYBAGBi0VWAJI7uAAFwUGphRJ0081.png)
融合實體信息的類別增強知識圖譜表示學習模型
![融合<b class='flag-5'>實體</b>信息的類別增強知識圖譜表示學習<b class='flag-5'>模型</b>](https://file.elecfans.com/web1/M00/ED/31/pIYBAGCHy22AVL2uAAGyAFngxR4373.png)
評論