寫在前面
最近剛開始調(diào)研實(shí)體消歧方面的相關(guān)工作,這里先開一個(gè)頭吧。希望大家可以通過這篇簡要的文章對實(shí)體消歧任務(wù)本身有一個(gè)基本的認(rèn)識。
1. 背景:詞義消歧與實(shí)體消歧
1.1 詞義消歧
自然語言文本中存在著大量的多義詞,而多義詞的存在也會影響人對文本的語義理解,讓人對文本的意思產(chǎn)生混淆。
詞義消岐(Word Sense Disambiguation,簡稱WSD) 是NLP中一個(gè)非常基本的任務(wù),旨在確定多義詞在具體語境中的確切意義。
在詞義消歧中,同一詞語的不同義項(xiàng)會作為候選詞。我們需要在所有候選詞中找到與文本中目標(biāo)詞語最接近的那個(gè)義項(xiàng)。這里“義項(xiàng)”指的是詞是詞典中的某個(gè)具體表示。
如上圖所示,「蘋果」在百度百科中共有25個(gè)義項(xiàng),單說「蘋果」我們可能并不知道說的是「蘋果公司」還是「水果里的蘋果」。但結(jié)合具體的上下文語境,我們就可以很好地對「蘋果」消歧,從而明確「蘋果」的具體含義:
1.2 實(shí)體消歧
實(shí)體鏈指/實(shí)體鏈接(Entity Linking,簡稱 EL) 在知識圖譜構(gòu)建、信息檢索和問答系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。
實(shí)體鏈指的主要目標(biāo)是識別上下文中的實(shí)體指稱具體指代現(xiàn)實(shí)世界中的哪一個(gè)實(shí)體,也就是將實(shí)體指稱項(xiàng)映射到知識庫中的相應(yīng)實(shí)體上去。
具體而言,實(shí)體鏈指一般包括實(shí)體識別、候選實(shí)體獲取、實(shí)體消歧這三個(gè)主要環(huán)節(jié)。之所以需要實(shí)體消歧,而不是直接將實(shí)體識別的結(jié)果放入知識圖譜的原因主要有兩方面:
多樣性(即多詞同義):同一實(shí)體在文本中會有不同的指稱。比如:甜瓜、安東尼、和瓜哥都指美國職業(yè)籃球運(yùn)動員卡梅隆·凱恩·安東尼。
歧義性(即一詞多義):相同的實(shí)體指稱在不同的上下文中可以指不同的實(shí)體。比如:邁克爾·喬丹可能指美國籃球運(yùn)動員,也可能指愛爾蘭政治家等。
1.3 總結(jié)
從以上說明來看,其實(shí)詞義消歧與實(shí)體消歧具有一定相似性, 二者的目的都是處理文本中詞匯歧義的問題. 主要區(qū)別在于:
在詞義消歧中的詞義通常是固定的, 可根據(jù)目標(biāo)詞在詞典中的義項(xiàng)來列舉;
在實(shí)體消歧中, 實(shí)體詞義無法列舉,所以需要前序步驟候選實(shí)體獲取;
此外,實(shí)體詞的詞義數(shù)目大于普通詞,這個(gè)主要還是跟知識庫的量級相關(guān)。
2. 相關(guān)論文
這里我們主要給大家推薦兩篇近期發(fā)表的論文:
詞義消歧:《ESC: Redesigning WSD with Extractive Sense Comprehension》
實(shí)體消歧:《ExtEnD: Extractive Entity Disambiguation》
兩篇論文的模型都非常簡單,個(gè)人覺得關(guān)鍵或者說亮點(diǎn)主要在于他們對問題的轉(zhuǎn)換。其實(shí),從這兩篇論文的名字就能看出端倪:都是將消歧問題轉(zhuǎn)換成了抽取式問題。
2.1 EXTENE 實(shí)體消歧
論文名稱:《ExtEnD: Extractive Entity Disambiguation》
論文鏈接:https://aclanthology.org/2022.acl-long.177.pdf
代碼地址:https://github.com/SapienzaNLP/extend.
如上圖所示,EXTEND將實(shí)體消歧任務(wù)轉(zhuǎn)換為了抽取式任務(wù),或者說MRC類任務(wù)。具體地:
將含有目標(biāo)實(shí)體指稱項(xiàng)的文本當(dāng)作Query;
將知識庫中對應(yīng)的所有候選實(shí)體及其描述當(dāng)作Context;
二者拼接然后預(yù)測Answer的Span(startend prediction,start-end matching),這里的Answer就是在知識庫中目標(biāo)實(shí)體指稱實(shí)際關(guān)聯(lián)的實(shí)體。
好了,這就是EXTEND論文的核心思想。是不是感覺模型已經(jīng)躍然紙上了,整體上應(yīng)該和我們之前在 一文詳解關(guān)系抽取模型 CasRel、實(shí)體識別LEAR論文閱讀筆記、 實(shí)體識別BERT-MRC論文閱讀筆記中介紹過的模型類似。
2.2 ESC 詞義消歧
論文名稱:《ESC: Redesigning WSD with Extractive Sense Comprehension》
論文鏈接:https://aclanthology.org/2021.naacl-main.371.pdf
代碼地址:https://github.com/SapienzaNLP/esc
ESC的模型架構(gòu)和EXTEND是相似的。整體上首先將輸入的上下文和目標(biāo)詞的所有義項(xiàng)拼接,模型的輸出則是目標(biāo)詞真正義項(xiàng)的起始和終止位置。
2.3 總結(jié)
論文的具體細(xì)節(jié)就不在本文里贅述了,大家可根據(jù)鏈接下載原文閱讀。此外,兩篇論文都公布了源碼,大家也可以快速利用源碼在一些開源數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。
當(dāng)然也有一些相關(guān)比賽,比如百度:實(shí)體鏈指[1]目前就還在進(jìn)行中:
我目前看到的幾個(gè)還是比較一致的做法,打分排序:
比如實(shí)體鏈指比賽方案分享[2]:
CCKS&百度 2019中文短文本的實(shí)體鏈指 第一名解決方案[3]:
大家可以將論文的模型適配到中文場景下,然后嘗試在這個(gè)比賽的實(shí)體消歧環(huán)節(jié)使用,看看效果如何。
還是一樣,如果本文對你有幫助的話,歡迎點(diǎn)贊&在看&分享,這對我繼續(xù)分享&創(chuàng)作優(yōu)質(zhì)文章非常重要。感謝!
參考資料
[1]
百度:實(shí)體鏈指: https://aistudio.baidu.com/aistudio/competition/detail/83/0/introduction
[2]
實(shí)體鏈指比賽方案分享: https://aistudio.baidu.com/aistudio/projectdetail/1331020?channelType=0&channel=0
[3]
CCKS&百度 2019中文短文本的實(shí)體鏈指 第一名解決方案: https://github.com/panchunguang/ccks_baidu_entity_link
審核編輯 :李倩
-
文本
+關(guān)注
關(guān)注
0文章
119瀏覽量
17307 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22403
原文標(biāo)題:一文簡要了解詞義消歧與實(shí)體消歧
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
消諧裝置的作用

微機(jī)消諧器與一次消諧器區(qū)別與聯(lián)系

評論