論文專欄:KDD2020知識(shí)圖譜相關(guān)論文分享
論文解讀者:北郵 GAMMA Lab 博士生 閆博
題目:魯棒的跨語(yǔ)言知識(shí)圖譜實(shí)體對(duì)齊
會(huì)議:KDD 2020
論文地址:https://dl.acm.org/doi/pdf/10.1145/3394486.3403268
代碼地址:https://github.com/scpei/REA
推薦理由:這篇論文首次提出了跨語(yǔ)言實(shí)體對(duì)齊中的噪音問題,并提出了一種基于迭代訓(xùn)練的除噪算法,從而進(jìn)行魯棒的跨語(yǔ)言知識(shí)圖譜實(shí)體對(duì)齊。本工作對(duì)后續(xù)跨語(yǔ)言實(shí)體對(duì)齊的去噪研究具有重要的開創(chuàng)性意義。
跨語(yǔ)言實(shí)體對(duì)齊旨在將不同知識(shí)圖譜中語(yǔ)義相似的實(shí)體進(jìn)行關(guān)聯(lián),它是知識(shí)融合和知識(shí)圖譜連接必不可少的研究問題,現(xiàn)有方法只在有干凈標(biāo)簽數(shù)據(jù)的前提下,采用有監(jiān)督或半監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行了研究。但是,來(lái)自人類注釋的標(biāo)簽通常包含錯(cuò)誤,這可能在很大程度上影響對(duì)齊的效果。因此,本文旨在探索魯棒的實(shí)體對(duì)齊問題,提出的REA模型由兩個(gè)部分組成:噪聲檢測(cè)和基于噪聲感知的實(shí)體對(duì)齊。噪聲檢測(cè)是根據(jù)對(duì)抗訓(xùn)練原理設(shè)計(jì)的,基于噪聲感知的實(shí)體對(duì)齊利用圖神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)圖譜進(jìn)行建模。兩個(gè)部分迭代進(jìn)行訓(xùn)練,從而讓模型去利用干凈的實(shí)體對(duì)來(lái)進(jìn)行節(jié)點(diǎn)的表示學(xué)習(xí)。在現(xiàn)實(shí)世界的幾個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了提出的方法的有效性,并且在涉及噪聲的情況下,此模型始終優(yōu)于最新方法,并且在準(zhǔn)確度方面有顯著提高。
1 引言
現(xiàn)有方法在進(jìn)行跨語(yǔ)言實(shí)體對(duì)齊時(shí)沒有考慮噪音問題,而這些噪音可能會(huì)損害模型的效果。如圖1所示,(a)中的兩個(gè)不同語(yǔ)言的知識(shí)圖譜存在實(shí)體對(duì)噪音(虛線表示的實(shí)體對(duì)1-4),(b)是理想狀況下節(jié)點(diǎn)在特征空間中的表示,可以看出不同語(yǔ)言知識(shí)圖譜中具有相似語(yǔ)義的實(shí)體在特征空間中也相近。(c)是利用含有噪音的訓(xùn)練數(shù)據(jù)得到的節(jié)點(diǎn)特征表示,由于噪音的存在,節(jié)點(diǎn)的表示存在了一定的偏差。我們希望跨語(yǔ)言實(shí)體對(duì)齊是魯棒性的,即使訓(xùn)練數(shù)據(jù)中存在噪音,模型也能盡量減少噪音的消極影響,得到如圖(b)中的表示。為了克服現(xiàn)有的跨語(yǔ)言實(shí)體對(duì)齊方法在處理帶噪標(biāo)簽實(shí)體對(duì)時(shí)存在的局限性,本文探討了如何將噪聲檢測(cè)與實(shí)體對(duì)齊模型結(jié)合起來(lái),以及如何共同訓(xùn)練它們以對(duì)齊不同語(yǔ)言知識(shí)圖譜中的實(shí)體。
圖1噪音對(duì)跨語(yǔ)言實(shí)體對(duì)齊模型效果的影響示意圖
問題定義
噪音檢測(cè)和魯棒性圖表示學(xué)習(xí):在一個(gè)存在噪音的場(chǎng)景下,代表所有的用于訓(xùn)練的實(shí)體對(duì)(可能包含噪音),代表中確定的干凈的實(shí)體對(duì),代表不確定是否含有噪音的實(shí)體對(duì)。魯棒性的跨語(yǔ)言實(shí)體對(duì)齊模型利用給定的和,去對(duì)齊知識(shí)圖譜中的剩余實(shí)體,并且能自動(dòng)發(fā)現(xiàn)中的噪音實(shí)體對(duì)。
這個(gè)問題是不平凡的,主要存在兩方面的挑戰(zhàn):(1)沒有明顯的噪音知識(shí)加以利用,即我們不知道訓(xùn)練數(shù)據(jù)中哪些是噪音數(shù)據(jù),所以傳統(tǒng)的監(jiān)督學(xué)習(xí)方法無(wú)法使用,提出的模型需要以一種無(wú)監(jiān)督的方式自動(dòng)檢測(cè)出訓(xùn)練數(shù)據(jù)中的噪音實(shí)體對(duì)。(2)提出一個(gè)統(tǒng)一的模型。此模型要既能檢測(cè)出訓(xùn)練數(shù)據(jù)中的噪音,還能進(jìn)行有效的跨語(yǔ)言實(shí)體對(duì)齊。
2 方法
魯棒性的跨語(yǔ)言實(shí)體對(duì)齊模型(REA)包括兩個(gè)部分。一是基于噪音感知的實(shí)體對(duì)齊模型,這一部分主要是利用圖神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)不同語(yǔ)言的兩個(gè)知識(shí)圖譜進(jìn)行統(tǒng)一建模,學(xué)習(xí)節(jié)點(diǎn)的表示,訓(xùn)練時(shí)只使用。二是噪音檢測(cè)模塊,作者采用了基于對(duì)抗訓(xùn)練的方式,利用生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)檢測(cè)噪音。噪音實(shí)體對(duì)生成器接受干凈實(shí)體對(duì)輸入,然后進(jìn)行采樣生成噪音實(shí)體對(duì);噪音判別器以干凈實(shí)體對(duì)和噪音實(shí)體對(duì)為輸入,訓(xùn)練一個(gè)能判別噪音的模型,同時(shí)對(duì)輸入的實(shí)體對(duì)產(chǎn)生一個(gè)信任分?jǐn)?shù),將信任分?jǐn)?shù)大于閾值的實(shí)體對(duì)加入,用于實(shí)體對(duì)齊模塊節(jié)點(diǎn)的表示學(xué)習(xí)。上述兩個(gè)模塊迭代進(jìn)行訓(xùn)練,直到收斂。下面詳細(xì)介紹這兩個(gè)模塊。
圖2REA模型示意圖
2.1 基于噪音感知的實(shí)體對(duì)齊模型
這一部分主要是對(duì)知識(shí)圖譜節(jié)點(diǎn)的表示學(xué)習(xí)。對(duì)于知識(shí)圖譜中任意的三元組,定義從傳到的信息為:
具體為:
其中和是節(jié)點(diǎn)一階鄰居的個(gè)數(shù)。最終經(jīng)過(guò)圖的信息傳播后節(jié)點(diǎn)的表示為:
損失函數(shù)采用基于間隔的排序損失(margin-based ranking objective):
這里代表信任分?jǐn)?shù),又噪音檢測(cè)模塊輸出,即當(dāng)實(shí)體對(duì)的信任分?jǐn)?shù)超過(guò)閾值時(shí),此實(shí)體對(duì)才被認(rèn)為是正確的,才會(huì)被加入訓(xùn)練集。代表margin loss,是一個(gè)超參數(shù)。是一個(gè)衡量實(shí)體對(duì)相似性的函數(shù),由能量函數(shù)定義:
負(fù)樣本對(duì)由隨機(jī)替換頭或尾實(shí)體得到。
2.2 噪音檢測(cè)模塊
噪音檢測(cè)模塊分為噪音對(duì)生成器和噪音對(duì)判別器,由生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)。與傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)不同的一點(diǎn)是,噪音對(duì)生成器不是由模型訓(xùn)練產(chǎn)生噪音對(duì),而是由采樣生成。噪音對(duì)生成器利用實(shí)體對(duì)齊模塊生成的真實(shí)實(shí)體對(duì)表示作為輸入,然后通過(guò)替換掉頭或尾實(shí)體采樣得到噪音實(shí)體對(duì)。噪音實(shí)體對(duì)的采樣概率如下式所示:
其中是一個(gè)簡(jiǎn)單的兩層神經(jīng)網(wǎng)絡(luò),衡量了兩個(gè)實(shí)體的語(yǔ)義相似性,兩個(gè)實(shí)體越相似,越不容易被采樣到,這是自然的,因?yàn)樯善鞅緛?lái)就是用來(lái)生成噪音的。為了減少采樣空間過(guò)大帶來(lái)的計(jì)算量代價(jià),采樣只在負(fù)樣本空間的一個(gè)子空間進(jìn)行:
此外,由于采樣過(guò)程是無(wú)法利用傳統(tǒng)的基于梯度下降方法求參數(shù),所以本文采用了基于強(qiáng)化學(xué)習(xí)的參數(shù)求解算法,具體來(lái)說(shuō):
對(duì)所有負(fù)樣本的梯度求解近似為對(duì)k個(gè)采樣的負(fù)樣本的梯度求解,可以看作當(dāng)前的狀態(tài),可以看作策略,看作是動(dòng)作,代表獎(jiǎng)勵(lì)。
噪音判別器以實(shí)體對(duì)作為輸入,輸出實(shí)體對(duì)為真實(shí)實(shí)體對(duì)的概率:
越大,實(shí)體對(duì)越有可能為真實(shí)實(shí)體對(duì),定義實(shí)體對(duì)的信任得分為:
信任得分為1的實(shí)體對(duì)將返回給實(shí)體對(duì)齊模型,繼續(xù)訓(xùn)練。
2.3 算法流程
REA模型采用的是一個(gè)迭代的算法,在每次迭代中,算法依次進(jìn)行三部分的參數(shù)訓(xùn)練。首先是利用干凈的實(shí)體對(duì)進(jìn)行節(jié)點(diǎn)的表示學(xué)習(xí)(4-7);然后對(duì)噪音實(shí)體對(duì)判別器進(jìn)行訓(xùn)練(8-12);最后對(duì)噪音實(shí)體對(duì)生成器進(jìn)行訓(xùn)練(13-17)。一次迭代完成后,更新中實(shí)體對(duì)的信任得分,將信任得分等于1的實(shí)體對(duì)加入。具體算法如下所示。
3 實(shí)驗(yàn)
作者在兩個(gè)數(shù)據(jù)集DBP15K和DWY100K包含的5個(gè)跨語(yǔ)言知識(shí)圖譜上進(jìn)行了實(shí)驗(yàn)。采用Hits@1,Hits@5,MRR做為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如下圖所示,其中REA-KE是去掉噪音檢測(cè)模塊得到的結(jié)果。
本模型中,噪音實(shí)體對(duì)判別器的檢測(cè)能力至關(guān)重要,所以作者也測(cè)試了噪音判別器對(duì)噪音數(shù)據(jù)的檢測(cè)能力。如下所示,噪音數(shù)據(jù)的比例為20%和40%時(shí),判別器都有一個(gè)較好的檢測(cè)噪音的效果。但是由于知識(shí)圖譜的不完整性,仍有大量真實(shí)實(shí)體對(duì)被檢測(cè)為噪音。
當(dāng)干凈的實(shí)體對(duì)數(shù)據(jù)()增加的時(shí)候,模型效果也會(huì)變好;而當(dāng)噪音數(shù)據(jù)增加的時(shí)候,模型效果就會(huì)降低。而REA在有噪音的情況下表現(xiàn)是最好的。這也說(shuō)明了噪音對(duì)跨語(yǔ)言實(shí)體對(duì)齊有很大的影響,REA能有效地處理噪音問題。如圖3和圖4所示。
圖3干凈實(shí)體對(duì)的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響
圖4噪音實(shí)體對(duì)的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響
最后,作者還測(cè)試了不同類型的噪音對(duì)實(shí)驗(yàn)結(jié)果的影響。噪音的不同類型由它們采樣時(shí)離真實(shí)實(shí)體的距離所定。圖5分別測(cè)試了噪音實(shí)體離真實(shí)實(shí)體距離為10,50,100和全局的情形下模型的效果。
圖5噪音類型對(duì)實(shí)驗(yàn)結(jié)果的影響
從圖5可以看出,噪音離真實(shí)實(shí)體越遠(yuǎn),即與真實(shí)實(shí)體的語(yǔ)義差別越大時(shí),模型效果降低越多。當(dāng)距離大于50后,模型效果幾乎不再變化,這也說(shuō)明了離真實(shí)實(shí)體大于一定距離時(shí),噪音對(duì)模型的負(fù)面效果趨于穩(wěn)定。而當(dāng)噪音實(shí)體離真實(shí)數(shù)據(jù)越近,模型效果越好,這是顯而易見的,因?yàn)檫@樣越接近干凈的標(biāo)注數(shù)據(jù)。在所有的4種情況下,REA均取得了最好的效果。
4 總結(jié)
在標(biāo)注跨語(yǔ)言實(shí)體對(duì)齊語(yǔ)料過(guò)程中不可避免地會(huì)引入噪音。現(xiàn)有方法沒有考慮噪音問題,損害了實(shí)體對(duì)齊的效果。針對(duì)這一問題,本文提出了魯棒性的跨語(yǔ)言實(shí)體對(duì)齊模型REA。REA通過(guò)一種迭代訓(xùn)練的方式,在每一輪訓(xùn)練過(guò)程中,通過(guò)圖神經(jīng)網(wǎng)絡(luò)建模知識(shí)圖譜中的實(shí)體對(duì),得到噪聲感知的實(shí)體對(duì)齊模塊,然乎利用生成對(duì)抗網(wǎng)絡(luò)來(lái)生成噪音實(shí)體對(duì)并訓(xùn)練一個(gè)噪音判別器,噪音判別器識(shí)別出干凈的實(shí)體對(duì)加入訓(xùn)練集繼續(xù)訓(xùn)練。大量的實(shí)驗(yàn)證明了REA在魯棒性跨語(yǔ)言實(shí)體對(duì)齊任務(wù)上的有效性。
責(zé)任編輯:xj
原文標(biāo)題:【KDD20】魯棒的跨語(yǔ)言知識(shí)圖譜實(shí)體對(duì)齊
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
289瀏覽量
13382 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7725
原文標(biāo)題:【KDD20】魯棒的跨語(yǔ)言知識(shí)圖譜實(shí)體對(duì)齊
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
微軟發(fā)布《GraphRAG實(shí)踐應(yīng)用白皮書》助力開發(fā)者
利智方:驅(qū)動(dòng)企業(yè)知識(shí)管理與AI創(chuàng)新加速的平臺(tái)
傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)
![傳音旗下人工智能項(xiàng)目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)](https://file1.elecfans.com/web3/M00/02/7C/wKgZPGdf7RiATKcgAADsawnA0Vk773.png)
傳音旗下小語(yǔ)種AI技術(shù)榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)
![傳音旗下小語(yǔ)種AI技術(shù)榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項(xiàng)目獎(jiǎng)”一等獎(jiǎng)](https://file1.elecfans.com/web3/M00/02/79/wKgZPGdf44iAPJw6AAASw9lXfv4193.jpg)
接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展相關(guān)知識(shí)點(diǎn)
![接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展<b class='flag-5'>相關(guān)</b><b class='flag-5'>知識(shí)</b>點(diǎn)](https://file1.elecfans.com/web1/M00/F5/18/wKgZoWc2qDuACbyVAAAX95Ea1vY915.png)
58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜
![58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈<b class='flag-5'>圖譜</b>](https://file1.elecfans.com/web2/M00/0C/1E/wKgaomcuxqyAHONcAAAwGmMIwIM723.png)
三星自主研發(fā)知識(shí)圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全
連接器相關(guān)基礎(chǔ)知識(shí)大講解
三星電子成功收購(gòu)英國(guó)初創(chuàng)公司,致力開發(fā)AI核心技術(shù)
三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)
知識(shí)圖譜與大模型之間的關(guān)系
Al大模型機(jī)器人
利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)
![利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)](https://file1.elecfans.com/web2/M00/C1/82/wKgaomXW5lKAOabBAABJ6cOiGSI637.png)
利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(上)
![利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(上)](https://file1.elecfans.com/web2/M00/C0/94/wKgZomXW5bCACL4xAABJ6cOiGSI827.png)
評(píng)論