寫在前面
今天給大家?guī)硪黄录槿?shù)據(jù)增強(qiáng)方法,全名為《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一種靈活有效的事件抽取數(shù)據(jù)增強(qiáng)框架-Mask-then-Fill。
介紹
事件抽取,即從非機(jī)構(gòu)化文本中抽取指定的事件的觸發(fā)詞及其事件要素,為了減輕人工標(biāo)注,常采用數(shù)據(jù)增強(qiáng)方法,對原有數(shù)據(jù)進(jìn)行擴(kuò)充,在有限的數(shù)據(jù)內(nèi),盡可能提高模型的效果及泛化性。目前,自然語言處理的數(shù)據(jù)增強(qiáng)方法主要分為兩類:(1)修改原有訓(xùn)練數(shù)據(jù)樣本;(2)生成+采樣。而事件抽取任務(wù)需要在保持事件結(jié)構(gòu)(觸發(fā)器和參數(shù))不變的情況下增加訓(xùn)練數(shù)據(jù),因此“生成+采樣”的方法并不適用,本論文主要采用“修改原有訓(xùn)練數(shù)據(jù)樣本”方法進(jìn)行數(shù)據(jù)增強(qiáng)。
如圖1所示,現(xiàn)有對事件抽取進(jìn)行數(shù)據(jù)增強(qiáng)的方法主要包括:(1)回譯;(2)同義詞替換;(3)BERT換詞。但,同義詞替換和回譯方法缺乏語義多樣性,只能生成語義相似的樣本;而基于BERT的方法只能替換單詞,不能改變語法,不能生成包含各種表達(dá)式的樣本。
為了解決數(shù)據(jù)增強(qiáng)多樣性的問題,該論文提出了“掩碼-填充”方法,在保持原事件結(jié)構(gòu)不變的情況下生成更多樣化的數(shù)據(jù)。首先定義兩種類型文本片段:(1)事件相關(guān)片段(觸發(fā)詞和事件要素);(2)附加片段。然后隨機(jī)掩碼一個附件片段,最后采用微調(diào)后的T5模型進(jìn)行文本填充。
并且引入親和度(Affinity)和多樣性(Diversity)兩個指標(biāo)進(jìn)行進(jìn)一步研究,發(fā)現(xiàn)Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布變化,在多樣性和分布相似性之間實現(xiàn)了良好的平衡。
Mask-then-Fill Framework
掩碼-填充框架如圖2所示,文本主要包括事件相關(guān)片段(帶顏色內(nèi)容)和附加片段(帶下劃線內(nèi)容),框架的核心是在不引入新的事件前提下,重寫整個附屬片段。
Experimental Setup
采用ACE2005數(shù)據(jù)集上進(jìn)行對比實驗,從訓(xùn)練集中隨機(jī)抽取1000、4000和8000個樣本來模擬低資源設(shè)置,創(chuàng)建小型、中型和大型訓(xùn)練集。并在數(shù)據(jù)增強(qiáng)時,僅對訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),開發(fā)集和測試集保持不變。
在Text2Event模型和Text2Event模型兩個具有代表性的事件抽取模型上進(jìn)行實驗,并對比與同義詞替換、回譯、BERT模型三種數(shù)據(jù)增強(qiáng)方法之間的差異。
Results and Analysis
如表1所示,整體上Mask-then-Fill方法最優(yōu)。
從表2可以看出,我Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布偏移,在多樣性和分布相似性之間取得了平衡。
圖3展示了由不同的數(shù)據(jù)增強(qiáng)方法生成的示例。
總結(jié)
該框架的主要優(yōu)點在于可以將文本中任意長度的片段替換為可變長度的片段,而現(xiàn)有的方法只能替換單個單詞或固定長度的片段。
審核編輯:劉清
-
J-BERT
+關(guān)注
關(guān)注
0文章
5瀏覽量
7827 -
觸發(fā)器
+關(guān)注
關(guān)注
14文章
2029瀏覽量
61751 -
ACE
+關(guān)注
關(guān)注
0文章
21瀏覽量
10792 -
Fill
+關(guān)注
關(guān)注
0文章
4瀏覽量
2987
原文標(biāo)題:事件抽取數(shù)據(jù)增強(qiáng)方法-Mask-then-Fill
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
CIC抽取濾波器MATLAB仿真和FPGA實現(xiàn)
怎樣去設(shè)計一種CIC抽取濾波器并對其進(jìn)行MATLAB仿真呢
如何去實現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計呢
怎樣去建立一種IIC數(shù)據(jù)采集USART串口通信框架呢
一種新的Ad Hoc網(wǎng)絡(luò)QoS框架
一種基于復(fù)用組件的WEB測控軟件框架設(shè)計
一種基于XML的可復(fù)用Web圖表框架
有限狀態(tài)機(jī)的一種實現(xiàn)框架
一種新的DSA圖像增強(qiáng)算法

一種單獨適配于NER的數(shù)據(jù)增強(qiáng)方法
一種基于框架特征的共指消解方法

一種用于交通流預(yù)測的深度學(xué)習(xí)框架

評論