在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種單獨適配于NER的數據增強方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者: JayLou婁杰 ? 2021-01-18 16:28 ? 次閱讀

本文首先介紹傳統的數據增強在NER任務中的表現,然后介紹一種單獨適配于NER的數據增強方法,這種方法生成的數據更具豐富性、數據質量更高。

0

前言

在NLP中有哪些數據增強技術?這一定是當今NLP面試中的必考題了吧。在《標注樣本少怎么辦?》(鏈接:https://zhuanlan.zhihu.com/p/146777068)一文中也詳細總結過這個問題。 但是,目前來看:大多數「數據增強」方法通常被用于文本分類、文本匹配等任務中,這類任務有一個共性:是“句子級別”(sentence level)的分類任務,大多數關于「文本增強」的研究也都針對這個任務。 在2020年5月的時候,JayJay突然在想:NER如何進行數據增強?有什么奇思妙想可以用上?于是我陷入沉思中......

NER做數據增強,和別的任務有啥不一樣呢?很明顯,NER是一個token-level的分類任務,在進行全局結構化預測時,一些增強方式產生的數據噪音可能會讓NER模型變得敏感脆弱,導致指標下降、最終奔潰。 在實踐中,我們也可以把常用的數據增強方法遷移到NER中,比如,我們通常采用的「同類型實體」隨機替換等。但這類方法通常需要獲得額外資源(實體詞典、平行語料等),如果沒有知識庫信息,NER又該如何做數據增強呢?有沒有一種單獨為NER適配的數據增強方法呢? 本文JayJay主要介紹在最近頂會中、對NER進行數據增強的2篇paper:

COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

COLING20主要是將傳統的數據增強方法應用于NER中、并進行全面分析與對比。 EMNLP20主要是提出了一種適配于NER的數據增強方法——語言模型生成方法:1)這種方式不依賴于外部資源,比如實體詞典、平行語料等;2)可同時應用于有監督、半監督場景。 具體效果如何,我們來一探究竟吧~本文的組織結構為:

bce652b2-58b2-11eb-8b86-12bb97331649.png

1

傳統的數據增強方法遷移到NER,效果如何?

bd986998-58b2-11eb-8b86-12bb97331649.png

在COLING20的paper中,作者借鑒sentence-level的傳統數據增強方法,將其應用于NER中,共有4種方式(如上圖所示):

Label-wise token replacement (LwTR):即同標簽token替換,對于每一token通過二項分布來選擇是否被替換;如果被替換,則從訓練集中選擇相同的token進行替換。

Synonym replacement (SR):即同義詞替換,利用WordNet查詢同義詞,然后根據二項分布隨機替換。如果替換的同義詞大于1個token,那就依次延展BIO標簽

Mention replacement (MR):即實體提及替換,與同義詞方法類似,利用訓練集中的相同實體類型進行替換,如果替換的mention大于1個token,那就依次延展BIO標簽,如上圖:「headache」替換為「neuropathic pain syndrome」,依次延展BIO標簽。

Shuffle within segments (SiS):按照mention來切分句子,然后再對每個切分后的片段進行shuffle。如上圖,共分為5個片段: [She did not complain of], [headache], [or], [any other neurological symptoms], [.]. 。也是通過二項分布判斷是否被shuffle(mention片段不會被shuffle),如果shuffle,則打亂片段中的token順序。

論文也設置了不同的資源條件:

Small(S):包含50個訓練樣本;

Medium (M):包含150個訓練樣本;

Large (L):包含500個訓練樣本;

Full (F):包含全量訓練集;

be1fd5fe-58b2-11eb-8b86-12bb97331649.png

由上圖可以看出:

各種數據增強方法都超過不使用任何增強時的baseline效果。

對于RNN網絡,實體提及替換優于其他方法;對于Transformer網絡,同義詞替換最優。

總體上看,所有增強方法一起使用(ALL)會由于單獨的增強方法。

低資源條件下,數據增強效果增益更加明顯;

充分數據條件下,數據增強可能會帶來噪聲,甚至導致指標下降;

2

DAGA:單獨適配于NER的數據增強方法

EMNLP這篇NER數據增強論文DAGA來自阿里達摩院,其主要是通過語言模型生成來進行增強,其整體思路也非常簡單清晰。

be993f7a-58b2-11eb-8b86-12bb97331649.png

DAGA的核心思路也十分清晰,就是標簽線性化:即將原始的「序列標注標簽」與「句子token」進行混合,也就是變成「Tag-Word」的形式,如上圖所示:將「B-PER」放置在「Jose」之前,將「E-PER」放置在「Valentin」之前;對于標簽「O」則不與句子混合。標簽線性化后就可以生成一個句子了,基于這個句子就可以進行「語言模型生成」訓練啦~是不是超級簡單?!

bf17e67c-58b2-11eb-8b86-12bb97331649.png

DAGA 網絡(如上圖)僅僅通過一層LSTM進行自回歸的語言模型訓練,網絡很輕,沒有基于BERT做。 DAGA的一大優點就是不需要額外資源,比如同義詞替換就需要一個WordNet。但是論文也考慮到了使用外部資源時的情況,比如:1)有大量無標注語料時;2)有外部知識庫時;

bfe5bd54-58b2-11eb-8b86-12bb97331649.png

對于不同的3種資源條件下,具體的訓練語料構建如上圖所示:

對于標注語料,用[labeled]在句首作為條件標記;

對于無標注語料,用[unlabeled]在句首作為條件標記;

對于知識庫,對無標注語料進行詞典匹配后(正向最大匹配),用[KB]在句首作為條件標記;

只要輸入[BOS]+[labeled]/[unlabeled]/[KB],即可通過上述語言模型、自回歸生成新的增強數據啦~ 下面我們分別對上述3種資源條件下的生成方法進行驗證:2.1 只使用標注語料進行語言生成共采用4種實驗設置:

gold:通過標注語料進行NER訓練

gen:即DAGA,1)通過標注語料進行語言模型訓練、生成新的數據:2) 過采樣標注語料; 3)新數據+過采樣標注語料,最后一同訓練NER;

rd:1)通過隨機刪除進行數據增強; 2)過采樣標注語料;3)新數據+過采樣標注語料,最后一同訓練NER;

rd*:同rd,只是不過采樣標注語料。

c05f590c-58b2-11eb-8b86-12bb97331649.png

具體結果由上圖展示(設置了6種不同語言數據、不同的原始標注數據量進行對比),可以看出:DAGA方式(gen)明顯超過其他數據增強方法,特別是在低資源條件下(1k和2k數據量)。2.2 使用無標注語料進行語言生成共采用3種實驗設置:

gold:通過標注語料進行NER訓練;

wt:即弱監督方法,采用標注語料訓練好一個NER模型,然后通過NER模型對無標注語料偽標生成新數據,然后再重新訓練一個NER模型;

gen-ud:通過標注和無標注語料共同進行語言模型訓練、生成新數據,然后再訓練NER模型;

c0f47884-58b2-11eb-8b86-12bb97331649.png

由上圖的紅框進行對比,可以看出:DAGA方法在所有設置下、均超過了弱監督數據方法。其實弱監督方法生成的數據質量較低、噪聲較大,而DAGA可以有效改善這一情況。 可以預見的是:當有大量無標注語料時,DAGA進行的NER數據增強,將有效提升NER指標。2.3 使用無標注語料+知識庫進行語言生成同樣也是采用3種實驗設置:

gold:通過標注語料進行NER訓練;

kb:從全量訓練集中積累實體詞典(實體要在訓練集上中至少出現2次),然后用實體詞典匹配標注無標注語料、生成新數據,最后再訓練NER模型;

gen-kb:與kb類似,將kb生成的新數據訓練語言模型,語言模型生成數據后、再訓練NER模型;

c173a168-58b2-11eb-8b86-12bb97331649.png

如上圖紅框所示,總體上DAGA超過了kb方式,低資源條件(1k)下,kb方式還是強于DAGA。

3

DAGA為何如此有效?

c1c9bd64-58b2-11eb-8b86-12bb97331649.png

DAGA更具多樣性:

如上圖所示,在原始的訓練集中「Sandrine」只會和「Testud」構成一個實體span,而DAGA生成的數據中,「Sandrine」會和更豐富的token構成一個實體。

此外,DAGA會生成更豐富的實體上下文,論文以相同實體mention的1-gram作為評估指標進行了統計。如下圖所示,桔色代表DAGA生成的實體上下文,比原始的訓練集會有更豐富的上下文。

c2120e2a-58b2-11eb-8b86-12bb97331649.png

DAGA可以有效利用無標注語料:DAGA通過無標注語料來生成有用的數據,新數據中會出現那些未在標注語料中出現的新實體。

4

總結

本文就「NER如何進行數據增強」進行了介紹:

雖然傳統的數據增強方法也可用于NER中,不過,JayJay認為:傳統的數據增強方法應用到NER任務時,需要外部資源,且數據增強的豐富性不足、噪音可能較大。

基于語言生成的DAGA方法是NER數據增強的一種新興方式,再不利用外部資源時會有較好的豐富性、數據質量較好。

責任編輯:xj

原文標題:打開你的腦洞:NER如何進行數據增強 ?

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7246

    瀏覽量

    91166
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14042
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22513

原文標題:打開你的腦洞:NER如何進行數據增強 ?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一種永磁電機用轉子組件制作方法

    一種永磁電機所使用的轉子組件,是由磁鋼與芯軸組裝而成,產品工作轉速80 000 r /mi n,磁鋼相對于芯軸的同軸度要小于O.015 mm。現有的裝配方法是:先在芯軸兩端面制作中心孔,然后直接
    發表于 03-25 15:20

    解決電源適配器的干擾問題,用以下方法解決!

    電源適配器在使用過程中有時候可能會受到外界因素的干擾,那么我們應該如何解決這種干擾呢?對電源適配器產生的對外干擾,如電源線諧波電流、電源線傳導干擾、電磁場輻射干擾等,只能用減小干擾的方法
    發表于 01-17 10:16

    三大方法解決開關電源適配器絕緣掩護!

    ,比較常見的絕緣掩護技術有以下三是加強絕緣技術,二是附加絕緣技術,三是基礎絕緣。什么情況下會使用絕緣掩護技術呢?般開關電源適配器在工作過程中,偶爾會出現電路內涌突然比風險電壓高
    發表于 01-10 10:37

    一種降低VIO/VSLAM系統漂移的新方法

    本文提出了一種方法,通過使用點到平面匹配將VIO/VSLAM系統生成的稀疏3D點云與數字孿生體進行對齊,從而實現精確且全球致的定位,無需視覺數據關聯。所提
    的頭像 發表于 12-13 11:18 ?618次閱讀
    <b class='flag-5'>一種</b>降低VIO/VSLAM系統漂移的新<b class='flag-5'>方法</b>

    一種混合顏料光譜分區間識別方法

    古代彩繪顏料的分析是科技考古與文物保護研究的重要內容,高光譜是近年來發展迅速的新興技術,在物質識別上具有廣泛應用,提出一種基于高光譜分區間的混合顏料識別方法。 一種混合顏料光譜分區間識別方法
    的頭像 發表于 12-02 16:22 ?385次閱讀
    <b class='flag-5'>一種</b>混合顏料光譜分區間識別<b class='flag-5'>方法</b>

    一種面向飛行試驗的數據融合框架

    天地氣動數據一致性,針對某外形飛行試驗數據開展了典型對象的天地氣動數據融合方法研究。結合數據挖掘的隨機森林
    的頭像 發表于 11-27 11:34 ?745次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗的<b class='flag-5'>數據</b>融合框架

    一種提升無人機小物體跟蹤精度的方法

    這篇文章提出了一種新穎的目標跟蹤方法SFTrack,針對無人機(UAV)視頻中的獨特挑戰,采用了三簡單有效的策略,尤其是在處理低置信度檢測、小規模物體和無人機運動方面表現出色。通過在
    的頭像 發表于 11-01 10:23 ?797次閱讀
    <b class='flag-5'>一種</b>提升無人機小物體跟蹤精度的<b class='flag-5'>方法</b>

    一種創新的動態軌跡預測方法

    本文提出了一種動態軌跡預測方法,通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測注意力模塊,以編碼連續預測之間的動態關系,并通過三重因子注意力模塊實現了最先進的性能。本方法能夠生成準確且穩定的未來軌跡,這
    的頭像 發表于 10-28 14:34 ?960次閱讀
    <b class='flag-5'>一種</b>創新的動態軌跡預測<b class='flag-5'>方法</b>

    一種基于光強度相關反饋的波前整形方法

    基于反饋的波前整形通過散射介質聚焦光是一種成熟的方法。在傳統的基于反饋的波前整形中,入射光被分成N個輸入模式,這些模式由空間光調制器(SLM)使用N個段進行調制,每個段具有相同數量和大小的像素
    的頭像 發表于 10-27 16:28 ?633次閱讀
    <b class='flag-5'>一種</b>基于光強度相關反饋的波前整形<b class='flag-5'>方法</b>

    一種利用CSD16327Q3實現企業固態硬盤鉭電容短路保護的方法

    電子發燒友網站提供《一種利用CSD16327Q3實現企業固態硬盤鉭電容短路保護的方法.pdf》資料免費下載
    發表于 10-25 10:22 ?0次下載
    <b class='flag-5'>一種</b>利用CSD16327Q3實現企業固態硬盤鉭電容短路保護的<b class='flag-5'>方法</b>

    一種簡單高效配置FPGA的方法

    本文描述了一種簡單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設備。這種方法減少了硬件組件、板空間和成本。
    的頭像 發表于 10-24 14:57 ?1452次閱讀
    <b class='flag-5'>一種</b>簡單高效配置FPGA的<b class='flag-5'>方法</b>

    BitEnergy AI公司開發出一種新AI處理方法

    BitEnergy AI公司,家專注人工智能(AI)推理技術的企業,其工程師團隊創新性地開發了一種名為線性復雜度乘法(L-Mul)的AI處理方法。該
    的頭像 發表于 10-22 15:15 ?754次閱讀

    一種利用wireshark對遠程服務器/路由器網絡抓包方法

    一種利用wireshark對遠程服務器/路由器網絡抓包方法
    的頭像 發表于 09-21 08:03 ?4597次閱讀
    <b class='flag-5'>一種</b>利用wireshark對遠程服務器/路由器網絡抓包<b class='flag-5'>方法</b>

    一種無透鏡成像的新方法

    透鏡成像形式,它使用掃描光束收集散射光進行圖像重建,面臨著周期性樣品的挑戰。為了研究微電子或光子元件中的納米級圖案,一種基于無透鏡成像的新方法可以實現近乎完美的高分辨率顯微鏡。這在波長短紫外線時尤為重要,其成像空間分辨率高于
    的頭像 發表于 07-19 06:20 ?704次閱讀
    <b class='flag-5'>一種</b>無透鏡成像的新<b class='flag-5'>方法</b>

    rup是一種什么模型

    RUP(Rational Unified Process,統建模語言)是一種軟件開發過程模型,它是一種迭代和增量的軟件開發方法。RUP是由Rational Software公司(現為
    的頭像 發表于 07-09 10:13 ?2406次閱讀
    主站蜘蛛池模板: 成人免费视频一区 | 免费精品美女久久久久久久久 | 日本一级黄色毛片 | 99 久久99久久精品免观看 | 天堂男人网 | 麻豆三级视频 | 欧美无遮挡国产欧美另类 | 免费看黄视频的网站 | 亚洲第一福利网站 | 日韩1| 天天干天天操天天爽 | 五月天色网址 | 色中文字幕在线 | 久久青草91线频免费观看 | 国产乱子伦一区二区三区 | www.亚洲欧美 | 在线观看黄的网站 | 2021久久天天躁狠狠躁夜夜 | 欧美色网络 | 精品欧美 | 国产成人乱码一区二区三区 | 色综合中文字幕 | 狠狠操影院 | 最新在线网址 | 狠狠色丁香久久婷婷 | 加勒比一到三区 | 一本到中文字幕高清不卡在线 | 国模娜娜扒开嫩木耳 | 久久亚洲欧美成人精品 | 老头天天吃我奶躁我的动图 | 日本aaaa毛片在线看 | 一区卡二区卡三区卡视频 | 1300部小u女视频免费 | 久久9精品 | 久久精品午夜视频 | www.婷婷.com| 尤物蜜芽福利国产污在线观看 | 天天透天天操 | 91精品久久国产青草 | 美女网色| 国产亚洲欧美成人久久片 |