在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于少數鏡頭命名實體識別的分解元學習

深度學習自然語言處理 ? 來源:PaperWeekly ? 作者:回亭風 ? 2022-07-05 14:08 ? 次閱讀

論文標題:

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

論文鏈接:

https://arxiv.org/abs/2204.05751

代碼鏈接:

https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER

Abstract

少樣本 NER 的系統目的在于通過很少的標注樣本來識別新的命名實體類。本文提出了一個分解的元學習方法來解決小樣本 NER,通過將原問題分解為小樣本跨度預測和小樣本實體分類兩個過程。具體來說,我們將跨度預測當作序列標注問題并且使用 MAML 算法訓練跨度預測器來找到更好的模型初始化參數并且使模型能夠快速適配新實體。對于實體分類,我們提出 MAML-ProtoNet,一個 MAML 增強的原型網絡,能夠找到好的嵌入空間來更好的分辨不同實體類的跨度。在多個 benchmark 上的實驗表明,我們的方法取得了比之前的方法更好的效果。

Intro

NER 目的在于定位和識別文本跨度中的預定義實體類諸如 location、organization。在標準的監督學習 NER 中深度學習的架構取得了很大的成功。然而,在實際應用中,NER 的模型通常需要迅速適配一些新的未見過的實體類,且通常標注大量的新樣本開銷很大。因此,小樣本 NER 近年來得到了廣泛的研究。 之前關于小樣本 NER 的研究都是基于 token 級的度量學習,將每個查詢 token 和原型進行度量上的比較,然后為每個 token 分配標簽。最近的很多研究都轉為跨度級的度量學習,能夠繞過 token 對標簽的以來并且明確利用短語的表征。 然而這些方法在遇到較大領域偏差時可能沒那么有效,因為他們直接使用學習的度量而沒有對目標域進行適配。換句話說,這些方法沒有完全挖掘支持集數據的信息。現在的方法還存在以下限制: 1. 解碼過程需要對重疊的跨度仔細處理; 2. 非實體類型“O”通常時噪聲,因為這些詞之間幾乎沒有共同點。 此外,當針對一個不同的領域時,唯一可用的信息僅僅是很少的支持樣本,不幸的是,這些樣本在之前的方法中僅僅被應用在推理階段計算相似度的過程中。 為了解決這些局限性,本文提出了一種分解的元學習方法,將原問題分解為跨度預測和實體分類兩個過程。具體來講: 1. 對于小樣本跨度預測來說,我們將其看作序列標注問題來解決重疊跨度的問題。這個過程目的在于定位命名實體并且是與類別無關的。然后我們僅僅對被標注出的跨度進行實體分類,這樣也可以消除“O”類噪聲的影響。當訓練跨度檢測模塊時,我們采用的 MAML 算法來找到好的模型初始化參數,在使用少量目標域支持集樣本更新后,能夠快速適配新實體類。在模型更新時,特定領域的跨度邊界信息能夠被模型有效的利用,使模型能夠更好的遷移到目標領域; 2. 對于實體分類,采用了 MAML-ProtoNet 來縮小源域和目標域的差距。 我們在一些 benchmark 上進行了實驗,實驗表明我們提出的框架比之前的 SOTA 模型表現更好,我們還進行了定性和定量的分析,不同的元學習策略對于模型表現的影響。

Method

本文遵循傳統的 N-way-K-shot 的小樣本設置,示例如下表(2-way-1-shot):

e74d80fa-fc23-11ec-ba43-dac502259ad0.png

下圖為模型的總體結構:

e7728026-fc23-11ec-ba43-dac502259ad0.png

2.1 Entity Span Detection

跨度檢測階段不需要分類具體的實體類,因此模型的參數可以在不同的領域之間共享。基于此,我們采用 MAML 來促進領域不變的內部表征學習而不是針對特定領域特征的學習。這種方式訓練的元學習模型對于目標域的樣本更加敏感,因此只需要少量樣本進行微調就能取得很好的效果而不會過擬合。 2.1.1 Basic Detector 基檢測器是一個標準的序列標注任務,采用 BIOES 的標注策略,對于一個句子序列 {xi},使用一個編碼器得到其上下文表征 h,然后通過 softmax 生成概率分布。

e7a4b1b8-fc23-11ec-ba43-dac502259ad0.png

▲ fθ:編碼器

e7b0ed20-fc23-11ec-ba43-dac502259ad0.png

▲概率分布 模型的訓練誤差在交叉熵損失基礎上添加了最大值項來緩解對于損失較高的 token 學習不足的問題:

e7cdece0-fc23-11ec-ba43-dac502259ad0.png

▲交叉熵損失 推理階段采用了維特比解碼,這里我們沒有訓練轉移矩陣,簡單的添加了一些限制保證預測的標簽不違反 BIOES 的標注規則。 2.1.2 Meta-Learning Procedure 元訓練過程具體來說,首先隨機采樣一組訓練 episode:

e7f7b96c-fc23-11ec-ba43-dac502259ad0.png

使用支持集進行 inner-update 過程:

e81b8cac-fc23-11ec-ba43-dac502259ad0.png

其中 Un 代表 n 步梯度更新,損失采用上文所述的損失函數。然后使用更新后的參數 Θ' 在查詢集上進行評估,將一個 batch 內的所有 episode 的損失求和,訓練目標是最小化該損失:

e835bca8-fc23-11ec-ba43-dac502259ad0.png

用上述損失來更新模型的原參數 Θ,這里使用一階導數來近似計算:

e8430d90-fc23-11ec-ba43-dac502259ad0.png

MAML 數學推導參考:MAML

https://zhuanlan.zhihu.com/p/181709693

在推理階段先使用基模型中提到的交叉熵損失在支持集上微調,然后在查詢集上使用微調后的模型進行測試。

2.2 Entity Typing

實體分類模塊采用原型網絡作為基礎模型,使用 MAML 算法對模型進行增強,使模型得到一個更具代表性的嵌入空間來更好的區分不同的實體類。 2.2.1 Basic Model 這里使用了另一個編碼器來對輸入 token 進行編碼,然后使用跨度檢測模塊輸出的跨度 x[i,j],將跨度中所有的 token 表征取平均來代表此跨度的表征:

e862bbd6-fc23-11ec-ba43-dac502259ad0.png

e87639f4-fc23-11ec-ba43-dac502259ad0.png

遵循原型網絡的設置,使用支持集中屬于同一實體類的跨度的求和平均作為類原型的表示:

e88f60be-fc23-11ec-ba43-dac502259ad0.png

模型的訓練過程先采用支持集計算每個類原型的表示,然后對于查詢集中的每個跨度,通過計算其到某一類原型的距離來計算其屬于該類的概率:

e8bd2454-fc23-11ec-ba43-dac502259ad0.png

模型的訓練目標是一個交叉熵損失:

e8d8e84c-fc23-11ec-ba43-dac502259ad0.png

推理階段就是簡單的計算與哪一類原型距離最近即可:

e8f043f2-fc23-11ec-ba43-dac502259ad0.png

2.2.2 MAML Enhanced ProtoNet 這一過程的設置與跨度檢測中應用的 MAML 一致,同樣是使用 MAML 算法來找到一個更好的初始化參數,詳細過程參考上文:

e8fcffca-fc23-11ec-ba43-dac502259ad0.png

e91e00bc-fc23-11ec-ba43-dac502259ad0.png

推理階段也與上文一致,這里不詳細說明了。

實驗

3.1 數據集和設置

本文采用 Few-NERD,一個專門為 few-shot NER 推出的數據集以及 cross-dataset,四種不同領域的數據集的整合。對于 Few-NERD 使用 P、R、micro-F1 作為評價指標,cross-dataset 采用 P、R、F1 作為評價指標。文中兩個編碼器采用兩個獨立的 BERT,優化器使用 AdamW。

3.2 主實驗

e93e4f0c-fc23-11ec-ba43-dac502259ad0.png

▲ Few-NERD

e9657b2c-fc23-11ec-ba43-dac502259ad0.png

▲Cross-Dataset

3.3 消融實驗

e97dc34e-fc23-11ec-ba43-dac502259ad0.png

3.4 分析

對于跨度檢測,作者用一個全監督的跨度檢測器進行實驗:

e99005d6-fc23-11ec-ba43-dac502259ad0.png

作者分析,未精調的模型預測的 Broadway 對于新實體類來說是一個錯誤的預測(Broadway 出現在了訓練數據中),然后通過對該模型采用新實體類樣本進行精調,可以看出模型能夠預測出正確的跨度,但是 Broadway 這一跨度仍然被預測了。這表明傳統的精調雖然可以使模型獲取一定的新類信息,但是其還是存在很大偏差。 然后作者對比了 MAML 增強的模型和未使用 MAML 模型的 F1 指標:

e99f2ae8-fc23-11ec-ba43-dac502259ad0.png

MAML 算法可以更好的利用支持集的數據,找到一個更好的初始化參數,使模型能夠快速適配到新域中。 然后作者分析了 MAML 如何提升原型網絡,首先是指標上 MAML 增強的原型網絡會有一定的提升:

e9c0b488-fc23-11ec-ba43-dac502259ad0.png

接著作者進行了可視化分析:

e9e0a00e-fc23-11ec-ba43-dac502259ad0.png

從上圖可以看出,MAML 增強的原型網絡能夠更好的區分各個類原型。

Conclusion

本文提出了一個兩階段的模型,跨度檢測和實體分類來進行小樣本 NER 任務,兩個階段的模型均使用元學習 MAML 的方法來進行增強,獲取了更好的初始化參數,能夠使模型通過少量樣本快速適配到新域中。本文也算是一篇啟發性的文章,在指標上可以看出,元學習的方法對小樣本 NER 任務有著巨大的提升。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3392

    瀏覽量

    49351
  • 深度學習
    +關注

    關注

    73

    文章

    5522

    瀏覽量

    121695

原文標題:ACL2022 | 分解的元學習小樣本命名實體識別

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ADS1274識別的信號可以小于噪聲1000倍,是真的嗎?

    據說Σ△型的AD可以識別的信號可以小于噪聲1000倍,這個不知道是否屬實,還有就是如果是的話,使用它是不是需要編寫特別的驅動??好編寫么···?大神指教
    發表于 01-23 08:37

    ASR與傳統語音識別的區別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統語音識別在多個方面存在顯著的區別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習算法的新型語音
    的頭像 發表于 11-18 15:22 ?709次閱讀

    風華貼片瓷介電容型號識別命名方法

    風華貼片瓷介電容的型號識別命名方法主要包括以下幾個關鍵部分,以下將按照清晰的結構進行分點表示和歸納: 1、封裝尺寸 : 常見的封裝尺寸包括0201、0402、0603、0805、1206等,這些
    的頭像 發表于 11-05 16:16 ?429次閱讀
    風華貼片瓷介電容型號<b class='flag-5'>識別</b>及<b class='flag-5'>命名</b>方法

    使用 TMP1826 嵌入式 EEPROM 替換用于模塊識別的外部存儲器

    電子發燒友網站提供《使用 TMP1826 嵌入式 EEPROM 替換用于模塊識別的外部存儲器.pdf》資料免費下載
    發表于 09-09 09:44 ?0次下載
    使用 TMP1826 嵌入式 EEPROM 替換<b class='flag-5'>用于</b>模塊<b class='flag-5'>識別的</b>外部存儲器

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的信息,提供更全面的上下文理解。這使得模型能夠更準確地理解復雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓練學習到語言的語義特征,能夠識別文本中的命名實體、句法結構和語義關系等信息。這些
    發表于 08-02 11:03

    什么是離線語音識別芯片?與在線語音識別的區別

    離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯網。在線語音識別功能更廣泛、識別準確率高,但依賴穩定網絡。
    的頭像 發表于 07-22 11:33 ?537次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預訓練模型,通過大量文本數據進行預訓練,可以用于各種NLP任務,如文本分類、問答、命名實體識別等。 b. GPT(
    的頭像 發表于 07-09 09:59 ?868次閱讀

    如何設計人臉識別的神經網絡

    人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監控、身份認證、智能門禁等領域。神經網絡是實現人臉識別的關鍵技術之一,本文將介紹如何設計人臉
    的頭像 發表于 07-04 09:20 ?794次閱讀

    人臉檢測和人臉識別的區別是什么

    臉檢測和人臉識別的區別。 定義 人臉檢測是指在圖像或視頻中快速準確地找到人臉的位置,并將其從背景中分離出來的技術。人臉檢測的目的是確定圖像中是否存在人臉,以及人臉的位置和大小。人臉檢測通常是一個二分類問題,即
    的頭像 發表于 07-03 14:49 ?1507次閱讀

    人臉檢測與識別的方法有哪些

    人臉檢測與識別是計算機視覺領域中的一個重要研究方向,具有廣泛的應用前景,如安全監控、身份認證、智能視頻分析等。本文將詳細介紹人臉檢測與識別的方法。 引言 人臉檢測與識別技術在現代社會中扮演著
    的頭像 發表于 07-03 14:45 ?882次閱讀

    一種用于化學和生物材料識別的便攜式拉曼光譜解決方案

    基于掃頻光源的緊湊型拉曼光譜系統:美國麻省理工學院(MIT)和韓國科學技術院(KAIST)的研究人員開發了一種用于化學和生物材料識別的便攜式拉曼光譜解決方案,克服了光譜儀笨重的局限性。
    的頭像 發表于 04-16 10:35 ?618次閱讀
    一種<b class='flag-5'>用于</b>化學和生物材料<b class='flag-5'>識別的</b>便攜式拉曼光譜解決方案

    蘋果ReALM模型在實體識別測試中超越OpenAI GPT-4.0

    “我們的模型在識別各種類型實體方面都有顯著提升,即使是小尺寸模型,在屏幕實體識別準確性上也已超過原有的系統5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0
    的頭像 發表于 04-02 11:23 ?561次閱讀

    語音識別的技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?4109次閱讀
    語音<b class='flag-5'>識別的</b>技術歷程及工作原理

    RFID標簽技術:智能識別的新紀元

    隨著物聯網、大數據和人工智能的飛速發展,RFID(無線射頻識別)技術作為智能識別的重要手段,正日益成為各行各業的關鍵技術之一
    的頭像 發表于 03-21 11:18 ?1118次閱讀
    RFID標簽技術:智能<b class='flag-5'>識別的</b>新紀元

    索尼即將推出四款鏡頭新品及期待已久的ZV-E10Ⅱ

    早些時候,SonyAlphaRumors透露了索尼即將推出的16-25mm f/2.8 G鏡頭,該鏡頭按照計劃將投入市場,另有三款尚未命名鏡頭也被預計將在夏季前正式亮相。
    的頭像 發表于 03-14 14:42 ?838次閱讀
    主站蜘蛛池模板: 日韩在线影院 | 日本69sex护士www | 13日本xxxxxxxxx18 1515hh四虎免费观38com | 激情综合五月婷婷 | 国产一区二区三区 韩国女主播 | 天天舔天天射天天操 | 萝控喷水视频 | 国产三a级日本三级日产三级 | 色色色色色色色色色色色色 | 夜夜爱夜夜爽夜夜做夜夜欢 | 四虎影视网址 | 三级理论手机在线观看视频 | 5252欧美在线观看 | 国产精品三级 | 色多多高清在线观看视频www | 琪琪see色原在线20 | 亚洲视频色 | 人人插人人艹 | 视频综合网 | 美女视频黄的免费视频网页 | 台湾av | 色偷偷中文字幕 | 久热99| 国产午夜精品一区二区理论影院 | 亚洲欧洲一区二区三区在线观看 | 放荡的俄罗斯美女bd | 日本69sexmovies| 青草青草视频2免费观看 | 国产精品美女久久久 | 特级毛片免费视频播放 | 五月桃花网婷婷亚洲综合 | 免费看美女禁处爆涌视频 | 亚洲人免费视频 | 欧美性猛片xxxxⅹ免费 | 538porm在线看国产亚洲 | 性视频久久 | 色骚综合 | 日本动漫免费看 | 视频黄色免费 | 国产农村三片免费网站 | 成人欧美一区二区三区黑人3p |