91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP:如何在只有詞典的情況下提升NER落地效果

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:NLP從入門到放棄 ? 2021-01-07 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天介紹一個論文autoner[1],主要是為了探索如何在只有詞典的情況下,提升NER實際落地效果;

首先,如果手中含有詞典,常規操作就是遠程監督打標數據,然后做NER;

遠程監督一個比較常見的操作就是使用我們手中的字典,通過字符匹配的形式對文本中可能存在的實體打標。

但是對于這種遠程監督的形式,存在比較多的問題,這個論文主要探討兩種:多標簽(multi-label tokens) 和標簽不完善的問題;

針對multi-label tokens,論文提出的是Fuzzy-LSTM-CRF,簡單講就是講LSTM后面的CRF層變為了Fuzzy CRF層,可以在處理tokens對應多標簽的情況下,不犧牲計算效率;

第二個問題標簽不完善,是因為字典畢竟是有限的,不可能把所有的實體都覆蓋到,那么句子中沒有被字典打標成功的詞組很有可能也是某種實體,但是遠程監督并沒有對此做處理。

針對這個問題,本文提出了一種比較新的標注框架,簡單來講就是在這新的框架中,不去預測單個的token的類別,而是去判斷兩個相鄰的tokens是不是在同一個實體中被tied;

上面只是我自己簡單的分類,其實存在的兩個問題和兩種解決架構是相互融合在一起的,具體的我們下面談。

0. 詞典形式簡單介紹

首先定義一下詞典形式,包含兩個部分,第一部分是實體的表面名稱,這個包括規范名稱和對應的同義詞列表;第二個部分就是實體的類型;

其次,詞典的標注肯定是有限的,肯定存在不在詞典中的某些詞組但是也屬于某種類型的實體;

對于這部分實體,我自己的理解大體可以包含兩個大部分;第一個大部分就是比如說【科技】這個領域覆蓋的【科技】實體有有限的,所以有漏網之魚;第二部分就是詞典的實體類型是有限的,比如詞典總共包含2個實體類型,但是你真實的文本包含更多的實體類型,存在漏網之魚。

對于這些漏網之魚的實體,我們的策略是這樣的。

首先通過AutoPhrase從文中挖掘出來高質量短語,然后統一賦值為unknown type,也就是未知類型。

1. Fuzzy-LSTM-CRF

1.1 標注策略

梳理一下,我們現在手上有詞典;

詞典包含兩個部分,一部分是已知實體類型(假設是2個,當然可能更多或者更少);另一個部分就是我們通過某種方式挖掘出來的高質量實體對應的未知類型;

然后我們通過手中的詞典對原始無標注文本進行打標;

那么現在對于句子中的某個token,它存在三種可能性;第一它可能是已知實體類型中的一種或者多種;第二它屬于未知類型;第三是屬于O這種情況,就是non-entity;

基于傳統架構BIlstm-CRF如何解決多標簽的問題?

其實本質解決的思路很簡單。對于原來的每個token,只是預測一個類別,現在是預測多個類別就可以了。

詳細點講就是,首先對于遠程監督標注的過程,我們會使用三種策略。

我們先假設我們使用{I;O;B;E;S}的標注形式;

第一,對于某個token,如果它對應到了已知類型中的某一個或者多個實體,那么按照對應的位置直接標記上,不要漏掉;也就是說{I;B;E;S}和對應的一個或者多個實體類型對上標;

第二對于對于某個token,如果屬于未知類型,那么對應的這個token就需要把所有已知實體類型(區別于上面的一個或者多個已知實體類型)和 {I,O, B, E, S}對應的打標上;

注意,這里并沒有使用未知實體類型,而是使用的所有的已知實體類型;

第三個對于既不屬于已知類型的,也不屬于未知類型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架構

其實很好理解,傳統的CRF最大化唯一一條有效的標注序列。在這里,我們最大化所有有可能的標注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF優化公式

看架構圖:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

區別于Fuzzy-LSTM-CRF 模型沿用傳統架構,在這里論文提出一種新的標注架構-Tie or Break;

這個標注框架更加關注的是當前token和上一個token是否在同一個實體里面;如果在同一個實體里面,那么就標注為Tie;

如果當前單詞和上一個單詞至少有一個在unkonw類型的高質量短語,那么標注為unkonw,其他情況標注為Break;

優化過程:把實體識別和實體類型判定分離開。

原論文中描述的是先做實體識別,兩個Break之間作為一個span,然后做實體類型判定;

實體識別中,對于當前單詞和上一個單詞之間類別的的輸出,對Tie和Break做二分類損失,如果類別是unkown類別,直接跳過,不計算損失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步預測實體類型,包含None實體類型

unkonw這種,知道這屬于實體,在高質量短語詞典中,但是不知道短語類型,所在這里我們會標注為None實體類型。

其他的不在詞典中的,當然也就會被標注為None實體類型。

為了應對多標簽,也就是同一個實體對應不同的類別,這里修改了最后的CE損失函數:

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_總

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是軟標簽的進行的CE的計算,并沒有使用硬標簽。

對應的是在遠程監督中,當前實體真實類型標簽集合。從公式我們可以知道,尤其是看分母,在不屬于這個集合的標簽概率我們并沒有計算在內。

總結

多提一個小細節,就是高質量短語的挖掘使用的是AutoPhrase,大家可以去試一下;

論文提出兩種結構解決多標簽和標簽不完善的問題。

首先對于標簽不完善,使用上面提到的AutoPhrase去挖掘文本中的高質量短語,作為詞典中的未知類型。

在Fuzzy-LSTM-CRF,需要注意的細節是,對于未知類型的標注,我們使用的策略是標注所有已知類型;

對于AutoNER,有兩個細節需要注意,一個是新的標注框架tie or break,重點在于去看兩個相鄰單詞是否屬于同一個實體;第二個細節就是為了解決多標簽問題,修改了損失函數,使用的軟標簽;

責任編輯:xj

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13657
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22629

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FX2LP如何在不更改硬件的情況下對其進行重新編程?

    我正在使用 FX2LP/ CY7C68013A-128AXC設備(定制板),我有一些問題需要您的幫助。 1如果我的 EEPROM 已經有固件并且正在運行,如何在不更改硬件的情況下對其進行重新
    發表于 05-06 11:16

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現有項目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們如何在沒有 SDK 的情況下配置 FreeRTOS。
    發表于 04-02 06:33

    ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?

    昂問一ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?我用AIN口輸入單端信號 調節PGA大于1時信號就不對了
    發表于 12-26 06:29

    在VDD1沒有供電的情況下,VDD2正常供電的情況下,AMC1200的輸出應該是什么狀態?

    請教一,在前端VDD1沒有供電的情況下,VDD2正常供電的情況下,AMC1200的輸出狀態為什么P端是3.8V ,N端是1.2V ,每一次都是這樣子, 請問,在VDD1沒有供電的情況下
    發表于 12-17 07:37

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?
    發表于 11-28 08:03

    ADS1294如何在使用WCT的情況下保證CMRR指標?

    請問使用ADS1294芯片,為了提高系統的共模抑制比,經量保證差分輸入端的電路及阻抗平衡,ECG_CH1、ECG_CH2、 ECG_CH3輸入通道采用電路對稱且保證阻容公差的情況下實測實現
    發表于 11-22 16:47

    在不用miniDSP的情況下,使用信號處理模塊時,aic3254怎么配置DAC的3D效果

    請問,在不用miniDSP的情況下,使用信號處理模塊時,怎么配置DAC的3D效果?找了很多資料,沒有關于這個方面的介紹,可以提供一這方面的資料嗎?謝謝
    發表于 11-08 07:34

    AIC3106如何在不改變BCLK和LRCLK的情況下,能夠調好?

    你好,請問:AIC3106現在配置為從設備、DAC采樣率為16K、數據寬度為32位。現在主設備給的BCLK是2048K,LRCLK為16K,播放現在有問題,如何在不改變BCLK和LRCLK的情況下,能夠調好?
    發表于 10-28 07:06

    PCM1795如何在通電的情況下切換PCM模式和DSD模式?

    Ti工程師您好,項目上有用到PCM1795這枚芯片,因為它具有DSD解碼與PCM解碼功能,之前沒有使用過類似產品 有兩個問題請教下: 1、用MCU初始化PCM1795讓它能正常工作,至少需要配置哪幾個相關寄存器 2、如何在通電的情況下 切換PCM模式和DSD模式或者說
    發表于 09-29 06:00

    在不犧牲尺寸的情況下提高脈搏血氧儀溶液的性能

    電子發燒友網站提供《在不犧牲尺寸的情況下提高脈搏血氧儀溶液的性能.pdf》資料免費下載
    發表于 09-21 10:54 ?0次下載
    在不犧牲尺寸的<b class='flag-5'>情況下</b>提高脈搏血氧儀溶液的性能

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么好,怎樣隔離效果會比較好一些?
    發表于 09-20 06:23

    在不影響性能或占用空間的情況下隔離您的CAN系統

    電子發燒友網站提供《在不影響性能或占用空間的情況下隔離您的CAN系統.pdf》資料免費下載
    發表于 08-29 10:49 ?0次下載
    在不影響性能或占用空間的<b class='flag-5'>情況下</b>隔離您的CAN系統

    為什么電容在低電壓情況下會發熱

    本身存在內阻,低電壓會導致電流增加,如果內阻相對較大,電容器內部的能量損耗增加,也會導致發熱。 3、老化或劣化 :電容器在長期使用后,可能會因為絕緣材料老化、劣化等原因增加介質損耗,即使在低電壓情況下,損耗功率依然較
    的頭像 發表于 08-26 14:04 ?1708次閱讀
    為什么電容在低電壓<b class='flag-5'>情況下</b>會發熱

    plc什么情況下會導致程序丟失

    PLC(Programmable Logic Controller,可編程邏輯控制器)是一種廣泛應用于工業自動化領域的設備。它通過執行用戶編寫的程序來實現對機械設備的控制。然而,在某些情況下,PLC
    的頭像 發表于 08-19 09:14 ?2904次閱讀

    只有單端輸入的情況下,THS4531如何輸出差分信號?

    想請問在只有單端輸入的情況下,THS4531如何輸出差分信號。 我的輸入電壓為0-5V,想通過THS4531輸出0-3V的差分信號給DSP28377D。我用TINA做了仿真,發現了一些問題。 我將
    發表于 08-13 07:42
    主站蜘蛛池模板: 中文日产国产精品久久 | 酒色网址| 淫性视频| 国产卡1卡2卡三卡网站免费 | 色多多视频官网 | 欧美三级色 | 福利片欧美 | 亚洲dv | 亚洲一级毛片在线观播放 | 最新亚洲人成网站在线影院 | 最新免费jlzzjlzz在线播放 | 亚洲免费视频一区二区三区 | www.亚洲综合 | 日韩欧美高清色码 | 色婷婷一区二区三区四区成人网 | 亚洲色图欧美色 | 夜夜爱夜夜做 | 97菊爱网| 一区二区不卡免费视频 | 1024 cc香蕉在线观看看中文 | 午夜影院色 | 夜夜嗷| 男人j进入女人免费视频 | 午夜在线观看免费视频 | 国产性较精品视频免费 | 精品午夜久久影视 | 午夜一区二区三区 | 淫香色香 | 欧美高清另类 | 亚洲综合成人网在线观看 | 污污的网站免费阅读 | 五月天婷婷丁香花 | 久久99热不卡精品免费观看 | 欧美 在线播放 | l欧美18一19sex性 | 波多野结衣在线一区 | 永久黄网站色视频免费观看 | 国产精品成人aaaaa网站 | 5g影院天天| 国产亚洲欧美成人久久片 | 午夜性爽快 |