在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何統一各種信息抽取任務的輸入和輸出

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-09-20 15:25 ? 次閱讀

信息抽取任務包括命名實體識別(NER)、關系抽取(RE)、事件抽取(EE)等各種各樣的任務。不同的信息抽取任務針對的任務不同,希望得到的輸出也不同。例如下面的例子中,對于NER任務,需要識別Steve是PER、Apple是ORG;而對于關系抽取任務,則需要識別出Steve和Apple是Work For的關系。此外,不同場景的同一個信息抽取任務的輸出可能也是不同的。

33d9fc38-37f1-11ed-ba43-dac502259ad0.png

目前業內比較常見的做法是針對每個場景的每種信息抽取任務,分別獨立的訓練一個模型。這種方法成本很高,每種任務、每種場景都要建立模型。此外,獨立的訓練模型導致不同任務之間無法共享知識,沒有發揮出數據和模型的全部能力。

中科院、百度在ACL 2022中提出了一種可以實現統一建模各類信息抽取任務的框架UIE,在4種信息檢索任務的13個數據集上都取得了顯著效果。

1 統一多種信息抽取任務

要想實現使用一個模型解決多種信息抽取任務的目標,一個核心問題是如何統一各種信息抽取任務的輸入和輸出。作者提出所有信息抽取任務都可以抽象成SpottingAssociating兩個步驟:在Spotting步驟中,確定輸入文本中的實體以及該實體對應的實體類型;在Associating中,建立兩個實體之間的關系。

例如下面是Steve became CEO of Apple in 1997這句話使用上述方法抽象出來的描述語言。藍色的代表關系抽取,紅色的代表事件抽取,其他的是命名實體識別。首先能夠識別出person、organization、time三種實體。此外Steve可以識別出work for的關系,而事件以became作為start-position,關聯employee、employer、time。

3403d364-37f1-11ed-ba43-dac502259ad0.png

通過上述方法,可以實現將所有信息抽取任務都抽象為相同結構的語言描述,為后續的多任務統一建模打下了基礎。

2 基于prompt的多任務統一建模

基于上面的關系抽取統一描述,本文提出了UIE框架,在輸入側構造每個任務structural schema instructor (SSI),以及原始文本,使用Encoder編碼后,使用Decoder解碼統一的信息抽取語言描述。整個過程如下圖所示。

3430638e-37f1-11ed-ba43-dac502259ad0.png

仍然以上面文本為例,輸入由SSL原始文本組成。對于關系抽取任務,SSL對應的是[spot] person [asso] word for。這會作為一個前綴prompt,用來指導模型根據特定的任務進行文本生成。而對于NER任務,SSL對應的是[spot] person [spot] organization [spot] time。SSL后面接一個[text]標識符以及原來的文本。整體的輸入文本拼接模式如下:

34525494-37f1-11ed-ba43-dac502259ad0.png

上述文本會通過Encoder進行編碼,然后利用Decoder進行文本生成,生成的目標文本即為根據信息抽取的label生成的統一描述。在具體的模型結構上,BART、T5等生成式模型,都可以作為框架的主模型的backbone。這種基于前綴的生成方式,也可以比較容易的適應到一個新的信息抽取任務上。

3 模型訓練

為了訓練上面說的從SSL+文本到描述的生成式模型,文中采用了三個預訓練任務聯合學習。構造了3種數據,分別是SSL+原始文本到結構化文本的pair對、單獨的原始文本以及單獨的結構化文本。第一個任務是SSL+原始文本到結構化文本的匹配關系,匹配的label為1,不匹配label為0,label為0的樣本是通過隨機替換spot或associate實現的。第二個任務是使用結構化文本訓練Decoder,這一步是為了讓Decoder適應結構化文本的語言形式。第三個任務是在訓練過程中引入一般的mask language modeling任務,目的是防止模型在訓練過程中丟失了文本原始的語義信息。最終的預訓練loss是下面3個loss的和:

3470d8d8-37f1-11ed-ba43-dac502259ad0.png

預訓練好的模型可以在下游任務進行finetune以應用到各類任務上。同時作者引入rejection mechanism,在結構化文本中插入一些在原始輸入中沒有的實體以及NULL,讓模型可以通過生成NULL避免被誤導生成不正確的結果。

34b4b792-37f1-11ed-ba43-dac502259ad0.png

4 實驗結果

UIE框架在信息抽取任務中的整體效果如下,主要對比了UIE和各個數據集上各類SOTA模型的效果。可以看到在大部分數據集上,UIE的效果都是最優的。對比沒有經過預訓練的模型(SEL),UIE取得非常顯著的提升,通過將多任務使用統一框架聯合訓練,實現了知識的共享和效果的互相促進。

35247a28-37f1-11ed-ba43-dac502259ad0.png

除了在正常的有監督任務上效果外,本文也對小樣本場景的效果進行了實驗,主要對比了使用T5模型finetune和使用UIE方法的效果,UIE在小樣本上的效果非常顯著。

3560cc80-37f1-11ed-ba43-dac502259ad0.png

5 開源代碼

與此論文相應的開源代碼發布在百度PaddleNLP上https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

35cc9ee2-37f1-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7140

    瀏覽量

    89581
  • 模型
    +關注

    關注

    1

    文章

    3312

    瀏覽量

    49226
  • NER
    NER
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6221

原文標題:一個模型解決所有信息抽取任務!(含代碼)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    文本信息抽取的分階段詳細介紹

    文本信息抽取作為監督學習的項具體運用。文本信息抽取可以分為兩個階段:學習階段和抽取階段。其過程
    發表于 09-16 15:03

    基于子樹廣度的Web信息抽取

    提出種新的網頁信息抽取方法,基于子樹的廣度可不加區分地對不同科技文獻網站的頁面信息進行自動抽取。對大量科技文獻網站進行
    發表于 03-28 10:03 ?14次下載

    基于重復模式的自動Web信息抽取

    互聯網上存在很多在線購物網站,抽取這類網站頁面里的商品信息可以為電子商務、Web查詢提供增值服務。該文針對這類網站提出種自動的Web信息抽取
    發表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設計

    對現有的信息抽取技術和XML 技術加以研究,在此基礎上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數據抽取出來整合到
    發表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領域Web信息抽取方法

    針對Web信息抽取(WIE)技術在健康領域應用的問題,提出了種基于WebHarvest的健康領域Web信息抽取方法。通過對不同健康網站的結
    發表于 12-26 13:44 ?0次下載

    節點屬性的海量Web信息抽取方法

    為解決大數據場景下從海量Web頁面中抽取有價值的信息,提出了種基于節點屬性與正文內容的海量Web信息抽取方法。將Web頁面轉化為DOM樹表
    發表于 02-06 14:36 ?0次下載

    抽取式摘要方法中如何合理設置抽取單元?

    的核心問題。抽取式摘要則是文本摘要技術中效果穩定,實現簡單的類方法,本文結合COLING 2020中抽取式摘要相關的兩篇最新工作,對抽取式摘要方法中如何合理設置
    的頭像 發表于 05-03 18:23 ?1681次閱讀
    <b class='flag-5'>抽取</b>式摘要方法中如何合理設置<b class='flag-5'>抽取</b>單元?

    了解信息抽取必須要知道關系抽取

    當我們拿到信息抽取任務,需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態天氣-狀態-冷,而非 今天-氣候-冷(雖然也可
    的頭像 發表于 04-15 14:32 ?2110次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關系<b class='flag-5'>抽取</b>

    開放域信息抽取和文本知識結構化的3篇論文詳細解析

    開放域信息抽取信息抽取任務的另個分支任務,其中
    的頭像 發表于 04-26 14:44 ?2802次閱讀
    開放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識結構化的3篇論文詳細解析

    面向知識圖譜的信息抽取

    摘要: 隨著大數據時代的到來,海量數據不斷涌現,從中尋找有用信息抽取對應知識的需求變得越來越強烈。針對該需求,知識圖譜技術應運而生,并在實現知識互聯的過程中日益發揮重要作用。信息抽取
    發表于 03-22 16:59 ?967次閱讀
    面向知識圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    實體關系抽取模型CasRel

    許多實驗證明聯合學習方法由于考慮了兩個子任務之間的信息交互,大大提升了實體關系抽取的效果,所以目前針對實體關系抽取任務的研究大多采用聯合學習
    的頭像 發表于 07-21 14:11 ?3969次閱讀

    基于統一語義匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型
    的頭像 發表于 01-16 10:21 ?1164次閱讀

    介紹信息抽取的大統方法USM

    信息抽取任務具有多樣的抽取目標和異構的結構,而傳統的模型需要針對特定的任務進行任務設計和標簽標注
    的頭像 發表于 02-15 14:13 ?904次閱讀

    基于統一語義匹配的通用信息抽取框架-USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型
    的頭像 發表于 02-22 11:09 ?909次閱讀
    基于<b class='flag-5'>統一</b>語義匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    Instruct-UIE:信息抽取統一大模型

    Instruct-UIE 統一信息抽取任務訓練方法,可以融合不同類型任務以及不同的標注規范,統一
    的頭像 發表于 04-25 10:46 ?1807次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>統一</b>大模型
    主站蜘蛛池模板: 天天干夜夜操美女 | 在线观看网站黄 | 中文字幕va一区二区三区 | 天天摸天天做天天爽水多 | 欧美成人性色 | 美女扒开尿囗给男人玩的动图 | 午夜在线观看完整高清免费 | 久久精品成人免费网站 | 视频h在线| 日本三级香港三级人妇网站 | 色天使亚洲综合在线观看 | 色噜噜噜噜色 | 亚洲伊人久久网 | 狠狠欧美 | 老色批网站 | 韩日色图| 欧美黑人粗暴另类多交 | 奇米7777 | 男女爱爱免费 | 国产片在线观看狂喷潮bt天堂 | 男人午夜视频 | 欧美精品二区 | 国产午夜精品久久久久 | 特级一级片 | 天天爽夜夜爽夜夜爽精品视频 | 五月婷婷色网 | 国产成人精品日本亚洲网站 | 久久婷婷五综合一区二区 | 色综合天天操 | 日本三级黄在线观看 | 一级特黄aaa大片大全 | 最近高清在线视频观看免费 | 啊用力太猛了啊好深视频免费 | 久久成人福利视频 | 激情久久久久久久久久 | 亚洲福利视频一区 | 一区视频免费观看 | 婷婷六月在线 | 四虎免费在线播放 | 免费的国语一级淫片 | 成人欧美一区二区三区的电影 |