在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-09-20 15:25 ? 次閱讀

信息抽取任務(wù)包括命名實(shí)體識(shí)別(NER)、關(guān)系抽取(RE)、事件抽取(EE)等各種各樣的任務(wù)。不同的信息抽取任務(wù)針對(duì)的任務(wù)不同,希望得到的輸出也不同。例如下面的例子中,對(duì)于NER任務(wù),需要識(shí)別Steve是PER、Apple是ORG;而對(duì)于關(guān)系抽取任務(wù),則需要識(shí)別出Steve和Apple是Work For的關(guān)系。此外,不同場(chǎng)景的同一個(gè)信息抽取任務(wù)的輸出可能也是不同的。

33d9fc38-37f1-11ed-ba43-dac502259ad0.png

目前業(yè)內(nèi)比較常見(jiàn)的做法是針對(duì)每個(gè)場(chǎng)景的每種信息抽取任務(wù),分別獨(dú)立的訓(xùn)練一個(gè)模型。這種方法成本很高,每種任務(wù)、每種場(chǎng)景都要建立模型。此外,獨(dú)立的訓(xùn)練模型導(dǎo)致不同任務(wù)之間無(wú)法共享知識(shí),沒(méi)有發(fā)揮出數(shù)據(jù)和模型的全部能力。

中科院、百度在ACL 2022中提出了一種可以實(shí)現(xiàn)統(tǒng)一建模各類信息抽取任務(wù)的框架UIE,在4種信息檢索任務(wù)的13個(gè)數(shù)據(jù)集上都取得了顯著效果。

1 統(tǒng)一多種信息抽取任務(wù)

要想實(shí)現(xiàn)使用一個(gè)模型解決多種信息抽取任務(wù)的目標(biāo),一個(gè)核心問(wèn)題是如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出。作者提出所有信息抽取任務(wù)都可以抽象成SpottingAssociating兩個(gè)步驟:在Spotting步驟中,確定輸入文本中的實(shí)體以及該實(shí)體對(duì)應(yīng)的實(shí)體類型;在Associating中,建立兩個(gè)實(shí)體之間的關(guān)系。

例如下面是Steve became CEO of Apple in 1997這句話使用上述方法抽象出來(lái)的描述語(yǔ)言。藍(lán)色的代表關(guān)系抽取,紅色的代表事件抽取,其他的是命名實(shí)體識(shí)別。首先能夠識(shí)別出person、organization、time三種實(shí)體。此外Steve可以識(shí)別出work for的關(guān)系,而事件以became作為start-position,關(guān)聯(lián)employee、employer、time。

3403d364-37f1-11ed-ba43-dac502259ad0.png

通過(guò)上述方法,可以實(shí)現(xiàn)將所有信息抽取任務(wù)都抽象為相同結(jié)構(gòu)的語(yǔ)言描述,為后續(xù)的多任務(wù)統(tǒng)一建模打下了基礎(chǔ)。

2 基于prompt的多任務(wù)統(tǒng)一建模

基于上面的關(guān)系抽取統(tǒng)一描述,本文提出了UIE框架,在輸入側(cè)構(gòu)造每個(gè)任務(wù)structural schema instructor (SSI),以及原始文本,使用Encoder編碼后,使用Decoder解碼統(tǒng)一的信息抽取語(yǔ)言描述。整個(gè)過(guò)程如下圖所示。

3430638e-37f1-11ed-ba43-dac502259ad0.png

仍然以上面文本為例,輸入由SSL原始文本組成。對(duì)于關(guān)系抽取任務(wù),SSL對(duì)應(yīng)的是[spot] person [asso] word for。這會(huì)作為一個(gè)前綴prompt,用來(lái)指導(dǎo)模型根據(jù)特定的任務(wù)進(jìn)行文本生成。而對(duì)于NER任務(wù),SSL對(duì)應(yīng)的是[spot] person [spot] organization [spot] time。SSL后面接一個(gè)[text]標(biāo)識(shí)符以及原來(lái)的文本。整體的輸入文本拼接模式如下:

34525494-37f1-11ed-ba43-dac502259ad0.png

上述文本會(huì)通過(guò)Encoder進(jìn)行編碼,然后利用Decoder進(jìn)行文本生成,生成的目標(biāo)文本即為根據(jù)信息抽取的label生成的統(tǒng)一描述。在具體的模型結(jié)構(gòu)上,BART、T5等生成式模型,都可以作為框架的主模型的backbone。這種基于前綴的生成方式,也可以比較容易的適應(yīng)到一個(gè)新的信息抽取任務(wù)上。

3 模型訓(xùn)練

為了訓(xùn)練上面說(shuō)的從SSL+文本到描述的生成式模型,文中采用了三個(gè)預(yù)訓(xùn)練任務(wù)聯(lián)合學(xué)習(xí)。構(gòu)造了3種數(shù)據(jù),分別是SSL+原始文本到結(jié)構(gòu)化文本的pair對(duì)、單獨(dú)的原始文本以及單獨(dú)的結(jié)構(gòu)化文本。第一個(gè)任務(wù)是SSL+原始文本到結(jié)構(gòu)化文本的匹配關(guān)系,匹配的label為1,不匹配label為0,label為0的樣本是通過(guò)隨機(jī)替換spot或associate實(shí)現(xiàn)的。第二個(gè)任務(wù)是使用結(jié)構(gòu)化文本訓(xùn)練Decoder,這一步是為了讓Decoder適應(yīng)結(jié)構(gòu)化文本的語(yǔ)言形式。第三個(gè)任務(wù)是在訓(xùn)練過(guò)程中引入一般的mask language modeling任務(wù),目的是防止模型在訓(xùn)練過(guò)程中丟失了文本原始的語(yǔ)義信息。最終的預(yù)訓(xùn)練loss是下面3個(gè)loss的和:

3470d8d8-37f1-11ed-ba43-dac502259ad0.png

預(yù)訓(xùn)練好的模型可以在下游任務(wù)進(jìn)行finetune以應(yīng)用到各類任務(wù)上。同時(shí)作者引入rejection mechanism,在結(jié)構(gòu)化文本中插入一些在原始輸入中沒(méi)有的實(shí)體以及NULL,讓模型可以通過(guò)生成NULL避免被誤導(dǎo)生成不正確的結(jié)果。

34b4b792-37f1-11ed-ba43-dac502259ad0.png

4 實(shí)驗(yàn)結(jié)果

UIE框架在信息抽取任務(wù)中的整體效果如下,主要對(duì)比了UIE和各個(gè)數(shù)據(jù)集上各類SOTA模型的效果。可以看到在大部分?jǐn)?shù)據(jù)集上,UIE的效果都是最優(yōu)的。對(duì)比沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的模型(SEL),UIE取得非常顯著的提升,通過(guò)將多任務(wù)使用統(tǒng)一框架聯(lián)合訓(xùn)練,實(shí)現(xiàn)了知識(shí)的共享和效果的互相促進(jìn)。

35247a28-37f1-11ed-ba43-dac502259ad0.png

除了在正常的有監(jiān)督任務(wù)上效果外,本文也對(duì)小樣本場(chǎng)景的效果進(jìn)行了實(shí)驗(yàn),主要對(duì)比了使用T5模型finetune和使用UIE方法的效果,UIE在小樣本上的效果非常顯著。

3560cc80-37f1-11ed-ba43-dac502259ad0.png

5 開(kāi)源代碼

與此論文相應(yīng)的開(kāi)源代碼發(fā)布在百度PaddleNLP上https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

35cc9ee2-37f1-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7231

    瀏覽量

    90618
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3448

    瀏覽量

    49710
  • NER
    NER
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6266

原文標(biāo)題:一個(gè)模型解決所有信息抽取任務(wù)!(含代碼)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    文本信息抽取的分階段詳細(xì)介紹

    文本信息抽取作為監(jiān)督學(xué)習(xí)的項(xiàng)具體運(yùn)用。文本信息抽取可以分為兩個(gè)階段:學(xué)習(xí)階段和抽取階段。其過(guò)程
    發(fā)表于 09-16 15:03

    基于子樹(shù)廣度的Web信息抽取

    提出種新的網(wǎng)頁(yè)信息抽取方法,基于子樹(shù)的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁(yè)面信息進(jìn)行自動(dòng)抽取。對(duì)大量科技文獻(xiàn)網(wǎng)站進(jìn)行
    發(fā)表于 03-28 10:03 ?14次下載

    基于重復(fù)模式的自動(dòng)Web信息抽取

    互聯(lián)網(wǎng)上存在很多在線購(gòu)物網(wǎng)站,抽取這類網(wǎng)站頁(yè)面里的商品信息可以為電子商務(wù)、Web查詢提供增值服務(wù)。該文針對(duì)這類網(wǎng)站提出種自動(dòng)的Web信息抽取
    發(fā)表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設(shè)計(jì)

    對(duì)現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究,在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數(shù)據(jù)抽取出來(lái)整合到
    發(fā)表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對(duì)Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問(wèn)題,提出了種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過(guò)對(duì)不同健康網(wǎng)站的結(jié)
    發(fā)表于 12-26 13:44 ?0次下載

    節(jié)點(diǎn)屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁(yè)面中抽取有價(jià)值的信息,提出了種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁(yè)面轉(zhuǎn)化為DOM樹(shù)表
    發(fā)表于 02-06 14:36 ?0次下載

    抽取式摘要方法中如何合理設(shè)置抽取單元?

    的核心問(wèn)題。抽取式摘要?jiǎng)t是文本摘要技術(shù)中效果穩(wěn)定,實(shí)現(xiàn)簡(jiǎn)單的類方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對(duì)抽取式摘要方法中如何合理設(shè)置
    的頭像 發(fā)表于 05-03 18:23 ?1761次閱讀
    <b class='flag-5'>抽取</b>式摘要方法中如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    了解信息抽取必須要知道關(guān)系抽取

    當(dāng)我們拿到個(gè)信息抽取任務(wù),需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷,而非 今天-氣候-冷(雖然也可
    的頭像 發(fā)表于 04-15 14:32 ?2195次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關(guān)系<b class='flag-5'>抽取</b>

    開(kāi)放域信息抽取和文本知識(shí)結(jié)構(gòu)化的3篇論文詳細(xì)解析

    開(kāi)放域信息抽取信息抽取任務(wù)的另個(gè)分支任務(wù),其中
    的頭像 發(fā)表于 04-26 14:44 ?2921次閱讀
    開(kāi)放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識(shí)結(jié)構(gòu)化的3篇論文詳細(xì)解析

    面向知識(shí)圖譜的信息抽取

    摘要: 隨著大數(shù)據(jù)時(shí)代的到來(lái),海量數(shù)據(jù)不斷涌現(xiàn),從中尋找有用信息抽取對(duì)應(yīng)知識(shí)的需求變得越來(lái)越強(qiáng)烈。針對(duì)該需求,知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生,并在實(shí)現(xiàn)知識(shí)互聯(lián)的過(guò)程中日益發(fā)揮重要作用。信息抽取
    發(fā)表于 03-22 16:59 ?1077次閱讀
    面向知識(shí)圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    實(shí)體關(guān)系抽取模型CasRel

    許多實(shí)驗(yàn)證明聯(lián)合學(xué)習(xí)方法由于考慮了兩個(gè)子任務(wù)之間的信息交互,大大提升了實(shí)體關(guān)系抽取的效果,所以目前針對(duì)實(shí)體關(guān)系抽取任務(wù)的研究大多采用聯(lián)合學(xué)習(xí)
    的頭像 發(fā)表于 07-21 14:11 ?4348次閱讀

    基于統(tǒng)一語(yǔ)義匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型
    的頭像 發(fā)表于 01-16 10:21 ?1309次閱讀

    介紹信息抽取的大統(tǒng)方法USM

    信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注
    的頭像 發(fā)表于 02-15 14:13 ?1036次閱讀

    基于統(tǒng)一語(yǔ)義匹配的通用信息抽取框架-USM

    信息提取(Information Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型
    的頭像 發(fā)表于 02-22 11:09 ?989次閱讀
    基于<b class='flag-5'>統(tǒng)一</b>語(yǔ)義匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    Instruct-UIE:信息抽取統(tǒng)一大模型

    Instruct-UIE 統(tǒng)一信息抽取任務(wù)訓(xùn)練方法,可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范,統(tǒng)一
    的頭像 發(fā)表于 04-25 10:46 ?1964次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>統(tǒng)一</b>大模型
    主站蜘蛛池模板: 日本高清视频wwww色 | 久久久中文| 操一操日一日 | 激情综合网五月激情 | 免费在线成人 | 五月婷婷激情六月 | 狠狠色丁香婷婷综合橹不卡 | 国产成人永久免费视频 | 精品午夜久久福利大片免费 | 午夜福免费福利在线观看 | 色婷婷一区二区三区四区成人网 | 亚洲电影一区二区 | 四虎在线永久免费视频网站 | 日韩精品你懂的在线播放 | 福利体验区 | 天天夜夜啦啦啦 | 麻豆三级在线播放 | 宅男666在线永久免费观看 | 59日本人xxxxxxxxx69| 免费日韩三级 | 天天干天天色综合网 | 特级黄色淫片 | 男人和女人做免费做爽爽视频 | 黄网站色在线视频免费观看 | 日日操夜夜操狠狠操 | 日韩在线影院 | 色偷偷97| 日韩一级片在线免费观看 | 日本大片免a费观看在线 | 五月婷婷丁香综合网 | 欧美午夜网 | 色婷婷久久综合中文久久蜜桃 | 亚洲人成电影在线观看网 | 欧美怡红院免费全视频 | 激情亚洲色图 | 婷婷 色天使| 欧美一级日韩在线观看 | 高清一区二区三区四区五区 | 国产yin乱大巴视频 国产爱v | 亚洲aⅴ久久久噜噜噜噜 | 最新合集丨新片速递 |