在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別的方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2021-01-03 09:35 ? 次閱讀

導(dǎo)讀

近年來(lái),深度學(xué)習(xí)方法在特征抽取深度和模型精度上表現(xiàn)優(yōu)異,已經(jīng)超過(guò)了傳統(tǒng)方法,但無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)方法都依賴大量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,而現(xiàn)有的研究對(duì)少量標(biāo)注數(shù)據(jù)學(xué)習(xí)問(wèn)題探討較少。本文將整理介紹四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別的方法。

面向少量標(biāo)注數(shù)據(jù)的NER方法分類

基于規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法在通用語(yǔ)料上能取得良好的效果,但在特定領(lǐng)域、小語(yǔ)種等缺乏標(biāo)注資源的情況下,NER 任務(wù)往往得不到有效解決。然而遷移學(xué)習(xí)利用領(lǐng)域相似性,在領(lǐng)域之間進(jìn)行數(shù)據(jù)共享和模型共建,為少量標(biāo)注數(shù)據(jù)相關(guān)任務(wù)提供理論基礎(chǔ)。本文從遷移的方法出發(fā),按照知識(shí)的表示形式不同,將少量標(biāo)注數(shù)據(jù)NER 方法分為基于數(shù)據(jù)增強(qiáng)、基于模型遷移、基于特征變換、基于知識(shí)鏈接的方法。如圖1所示,在這 20 多年間,四種方法的發(fā)文數(shù)量基本呈上升趨勢(shì),整體而言,當(dāng)前的研究以數(shù)據(jù)增強(qiáng)、模型遷移為主,而其他的方法通常配合前兩種方法使用,在研究中也值得關(guān)注。

211ccf60-4691-11eb-8b86-12bb97331649.png

圖1 1995年-2019年四種方法的使用情況

基于數(shù)據(jù)增強(qiáng)的NER方法

數(shù)據(jù)增強(qiáng)的方法即:在少量數(shù)據(jù)集訓(xùn)練模型導(dǎo)致過(guò)擬合時(shí),通過(guò)樣本選擇、權(quán)重調(diào)整等策略以創(chuàng)建高質(zhì)量樣本集,再返回分類器中迭代學(xué)習(xí),使之能夠較好地完成學(xué)習(xí)任務(wù)的方法。

(1)樣本選擇。在面向少量標(biāo)注數(shù)據(jù)時(shí),最直接的策略是挑選出高質(zhì)量樣本以擴(kuò)大訓(xùn)練數(shù)據(jù)。其中,樣本選擇是數(shù)據(jù)增強(qiáng)式 NER 的核心模塊,它通過(guò)一定的度量準(zhǔn)則挑選出置信度高、信息量大的樣本參與訓(xùn)練,一種典型的思路為主動(dòng)學(xué)習(xí)采樣,例如 Shen 等利用基于“不確定性”標(biāo)準(zhǔn),通過(guò)挖掘?qū)嶓w內(nèi)蘊(yùn)信息來(lái)提高數(shù)據(jù)質(zhì)量。在實(shí)踐中,對(duì)于給定的序列 X=(x1, x2,…xi) 和標(biāo)記序列Y=(y1, y2,…yi),x 被預(yù)測(cè)為 Y 的不確定性可以用公式(1)來(lái)度量,其中 P(y) 為預(yù)測(cè)標(biāo)簽的條件分布概率,M 為標(biāo)簽的個(gè)數(shù),n 為序列的長(zhǎng)度:

21598ebe-4691-11eb-8b86-12bb97331649.png

為了驗(yàn)證主動(dòng)學(xué)習(xí)采樣的性能,在人民日?qǐng)?bào)(1998 年)語(yǔ)料中進(jìn)行實(shí)驗(yàn),共迭代十次,其中 Random 為迭代中隨機(jī)采樣,ALL 為一次訓(xùn)練完所有數(shù)據(jù)的結(jié)果,Active-U 為利用數(shù)據(jù)增強(qiáng)的結(jié)果。實(shí)驗(yàn)結(jié)果(如圖 2)表明,利用數(shù)據(jù)增強(qiáng)方法在第 7 次迭代中就能達(dá)到擬合,節(jié)省了 30% 的標(biāo)注成本。

218b1f1a-4691-11eb-8b86-12bb97331649.png

圖2基于數(shù)據(jù)增強(qiáng)方法的實(shí)例

也有不同學(xué)者利用其他的度量準(zhǔn)則,例如高冰濤等人通過(guò)評(píng)估源域樣本在目標(biāo)領(lǐng)域中的貢獻(xiàn)度,并使用單詞相似性和編輯距離,在源域樣本集和目標(biāo)樣本集上計(jì)算權(quán)值來(lái)實(shí)現(xiàn)迭代學(xué)習(xí)。Zhang 等人充分考慮領(lǐng)域相似性,分別進(jìn)行域區(qū)分、域依賴和域相關(guān)性計(jì)算來(lái)度量。這些方法利用無(wú)監(jiān)督模式通過(guò)降低統(tǒng)計(jì)學(xué)習(xí)的期望誤差來(lái)對(duì)未標(biāo)記樣本進(jìn)行優(yōu)化選擇,能夠有效減少標(biāo)注數(shù)據(jù)的工作量。此外,半監(jiān)督采樣也是一種新的思路。例如在主動(dòng)學(xué)習(xí)的基礎(chǔ)上加入自學(xué)習(xí)(Self-Training)、自步學(xué)習(xí)(Self-Paced Learning,SPL)過(guò)程,這些方式通過(guò)對(duì)噪聲樣本增大學(xué)習(xí)難度,由易到難地控制選擇過(guò)程,讓樣本選擇更為精準(zhǔn)。

(2)分類器集成。在數(shù)據(jù)增強(qiáng)中,訓(xùn)練多個(gè)弱分類器來(lái)獲得一個(gè)強(qiáng)分類器的學(xué)習(xí)方式也是一種可行的思路。其中典型的為 Dai 等人提出集成式 TrAdaBoost 方法,它擴(kuò)展了 AdaBoost 方法,在每次迭代的過(guò)程中,通過(guò)提高目標(biāo)分類樣本的采樣權(quán)重、降低誤分類實(shí)例樣本的權(quán)重來(lái)提高弱分類器的學(xué)習(xí)能力。TrAdaBoost 利用少量的標(biāo)簽數(shù)據(jù)來(lái)構(gòu)建對(duì)源域標(biāo)簽數(shù)據(jù)的樣本增強(qiáng),最后通過(guò)整合基準(zhǔn)弱分類器為一個(gè)強(qiáng)分類器來(lái)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了少樣本數(shù)據(jù)的學(xué)習(xí)。之后的研究針對(duì) TrAdaBoost 進(jìn)行了相應(yīng)的改進(jìn)也取得了不錯(cuò)的效果。例如,王紅斌等人在分類器集成中增加遷移能力參數(shù),讓模型充分表征語(yǔ)義信息,在 NER 中提高精度也能顯著減少標(biāo)注成本。

基于模型遷移的NER方法

基于模型遷移的基本框架如圖 3 所示,其核心思想是利用分布式詞表示構(gòu)建詞共享語(yǔ)義空間,然后再遷移神經(jīng)網(wǎng)絡(luò)的參數(shù)至目標(biāo)領(lǐng)域,這是一種固定現(xiàn)有模型特征再進(jìn)行微調(diào)(Fine-Tuning) 的方法,在研究中共享詞嵌入和模型參數(shù)的遷移對(duì) NER 性能產(chǎn)生較大影響。

21ac572a-4691-11eb-8b86-12bb97331649.png

圖3模型遷移基本結(jié)構(gòu)

(1)共享詞嵌入。在 NLP 中,前期工作通常會(huì)借助語(yǔ)言預(yù)訓(xùn)練模型學(xué)習(xí)文本的詞義信息,這種方式構(gòu)建了公共的詞嵌入表示空間,詞嵌入在 NER 中通常作為輸入。詞向量是共享詞嵌入的初步形式,此后,ELMo模型利用上下文信息的方式能解決傳統(tǒng)詞向量不擅長(zhǎng)的一詞多義問(wèn)題,還能在一定程度上對(duì)詞義進(jìn)行預(yù)測(cè)逐漸受到人們關(guān)注。而 2018 年谷歌提出的 BERT預(yù)訓(xùn)練模型更是充分利用了詞義和語(yǔ)義特性,BERT 是以雙向 Transformer為編碼器棧的語(yǔ)言模型,它能強(qiáng)有力地捕捉潛在語(yǔ)義和句子關(guān)系,基于 BERT 的 NER 在多個(gè)任務(wù)上也取得 state-of-the-art,其基本網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

21f45c82-4691-11eb-8b86-12bb97331649.png

圖4模型遷移的基礎(chǔ)方法-BERT-BiLSTM-CRF

其中 BERT 作為語(yǔ)義表示輸入,BiLSTM抽取特征,CRF 獲取概率最大標(biāo)簽。與傳統(tǒng)的NER 模型相比,該模型最關(guān)鍵的是 BERT 語(yǔ)言模型的引入,BERT 通過(guò)無(wú)監(jiān)督建模的方式學(xué)習(xí)海量互聯(lián)網(wǎng)語(yǔ)義信息,能充分表征實(shí)體的語(yǔ)義信息。在人民日?qǐng)?bào)(1998年)語(yǔ)料中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果(如表 1)表明,基于 BERT 的預(yù)訓(xùn)練遷移學(xué)習(xí)模型能有效提高分類的準(zhǔn)確率。

表1BERT-BiLSTM-CRF與其他方法的比較

22439b6c-4691-11eb-8b86-12bb97331649.png

(2)共享參數(shù)。共享詞嵌入側(cè)重于詞義的表示,而共享參數(shù)則側(cè)重于模型參數(shù)的遷移。例如,Jason 等人從神經(jīng)網(wǎng)絡(luò)遷移機(jī)制以及遷移哪些層進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)論顯示淺層網(wǎng)絡(luò)學(xué)習(xí)知識(shí)的通用特征,具有很好的泛化能力,當(dāng)遷移到第 3 層時(shí)性能達(dá)到飽和,繼續(xù)遷移會(huì)導(dǎo)致“負(fù)遷移”的產(chǎn)生。Giorgi 等人基 于 LSTM 進(jìn)行網(wǎng)絡(luò)權(quán)重的遷移,首先將源領(lǐng)域模型參數(shù)遷移至目標(biāo)領(lǐng)域初始化,之后進(jìn)行微調(diào)使適應(yīng)任務(wù)需要。而 Yang 等人從跨領(lǐng)域、跨應(yīng)用、跨語(yǔ)言遷移出發(fā)測(cè)試模型遷移的可行性, 在 一 些 benchmarks 上實(shí)現(xiàn)了 state-of-the-art。整體而言,在處理 NER 任務(wù)時(shí)良好的語(yǔ)義空間結(jié)合深度模型將起到不錯(cuò)的效果,在遷移過(guò)程中模型層次的選擇和適應(yīng)是難點(diǎn)。

基于特征變換的NER方法

在面向少量標(biāo)注數(shù)據(jù) NER 任務(wù)時(shí),我們希望遷移領(lǐng)域知識(shí)以實(shí)現(xiàn)數(shù)據(jù)的共享和模型的共建,在上文中我們從模型遷移的角度出發(fā),它們?cè)诮鉀Q領(lǐng)域相近的任務(wù)時(shí)表現(xiàn)良好,但當(dāng)領(lǐng)域之間存在較大差異時(shí),模型無(wú)法捕獲豐富、復(fù)雜的跨域信息。因此,在跨領(lǐng)域任務(wù)中,一種新的思路是在特征變換上改進(jìn),從而解決領(lǐng)域數(shù)據(jù)適配性差的問(wèn)題。基于特征變換的方法是通過(guò)特征互相轉(zhuǎn)移或者將源域和目標(biāo)域的數(shù)據(jù)特征映射到統(tǒng)一特征空間,來(lái)減少領(lǐng)域之間差異的學(xué)習(xí)過(guò)程,下面主要從特征選擇和特征映射的角度進(jìn)行探討。

(1)特征選擇。即通過(guò)一定的度量方法選取相似特征并轉(zhuǎn)換,在源域和目標(biāo)域之間構(gòu)建有效的橋梁的策略。例如 Daume 等人通過(guò)特征空間預(yù)處理實(shí)現(xiàn)目標(biāo)域和源域特征組合,在只有兩個(gè)域的任務(wù)中,擴(kuò)展特征空間 R^F 至 R^3F,對(duì)應(yīng)于域問(wèn)題,擴(kuò)展特征空間至 R^(K+1)F。然而當(dāng) Yi 與 YJ 標(biāo)簽空間差異較大時(shí),這種線性組合效果可能不理想,Kim 等人從不同的角度出發(fā),進(jìn)行標(biāo)簽特征的變換,第一種是將細(xì)粒度標(biāo)簽泛化為粗粒度標(biāo)簽。例如源域標(biāo)簽中 泛化為

(2)特征映射。即為了減少跨領(lǐng)域數(shù)據(jù)的偏置,在不同領(lǐng)域之間構(gòu)建資源共享的特征空間,并將各領(lǐng)域的初始特征映射到該共享空間上。利用預(yù)測(cè)的源標(biāo)簽嵌入至目標(biāo)領(lǐng)域是一種常見(jiàn)策略。例如,Qu 等人從領(lǐng)域和標(biāo)簽差異出發(fā),首先訓(xùn)練大規(guī)模源域數(shù)據(jù),再度量源域和目標(biāo)域?qū)嶓w類型相關(guān)性,最后通過(guò)模型遷移的方式微調(diào)。其基本步驟為:

1、通過(guò) CRF學(xué)習(xí)大規(guī)模數(shù)據(jù)的知識(shí);

2、使用雙層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)源域與目標(biāo)域的命名實(shí)體的相關(guān)性;

3、利用 CRF 訓(xùn)練目標(biāo)域的命名實(shí)體。

實(shí)驗(yàn)結(jié)果顯示相較于 Baseline 方法 Deep-CRF,TransInit 方法能提高 160% 的性能。

標(biāo)簽嵌入的方式在領(lǐng)域之間有較多共享標(biāo)簽特征時(shí)遷移效果不錯(cuò),但是這種假設(shè)在現(xiàn)實(shí)世界中并不普遍。一種新的思路是在編解碼中進(jìn)行嵌入適配(如圖 5),這種方式利用來(lái)自預(yù)訓(xùn)練源模型的參數(shù)初始化 Bi-LSTM-CRF 基礎(chǔ)模型,并嵌入詞語(yǔ)、句子和輸入級(jí)適配。具體而言,在詞級(jí)適配中,嵌入核心領(lǐng)域詞組以解決輸入特征空間的領(lǐng)域漂移現(xiàn)象。在句子級(jí)適配中,根據(jù)來(lái)自目標(biāo)域的標(biāo)記數(shù)據(jù),映射學(xué)習(xí)過(guò)程中捕獲的上下文信息。在輸出級(jí)適配中將來(lái)自 LSTM 層輸出的隱藏狀態(tài)作為其輸入,為重構(gòu)的 CRF 層生成一系列新的隱藏狀態(tài),進(jìn)而減少了知識(shí)遷移中的損失。

2288b800-4691-11eb-8b86-12bb97331649.png

圖5特征變換方法TransInit實(shí)驗(yàn)結(jié)果

基于知識(shí)鏈接的NER方法

基于知識(shí)鏈接的 NER,即使用本體、知識(shí)庫(kù)等結(jié)構(gòu)化資源來(lái)啟發(fā)式地標(biāo)記數(shù)據(jù),將數(shù)據(jù)的結(jié)構(gòu)關(guān)系作為共享對(duì)象,從而幫助解決目標(biāo) NER 任務(wù),其本質(zhì)上是一種基于遠(yuǎn)程監(jiān)督的學(xué)習(xí)方式,利用外部知識(shí)庫(kù)和本體庫(kù)來(lái)補(bǔ)充標(biāo)注實(shí)體。例如 Lee 等人的框架(如圖 6),在 Distant supervision 模塊,將文本序列與 NE詞典中的條目進(jìn)行匹配,自動(dòng)為帶有 NE 類別的大量原始語(yǔ)料添加標(biāo)簽,然后利用 bagging和主動(dòng)學(xué)習(xí)完善弱標(biāo)簽語(yǔ)料,從而實(shí)現(xiàn)語(yǔ)料的精煉。一般而言,利用知識(shí)庫(kù)和本體庫(kù)中的鏈接信息和詞典能實(shí)現(xiàn)較大規(guī)模的信息抽取任務(wù),這種方法有利于快速實(shí)現(xiàn)任務(wù)需求。

22c42214-4691-11eb-8b86-12bb97331649.png

圖6知識(shí)鏈接與數(shù)據(jù)增強(qiáng)結(jié)合模型

(1)基于知識(shí)庫(kù)。這種方式通常借用外部的知識(shí)庫(kù)來(lái)處理 NER、關(guān)系抽取、屬性抽取等任務(wù),在現(xiàn)實(shí)世界中如 Dbpedia、YAGO、百度百科等知識(shí)庫(kù)存在海量結(jié)構(gòu)化信息,利用這些知識(shí)庫(kù)的結(jié)構(gòu)化信息框、日志信息可以抽取出海量知識(shí)。例如,Richman 等人利用維基百科知識(shí)設(shè)計(jì)了一種 NER 的系統(tǒng),這種方法利用維基百科類別鏈接將短語(yǔ)與類別集相關(guān)聯(lián),然后確定短語(yǔ)的類型。類似地,Pan 等人利用一系列知識(shí)庫(kù)挖掘方法為 200 多種語(yǔ)言開(kāi)發(fā)了一種跨語(yǔ)言的名稱標(biāo)簽和鏈接結(jié)構(gòu)。在實(shí)踐中,較為普遍的是聯(lián)合抽取實(shí)體和實(shí)體關(guān)系。例如Ren 等的做法,該方法重點(diǎn)解決領(lǐng)域上下文

無(wú)關(guān)和遠(yuǎn)程監(jiān)督中的噪聲問(wèn)題,其基本步驟為:

1、利用 POS 對(duì)文本語(yǔ)料進(jìn)行切割以獲得提及的實(shí)體;

2、生成實(shí)體關(guān)系對(duì);

3、捕獲實(shí)體與實(shí)體關(guān)系的淺層語(yǔ)法及語(yǔ)義特征;

4、訓(xùn)練模型并抽取正確的實(shí)體及關(guān)系。

在 NYT 等語(yǔ)料上進(jìn)行實(shí)驗(yàn)(如表 2),基于知識(shí)庫(kù)的方法相較于基線方法有顯著提高。

表2不同語(yǔ)料下實(shí)體的F1值

22ff9e3e-4691-11eb-8b86-12bb97331649.png

(2)基于本體系統(tǒng)。該方式通過(guò)一定的規(guī)則,將本體庫(kù)中的概念映射為實(shí)體。例如史樹(shù)敏等人通過(guò)構(gòu)建的 MPO 本體,首先利用CRF 獲得高召回率的實(shí)體,再融合規(guī)則過(guò)濾噪聲,最終獲得較為精確的匹配模式。相似地,Lima 等人通過(guò)開(kāi)發(fā)出 OntoLPER 本體系統(tǒng),并利用較高的表達(dá)關(guān)系假設(shè)空間來(lái)表示與實(shí)體—實(shí)體關(guān)系結(jié)構(gòu),在這個(gè)過(guò)程中利用歸納式邏輯編程產(chǎn)生抽取規(guī)則,這些抽取規(guī)則從基

于圖表示的句子模型中抽取特定的實(shí)體和實(shí)體關(guān)系實(shí)例。同樣地,李貫峰等人首先從 Web網(wǎng)頁(yè)提取知識(shí)構(gòu)建農(nóng)業(yè)領(lǐng)域本體,之后將本體解析的結(jié)果應(yīng)用在 NER 任務(wù)中,使得 NER 的結(jié)果更為準(zhǔn)確。這些方法利用本體中的語(yǔ)義結(jié)構(gòu)和解析器完成實(shí)體的標(biāo)準(zhǔn)化,在面向少量標(biāo)注的 NER 中也能發(fā)揮出重要作用。

四種方法比較

上述所介紹的 4 種面向少量標(biāo)注的 NER 方法各有特點(diǎn),本文從領(lǐng)域泛化能力、模型訓(xùn)練速度、對(duì)標(biāo)注數(shù)據(jù)的需求和各方法的優(yōu)缺點(diǎn)進(jìn)行了細(xì)致地比較,整理分析的內(nèi)容如表 3 所示。

2423db72-4691-11eb-8b86-12bb97331649.png

面向少量標(biāo)注數(shù)據(jù) NER,最直接的方法是數(shù)據(jù)增強(qiáng),通過(guò)優(yōu)先挑選高質(zhì)量樣本參與訓(xùn)練,這種方法在窄域中能實(shí)現(xiàn)較高的準(zhǔn)確率。但是針對(duì)不同領(lǐng)域所需的策略也不同,領(lǐng)域的泛化能力一般。模型遷移從海量無(wú)結(jié)構(gòu)化文本中獲取知識(shí),這種方式對(duì)目標(biāo)領(lǐng)域的數(shù)據(jù)需求較少,只需“微調(diào)”模型避免了重新訓(xùn)練的巨大開(kāi)銷(xiāo),但是它依賴領(lǐng)域的強(qiáng)相關(guān)性,當(dāng)領(lǐng)域差異性太大時(shí),容易產(chǎn)生域適應(yīng)問(wèn)題。

相較于模型遷移,特征變換更加注重細(xì)粒度知識(shí)表示,這種方法利用特征重組和映射,豐富特征表示,減少知識(shí)遷移中的損失,在一定程度上能實(shí)現(xiàn)“零樣本”學(xué)習(xí),但是這種方法往往難以求出優(yōu)化解,過(guò)適配現(xiàn)象也會(huì)造成消極影響。知識(shí)鏈接能利用任何結(jié)構(gòu)化信息,通過(guò)知識(shí)庫(kù)、本體庫(kù)中的語(yǔ)義關(guān)系來(lái)輔助抽取目標(biāo)實(shí)體,但是這種方法易產(chǎn)生噪聲,實(shí)體的映射匹配依賴強(qiáng)假設(shè)條件,所需的知識(shí)庫(kù)通常難以滿足領(lǐng)域?qū)嶓w的抽取。

方法評(píng)測(cè)比較

如表4所示四類面向少量標(biāo)注數(shù)據(jù)的典型方法與評(píng)測(cè)信息如下:

24b6c9f0-4691-11eb-8b86-12bb97331649.png

結(jié)語(yǔ)

當(dāng)有大量標(biāo)注數(shù)據(jù)可供模型訓(xùn)練時(shí),NER任務(wù)往往能夠得到很好的結(jié)果。但是在一些專業(yè)領(lǐng)域比如生物醫(yī)藥領(lǐng)域,標(biāo)注數(shù)據(jù)往往非常稀缺,又由于其領(lǐng)域的專業(yè)性,需要依賴領(lǐng)域?qū)<疫M(jìn)行數(shù)據(jù)標(biāo)注,這將大大增加數(shù)據(jù)的標(biāo)注成本。而如果只用少量的標(biāo)注數(shù)據(jù)就能得到同等效果甚至更好的效果,這將有利于降低數(shù)據(jù)標(biāo)注成本。

參考資料

[1]石教祥,朱禮軍,望俊成,王政,魏超.面向少量標(biāo)注數(shù)據(jù)的命名實(shí)體識(shí)別研究[J].情報(bào)工程,2020,6(04):37-50.

責(zé)任編輯:xj

原文標(biāo)題:綜述 | 少量標(biāo)注數(shù)據(jù)下的命名實(shí)體識(shí)別研究

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7145

    瀏覽量

    89584
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5516

    瀏覽量

    121556
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22110

原文標(biāo)題:綜述 | 少量標(biāo)注數(shù)據(jù)下的命名實(shí)體識(shí)別研究

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車(chē)載語(yǔ)音系統(tǒng)數(shù)據(jù)標(biāo)注

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 12-24 14:24 ?214次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>案例分享:車(chē)載語(yǔ)音系統(tǒng)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>

    ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    識(shí)別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語(yǔ)音識(shí)別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語(yǔ)音
    的頭像 發(fā)表于 11-18 15:22 ?643次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)學(xué)習(xí)識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。
    的頭像 發(fā)表于 10-23 15:25 ?1278次閱讀

    深度識(shí)別算法包括哪些內(nèi)容

    深度識(shí)別算法是深度學(xué)習(xí)領(lǐng)域的一個(gè)重要組成部分,它利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入
    的頭像 發(fā)表于 09-10 15:28 ?474次閱讀

    pwm脈寬調(diào)制的四種方法有哪些

    于電機(jī)控制、LED調(diào)光、音頻處理等領(lǐng)域。以下是四種常見(jiàn)的PWM脈寬調(diào)制方法: 固定頻率PWM(Fixed-Frequency PWM) 固定頻率PWM是一最基本的PWM調(diào)制方法。在這
    的頭像 發(fā)表于 08-08 15:10 ?1713次閱讀

    負(fù)反饋的四種類型及判斷方法

    類型及其判斷方法。 一、負(fù)反饋的四種類型 比例負(fù)反饋 比例負(fù)反饋是指系統(tǒng)輸出與輸入之間的反饋關(guān)系是線性的,即輸出的變化與輸入的變化成正比。在比例負(fù)反饋中,當(dāng)系統(tǒng)輸出增加時(shí),輸入會(huì)相應(yīng)減少,反之亦然。這種反饋機(jī)制有
    的頭像 發(fā)表于 08-02 11:01 ?2941次閱讀

    圖像識(shí)別算法都有哪些方法

    圖像識(shí)別算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一,它涉及到從圖像中提取特征并進(jìn)行分類、識(shí)別和分析的過(guò)程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,圖像
    的頭像 發(fā)表于 07-16 11:14 ?6067次閱讀

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法是一個(gè)涉及多個(gè)技術(shù)領(lǐng)域的復(fù)雜話題,包括計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、以及圖像處理等。在這里,我將概述一個(gè)基本的
    的頭像 發(fā)表于 07-14 11:52 ?1324次閱讀

    深度學(xué)習(xí)中的時(shí)間序列分類方法

    的發(fā)展,基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動(dòng)特征提取和分類能力。本文將從多個(gè)角度對(duì)深度學(xué)習(xí)在時(shí)間序列分類中的應(yīng)用
    的頭像 發(fā)表于 07-09 15:54 ?1169次閱讀

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來(lái)在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。然而,
    的頭像 發(fā)表于 07-09 10:50 ?953次閱讀

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:52 ?409次閱讀
    車(chē)載語(yǔ)音<b class='flag-5'>識(shí)別</b>系統(tǒng)語(yǔ)音<b class='flag-5'>數(shù)據(jù)</b>采集<b class='flag-5'>標(biāo)注</b>案例

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:49 ?574次閱讀

    基于深度學(xué)習(xí)的鳥(niǎo)類聲音識(shí)別系統(tǒng)

    模型被用于對(duì)鳥(niǎo)類聲音數(shù)據(jù)進(jìn)行高精度的分類。然而,現(xiàn)有的大多數(shù)鳥(niǎo)類聲音識(shí)別模型的泛化能力較差,并且采用復(fù)雜的算法來(lái)提取鳥(niǎo)類聲音特征。為了解決這些問(wèn)題,本文構(gòu)建了一個(gè)包含264鳥(niǎo)類的大
    發(fā)表于 05-30 20:30

    語(yǔ)音識(shí)別的技術(shù)歷程及工作原理

    語(yǔ)音識(shí)別的本質(zhì)是一基于語(yǔ)音特征參數(shù)的模式識(shí)別,即通過(guò)學(xué)習(xí),系統(tǒng)能夠把輸入的語(yǔ)音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3866次閱讀
    語(yǔ)音<b class='flag-5'>識(shí)別的</b>技術(shù)歷程及工作原理

    在全志V853平臺(tái)上成功部署深度學(xué)習(xí)步態(tài)識(shí)別算法

    北理工通信課題組辛喆同學(xué)在本科畢業(yè)設(shè)計(jì)《基于嵌入式系統(tǒng)的步態(tài)識(shí)別的研究》中,成功將深度步態(tài)識(shí)別算法GaitSet移植到全志V853開(kāi)發(fā)板上。本研究在CASIA-B數(shù)據(jù)集上
    發(fā)表于 03-04 10:15
    主站蜘蛛池模板: 免费亚洲一区 | 色综合成人丁香 | 免费看欧美一级特黄a大片一 | 天天摸天天干 | 国产精品爽爽影院在线 | 美女张开腿露尿口给男人亲 | 国产福利萌白酱喷水视频铁牛 | 国产免费一级高清淫日本片 | 美女被异性狂揉下部羞羞视频 | 午夜小视频网站 | 中出丰满大乳中文字幕 | 99久久99久久久精品齐齐鬼色 | 黄色在线观看视频 | 欧美区亚洲区 | 女人被男人免费播放网站 | 男女午夜剧场 | 日本成人在线网址 | 欧美八区| 日韩a毛片免费全部播放完整 | 99久久精品费精品国产 | 久久精品亚洲一级毛片 | 99久久久久国产精品免费 | 韩国一级网站 | 亚洲国产成人精品女人久久久 | 99久久精品免费精品国产 | 午夜影音 | 免费亚洲视频在线观看 | 国产色婷婷精品综合在线手机播放 | 日本一区高清视频 | 真人一级一级特黄高清毛片 | 高清视频一区 | 色老头在线官方网站 | 四虎sihu新版影院亚洲精品 | 超级乱淫视频播放日韩 | 国产成人三级经典中文 | 久久久久久久国产精品电影 | 特黄视频免费看 | 免费在线观看一级毛片 | 久久精品国产免费高清 | 日本免费不卡在线一区二区三区 | 精品卡一卡二 卡四卡视频 精品噜噜噜噜久久久久久久久 |