在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

跨語(yǔ)言命名實(shí)體識(shí)別:無(wú)監(jiān)督多任務(wù)多教師蒸餾模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-07-21 11:12 ? 次閱讀

前言 這是一篇來(lái)自于 ACL 2022 的關(guān)于跨語(yǔ)言的 NER 蒸餾模型。主要的過(guò)程還是兩大塊:1)Teacher Model 的訓(xùn)練;2)從 Teacher Model 蒸餾到 Student Model。采用了類(lèi)似傳統(tǒng)的 Soft 蒸餾方式,其中利用了多任務(wù)的方式對(duì) Teacher Model 進(jìn)行訓(xùn)練,一個(gè)任務(wù)是 NER 訓(xùn)練的任務(wù),另一個(gè)是計(jì)算句對(duì)的相似性任務(wù)。整體思路還是采用了序列標(biāo)注的方法,也是一個(gè)不錯(cuò)的 IDEA。

bbd5155e-0818-11ed-ba43-dac502259ad0.png

論文標(biāo)題:

An Unsupervised Multiple-Task and Multiple-Teacher Model for Cross-lingual Named Entity Recognition

論文鏈接:

https://aclanthology.org/2022.acl-long.14.pdf

模型架構(gòu)

2.1 Teacher Model

bc228672-0818-11ed-ba43-dac502259ad0.png

圖1.Teacher Model訓(xùn)練架構(gòu) 從上圖可以明顯的看出,Teacher Model 在進(jìn)行訓(xùn)練時(shí),采用了兩種不同的 Labeled Data,一種是傳統(tǒng)的單文本序列標(biāo)注數(shù)據(jù);另一種是句對(duì)類(lèi)型的序列標(biāo)注數(shù)據(jù),然后通過(guò)三個(gè)獨(dú)立的 Encoder 編碼器進(jìn)行特征抽取,一個(gè)任務(wù)就是我們常用的 NER 訓(xùn)練任務(wù),也就是將 Encoder 編碼器的輸出經(jīng)過(guò)一個(gè)線(xiàn)性層映射為標(biāo)簽數(shù)的特征矩陣,對(duì)映射的特征矩陣進(jìn)行 softmax 歸一化(這里筆者理解就是 NER 任務(wù)中的 BERT+Softmax 模型),利用歸一化后的特征矩陣與輸入的 labels 進(jìn)行 loss 計(jì)算,這里采用的是 CrossEntropyLoss。需要明確具體的是作者采用了 Multilingual BERT(也就是 mBert)作為編碼器,計(jì)算公式如下:

bc4ad780-0818-11ed-ba43-dac502259ad0.png

首先利用 mBERT 提取輸入文本序列的特征 ,這里的 表示的是:

bc5d9802-0818-11ed-ba43-dac502259ad0.png

將計(jì)算得到的文本序列隱藏向量經(jīng)過(guò)一個(gè)線(xiàn)性變換后進(jìn)行 softmax 歸一化,計(jì)算如下:

bc79c93c-0818-11ed-ba43-dac502259ad0.png

以上就是 Teacher Model 的第一個(gè)任務(wù),直接對(duì)標(biāo)注序列進(jìn)行 NER,并且采用交叉熵?fù)p失函數(shù)作為 loss_function,計(jì)算如下:

bc86e306-0818-11ed-ba43-dac502259ad0.png

另外一個(gè)任務(wù)輸入的為序列標(biāo)注的句對(duì)數(shù)據(jù),分別采用兩個(gè)獨(dú)立的Encoder編碼器進(jìn)行編碼,得到的對(duì)應(yīng)的 last_hidden_state,然后計(jì)算這兩個(gè)輸出的 cosine_similar,并且將其使用 進(jìn)行激活,得到兩個(gè)序列的相似度向量,計(jì)算如下:

bc983bf6-0818-11ed-ba43-dac502259ad0.png

bca8edac-0818-11ed-ba43-dac502259ad0.png

這里也就是一個(gè)類(lèi)似于 senetnce_similar 的操作,不同點(diǎn)在于這里計(jì)算的是序列中每個(gè) Token 的相似度。通過(guò)對(duì)比句對(duì)序列標(biāo)簽得到一個(gè) ,這里 時(shí)表示 (預(yù)測(cè)正確),反正的話(huà),。到了計(jì)算相似度時(shí),損失函數(shù)的設(shè)計(jì)就是基于 的,計(jì)算公式如下:

bcb888b6-0818-11ed-ba43-dac502259ad0.png

這里的 是 BinaryCrossEntropy。這里的 是句對(duì)序列所對(duì)應(yīng)的標(biāo)簽通過(guò)比對(duì)得到的對(duì)比標(biāo)簽序列,也就是對(duì)于兩個(gè)句子序列標(biāo)簽

bcc89224-0818-11ed-ba43-dac502259ad0.png

來(lái)說(shuō),其生成的 ,通過(guò)這樣的損失設(shè)計(jì)就可以很直觀的理解 sim_loss 的計(jì)算了。 Tips:對(duì)于式(6)這里采用二元交叉熵(BCE)來(lái)計(jì)算 loss,筆者的理解是對(duì)輸入句對(duì)中的每個(gè) Token 的相似度進(jìn)行一個(gè)二分類(lèi),其最終目標(biāo)是使得具有相同標(biāo)簽的句對(duì)更加的靠近,也就是相似度更高。BCE 是用來(lái)評(píng)判一個(gè)二分類(lèi)模型預(yù)測(cè)結(jié)果 的好壞程度的,通俗的講,即對(duì)于標(biāo)簽 y 為 1 的情況,如果預(yù)測(cè)值 p(y) 趨近于 1,那么損失函數(shù)的值應(yīng)當(dāng)趨近于 0。反之,如果此時(shí)預(yù)測(cè)值 p(y) 趨近于 0,那么損失函數(shù)的值應(yīng)當(dāng)非常大,這非常符合 log 函數(shù)的性質(zhì)。 Teacher Model 的設(shè)計(jì)總體上就是這樣的,通過(guò)兩個(gè)任務(wù)來(lái)增加 Teacher Model 的準(zhǔn)確性和泛化性,對(duì)于實(shí)體識(shí)別來(lái)說(shuō),使用句對(duì)相似度的思想來(lái)拉近具有相同標(biāo)簽的 Token,并且結(jié)合傳統(tǒng)的 NER 模型(mBERT+softmax)可以使得模型的學(xué)習(xí)更加有指向性,不單單靠一個(gè)序列標(biāo)簽來(lái)指導(dǎo)模型學(xué)習(xí),筆者任務(wù)這是一個(gè)不錯(cuò)的思路。

2.2 Student Model Distilled

bce14f62-0818-11ed-ba43-dac502259ad0.png

圖2.Teacher Model--Student Model Distilled 上面筆者分析了 Teacher Model 的訓(xùn)練,但這不是重點(diǎn),筆者認(rèn)為本篇文章在于作者在進(jìn)行蒸餾時(shí)的想法是有亮點(diǎn)的。從蒸餾流程圖可以看出來(lái),作者使用的 Student Model 也是一個(gè)雙塔 mBERT 模型作為編碼器,輸入的就是 Unlabeled Pairwise Data,其操作就是把 Teacher Model 的多任務(wù)直接進(jìn)行統(tǒng)一,模型架構(gòu)變化不大。蒸餾過(guò)程也是通用的蒸餾模式,Teacher Model 預(yù)測(cè),Student Model 學(xué)習(xí)。 2.2.1 Teacher Model Inference Teacher Model 預(yù)測(cè)這一部分沒(méi)啥可說(shuō)的,就是把無(wú)標(biāo)簽的數(shù)據(jù)輸入到模型中,得到輸出的 ner_logits 和 similar_logits。這也是蒸餾模型的常規(guī)操作了,這里需要注意的是在使用 Teacher Model 進(jìn)行預(yù)測(cè)時(shí),輸入的數(shù)據(jù)是有講究的,筆者對(duì)于這里的理解有兩個(gè):一個(gè)是是模型輸入的是句對(duì)數(shù)據(jù),只不過(guò)從這個(gè)句對(duì)數(shù)據(jù)中抽取一條輸入到 Recognizer_teacher 中進(jìn)行識(shí)別;另一個(gè)是作者采用了 BERT 模型的句對(duì)輸入方式,輸入的就是一個(gè)句對(duì),只不過(guò)使用了 [SEP] 標(biāo)簽進(jìn)行分隔,具體是哪一種筆者也不知道,理解了的讀者可以告訴筆者一下。而且在 Teacher Model 訓(xùn)練時(shí),筆者也不知道采用哪種數(shù)據(jù)輸入方式。 2.2.2 Student Model Learning Student Model 這一部分輸入的就是 target 文本序列對(duì),Student Model 的編碼器也是一個(gè)雙塔的 mBert 模型,分別對(duì)輸入的 target 序列進(jìn)行進(jìn)行編碼,這里也是進(jìn)行一個(gè) BERT+Softmax 的基本操作,在此期間也使用了序列 Token 相似度計(jì)算的操作,具體的計(jì)算如下所示:

bd015afa-0818-11ed-ba43-dac502259ad0.png

bd12941e-0818-11ed-ba43-dac502259ad0.png

獲得兩個(gè)序列的hidden_state后進(jìn)行一個(gè)線(xiàn)性計(jì)算,然后利用softmax進(jìn)行歸一化,得到每個(gè)Token預(yù)測(cè)的標(biāo)簽,計(jì)算如下:

bd219aae-0818-11ed-ba43-dac502259ad0.png

bd336f22-0818-11ed-ba43-dac502259ad0.png

這里也類(lèi)似 Teacher Model 的計(jì)算方式,計(jì)算 target 序列間的Token相似度,計(jì)算如下所示:

bd461eb0-0818-11ed-ba43-dac502259ad0.png

當(dāng)然,這里做的是蒸餾模型,所以對(duì)于輸入到 Student Model 的序列對(duì),也是Teacher Model Inference 預(yù)測(cè)模型的輸入,通過(guò) Teacher Model 的預(yù)測(cè)計(jì)算得到一個(gè) teacher_ner_logits 和 teacher_similar_logits,將 teacher_ner_logits 分別與 通過(guò) CrossEntropyLoss 來(lái)計(jì)算 TS_ _Loss 和 TS_ _Loss,teacher_similar_logits 與 通過(guò) 計(jì)算 Similar_Loss,最終將幾個(gè) loss 進(jìn)行相加作為 DistilldeLoss。

這里作者還對(duì)每個(gè) TS_ _Loss,TS_ _Loss 分別賦予了權(quán)重 ,對(duì) Similar_Loss 賦予了權(quán)重 ,對(duì)最終的 DistilldeLoss 賦予權(quán)重 ,這樣的權(quán)重賦予能夠使得 Student Model 從 Teacher Model 學(xué)習(xí)到的噪聲減少。最終的 Loss 計(jì)算如下所示:

bd6865ec-0818-11ed-ba43-dac502259ad0.png

bd79f62c-0818-11ed-ba43-dac502259ad0.png

bd8fac4c-0818-11ed-ba43-dac502259ad0.png

bda48b62-0818-11ed-ba43-dac502259ad0.png

這里的權(quán)重 筆者認(rèn)為是用來(lái)控制 Student Model 學(xué)習(xí)傾向的參數(shù),首先對(duì)于 來(lái)說(shuō),由于 Student Model 輸入的是 Unlabeled 數(shù)據(jù),所以在進(jìn)行蒸餾學(xué)習(xí)時(shí),需要盡可能使得 Student Model 的輸出的 student_ner_logits 來(lái)對(duì)齊 Teacher Model 預(yù)測(cè)輸出的 teacher_ner_logits,由于不知道輸入的無(wú)標(biāo)簽數(shù)據(jù)的數(shù)據(jù)分布,所以設(shè)置一個(gè)權(quán)重參數(shù)來(lái)對(duì)整個(gè) Teacher Model 的預(yù)測(cè)標(biāo)簽進(jìn)行加權(quán),將各個(gè)無(wú)標(biāo)簽的輸入序列看作一個(gè)數(shù)據(jù)量較少的類(lèi)別。這里可以參考 在進(jìn)行數(shù)據(jù)標(biāo)簽不平衡時(shí)使用權(quán)重系數(shù)對(duì)各個(gè)標(biāo)簽進(jìn)行加權(quán)的操作。而且作者也分析了, 參數(shù)是一個(gè)隨著 Teacher Model 輸出而遞增的一個(gè)參數(shù)。如下圖所示:

bdbd9706-0818-11ed-ba43-dac502259ad0.png

圖3.α參數(shù)與Weight和F1 作者在文章中也給出了參數(shù) 的計(jì)算方式,具體而言就是跟 Student Model 的序列編碼有關(guān),計(jì)算如下所示:

bdd398c6-0818-11ed-ba43-dac502259ad0.png

對(duì)于 參數(shù)而言,其加權(quán)的對(duì)象是 Similar_Loss,也就是對(duì) Teacher Model 的相似度矩陣和Student Model 的相似度矩陣的交叉熵?fù)p失進(jìn)行加權(quán),參數(shù)的設(shè)置思路大致是當(dāng) Teacher Model 的 Similar_logits 接近 0 或 1 時(shí), 參數(shù)就較大,接近 0.5 時(shí)就較小,其目的也是讓 Student Model 學(xué)習(xí)更有用的信息,而不是一些似是而非的東西。其計(jì)算方式如下所示:

bde85e6e-0818-11ed-ba43-dac502259ad0.png

最后對(duì)于參數(shù) 來(lái)說(shuō),其作用是用來(lái)調(diào)整 NER 任務(wù)和 Similarity 任務(wù)一致性的參數(shù),對(duì)于兩個(gè)輸入的 Token,希望 Student Model 從 Teacher Model 的兩個(gè)任務(wù)中學(xué)習(xí) Teacher Model 的 NER 任務(wù)的高預(yù)測(cè)準(zhǔn)確率和 Similarity 任務(wù)遠(yuǎn)離 0.5 相似度的 Token 信息,反之亦然。其計(jì)算方式如下 所示:

bdfe1646-0818-11ed-ba43-dac502259ad0.png

實(shí)驗(yàn)結(jié)果

作者分別在 CoNLL 和 WiKiAnn 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)使用量如下圖所示:

be1de02a-0818-11ed-ba43-dac502259ad0.png

圖4.CoNLL and WiKiAnn數(shù)據(jù) 作者還與現(xiàn)有的一些 SOTA 模型進(jìn)行了對(duì)比,實(shí)驗(yàn)對(duì)比結(jié)果如下所示:

be68ca86-0818-11ed-ba43-dac502259ad0.png

圖5.實(shí)驗(yàn)對(duì)比結(jié)果 從實(shí)驗(yàn)對(duì)比結(jié)果圖可以看出,MTMT 模型在各方面都有不錯(cuò)的表現(xiàn),對(duì)于中文上的表現(xiàn)稍微不如 BERT-f 模型,其他部分語(yǔ)言上有著大幅度的領(lǐng)先。

簡(jiǎn)單代碼實(shí)現(xiàn)

#!/usr/bin/envpython
#-*-coding:utf-8-*-
#@Time:2022/5/3013:59
#@Author:SinGaln

"""
AnUnsupervisedMultiple-TaskandMultiple-TeacherModelforCross-lingualNamedEntityRecognition
"""

importtorch
importtorch.nnasnn
importtorch.nn.functionalasF
fromtransformersimportBertModel,BertPreTrainedModel,logging

logging.set_verbosity_error()


classTeacherNER(BertPreTrainedModel):
def__init__(self,config,num_labels):
"""
teacher模型是在標(biāo)簽數(shù)據(jù)上訓(xùn)練得到的,
主要分為三個(gè)encoder.
:paramconfig:
:paramnum_labels:
"""
super(TeacherNER,self).__init__(config)
self.config=config
self.num_labels=num_labels
self.mbert=BertModel(config=config)
self.fc=nn.Linear(config.hidden_size,num_labels)

defforward(self,batch_token_input_ids,batch_attention_mask,batch_token_type_ids,batch_labels,training=True,
batch_pair_input_ids=None,batch_pair_attention_mask=None,batch_pair_token_type_ids=None,
batch_t=None):
"""
:parambatch_token_input_ids:單句子token序列
:parambatch_attention_mask:單句子attention_mask
:parambatch_token_type_ids:單句子token_type_ids
:parambatch_pair_input_ids:句對(duì)token序列
:parambatch_pair_attention_mask:句對(duì)attention_mask
:parambatch_pair_token_type_ids:句對(duì)token_type_ids

"""
#RecognizerTeacher
single_output=self.mbert(input_ids=batch_token_input_ids,attention_mask=batch_attention_mask,
token_type_ids=batch_token_type_ids).last_hidden_state
single_output=F.softmax(self.fc(single_output),dim=-1)
#EvaluatorTeacher(類(lèi)似雙塔模型)
pair_output1=self.mbert(input_ids=batch_pair_input_ids[0],attention_mask=batch_pair_attention_mask[0],
token_type_ids=batch_pair_token_type_ids[0]).last_hidden_state
pair_output2=self.mbert(input_ids=batch_pair_input_ids[1],attention_mask=batch_pair_attention_mask[1],
token_type_ids=batch_pair_token_type_ids[1]).last_hidden_state
pair_output=torch.sigmoid(torch.cosine_similarity(pair_output1,pair_output2,dim=-1))#計(jì)算兩個(gè)輸出的cosine相似度
iftraining:
#計(jì)算loss,訓(xùn)練時(shí)采用平均loss作為模型最終的loss
loss1=F.cross_entropy(single_output.view(-1,self.num_labels),batch_labels.view(-1))
loss2=F.binary_cross_entropy(pair_output,batch_t.type(torch.float))
loss=loss1+loss2
returnsingle_output,loss
else:
returnsingle_output,pair_output


classStudentNER(BertPreTrainedModel):
def__init__(self,config,num_labels):
"""
student模型采用的也是一個(gè)雙塔結(jié)構(gòu)
:paramconfig:mBert的配置文件
:paramnum_labels:標(biāo)簽數(shù)量
"""
super(StudentNER,self).__init__(config)
self.config=config
self.num_labels=num_labels
self.mbert=BertModel(config=config)
self.fc1=nn.Linear(config.hidden_size,num_labels)
self.fc2=nn.Linear(config.hidden_size,num_labels)

defforward(self,batch_pair_input_ids,batch_pair_attention_mask,batch_pair_token_type_ids,batch_pair_labels,
teacher_logits,teacher_similar):
"""
:parambatch_pair_input_ids:句對(duì)token序列
:parambatch_pair_attention_mask:句對(duì)attention_mask
:parambatch_pair_token_type_ids:句對(duì)token_type_ids

"""
output1=self.mbert(input_ids=batch_pair_input_ids[0],attention_mask=batch_pair_attention_mask[0],
token_type_ids=batch_pair_token_type_ids[0]).last_hidden_state
output2=self.mbert(input_ids=batch_pair_input_ids[1],attention_mask=batch_pair_attention_mask[1],
token_type_ids=batch_pair_token_type_ids[1]).last_hidden_state
soft_output1,soft_output2=self.fc1(output1),self.fc2(output2)
soft_logits1,soft_logits2=F.softmax(soft_output1,dim=-1),F.softmax(soft_output2,dim=-1)
alpha1,alpha2=torch.square(torch.max(input=soft_logits1,dim=-1)[0]).mean(),torch.square(
torch.max(soft_logits2,dim=-1)[0]).mean()
output_similar=torch.sigmoid(torch.cosine_similarity(soft_output1,soft_output2,dim=-1))
soft_similar=torch.sigmoid(torch.cosine_similarity(soft_logits1,soft_logits2,dim=-1))
beta=torch.square(2*output_similar-1).mean()
gamma=1-torch.abs(soft_similar-output_similar).mean()
#計(jì)算蒸餾的loss
#teacherlogits與studentlogits1的loss
loss1=alpha1*(F.cross_entropy(soft_logits1,teacher_logits))
#teachersimilar與studentsimilar的loss
loss2=beta*(F.binary_cross_entropy(soft_similar,teacher_similar))
#teacherlogits與studentlogits2的loss
loss3=alpha2*(F.cross_entropy(soft_logits2,teacher_logits))
#finalloss
loss=gamma*(loss1+loss2+loss3).mean()
returnloss


if__name__=="__main__":
fromtransformersimportBertConfig

pretarin_path="./pytorch_mbert_model"

batch_pair1_input_ids=torch.randint(1,100,(2,128))
batch_pair1_attention_mask=torch.ones_like(batch_pair1_input_ids)
batch_pair1_token_type_ids=torch.zeros_like(batch_pair1_input_ids)
batch_labels1=torch.randint(1,10,(2,128))
batch_labels2=torch.randint(1,10,(2,128))
#t(對(duì)比兩個(gè)序列標(biāo)簽,相同為1,不同為0)
batch_t=torch.as_tensor(batch_labels1.numpy()==batch_labels2.numpy()).float()

batch_pair2_input_ids=torch.randint(1,100,(2,128))
batch_pair2_attention_mask=torch.ones_like(batch_pair2_input_ids)
batch_pair2_token_type_ids=torch.zeros_like(batch_pair2_input_ids)

batch_all_input_ids,batch_all_attention_mask,batch_all_token_type_ids,batch_all_labels=[],[],[],[]
batch_all_labels.append(batch_labels1)
batch_all_labels.append(batch_labels2)
batch_all_input_ids.append(batch_pair1_input_ids)
batch_all_input_ids.append(batch_pair2_input_ids)
batch_all_attention_mask.append(batch_pair1_attention_mask)
batch_all_attention_mask.append(batch_pair2_attention_mask)
batch_all_token_type_ids.append(batch_pair1_token_type_ids)
batch_all_token_type_ids.append(batch_pair2_token_type_ids)

config=BertConfig.from_pretrained(pretarin_path)
#teacher模型訓(xùn)練
teacher_model=TeacherNER.from_pretrained(pretarin_path,config=config,num_labels=10)
outputs,loss=teacher_model(batch_token_input_ids=batch_pair1_input_ids,
batch_attention_mask=batch_pair1_attention_mask,
batch_token_type_ids=batch_pair1_token_type_ids,batch_labels=batch_labels1,
batch_pair_input_ids=batch_all_input_ids,
batch_pair_attention_mask=batch_all_attention_mask,
batch_pair_token_type_ids=batch_all_token_type_ids,
training=True,batch_t=batch_t)
#student模型蒸餾
teacher_logits,teacher_similar=teacher_model(batch_token_input_ids=batch_pair1_input_ids,
batch_attention_mask=batch_pair1_attention_mask,
batch_token_type_ids=batch_pair1_token_type_ids,
batch_labels=batch_labels1,
batch_pair_input_ids=batch_all_input_ids,
batch_pair_attention_mask=batch_all_attention_mask,
batch_pair_token_type_ids=batch_all_token_type_ids,
training=False)

student_model=StudentNER.from_pretrained(pretarin_path,config=config,num_labels=10)
loss_all=student_model(batch_pair_input_ids=batch_all_input_ids,
batch_pair_attention_mask=batch_all_attention_mask,
batch_pair_token_type_ids=batch_all_token_type_ids,
batch_pair_labels=batch_all_labels,teacher_logits=teacher_logits,
teacher_similar=teacher_similar)
print(loss_all)

筆者自己實(shí)現(xiàn)的一部分代碼,可能不是原論文作者想表達(dá)的意思,讀者有疑問(wèn)的話(huà)可以一起討論一下^~^。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3776

    瀏覽量

    137201
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3488

    瀏覽量

    50021
  • 標(biāo)簽
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    18188

原文標(biāo)題:ACL2022 | 跨語(yǔ)言命名實(shí)體識(shí)別:無(wú)監(jiān)督多任務(wù)多教師蒸餾模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自然語(yǔ)言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別相對(duì)全面的介紹

    早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語(yǔ)料庫(kù)的統(tǒng)計(jì)方法在自然語(yǔ)言處理各個(gè)方面取得不錯(cuò)的效果之后,一大批機(jī)器學(xué)習(xí)的方法也出現(xiàn)在命名實(shí)體類(lèi)
    的頭像 發(fā)表于 04-17 10:12 ?5161次閱讀
    自然<b class='flag-5'>語(yǔ)言</b>基礎(chǔ)技術(shù)之<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>相對(duì)全面的介紹

    HanLP分詞命名實(shí)體提取詳解

    可能詞) 5.極速詞典分詞(速度快,精度一般) 6.用戶(hù)自定義詞典 7.標(biāo)準(zhǔn)分詞(HMM-Viterbi) 命名實(shí)體識(shí)別 1.實(shí)體機(jī)構(gòu)名識(shí)別(層疊HMM-Viterbi) 2.中國(guó)人名
    發(fā)表于 01-11 14:32

    基于結(jié)構(gòu)化感知機(jī)的詞性標(biāo)注與命名實(shí)體識(shí)別框架

    `上周就關(guān)于《結(jié)構(gòu)化感知機(jī)標(biāo)注框架的內(nèi)容》已經(jīng)分享了一篇《分詞工具Hanlp基于感知機(jī)的中文分詞框架》,本篇接上一篇內(nèi)容,繼續(xù)分享詞性標(biāo)注與命名實(shí)體識(shí)別框架的內(nèi)容。詞性標(biāo)注訓(xùn)練詞性標(biāo)注是分詞后緊接著
    發(fā)表于 04-08 14:57

    HanLP-命名實(shí)體識(shí)別總結(jié)

    的中國(guó)人名自動(dòng)識(shí)別研究》,大家可以百度一下看看 地名識(shí)別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》 機(jī)構(gòu)名
    發(fā)表于 07-31 13:11

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

    近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)命名實(shí)體識(shí)別(Named Entity Recognition,NER)也不例外,神經(jīng)
    的頭像 發(fā)表于 01-18 09:24 ?4826次閱讀
    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>中應(yīng)用的分析與總結(jié)

    深度學(xué)習(xí):四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別的方法

    整理介紹四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別的方法。 面向少量標(biāo)注數(shù)據(jù)的NER方法分類(lèi) 基于規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法在通用語(yǔ)料上能取得良好的效果,但在特定領(lǐng)域、小語(yǔ)種等缺乏標(biāo)注資源的情況下,NER 任務(wù)往往得
    的頭像 發(fā)表于 01-03 09:35 ?1.1w次閱讀
    深度學(xué)習(xí):四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的方法

    思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

    驗(yàn)階段走向?qū)嵱没=冢急伛Y語(yǔ)言與知識(shí)團(tuán)隊(duì)對(duì)中文細(xì)粒度命名實(shí)體識(shí)別任務(wù)進(jìn)行探索,并取得階段性進(jìn)展:在CLUE數(shù)據(jù)集Fine-Grain NER評(píng)測(cè)
    的頭像 發(fā)表于 02-22 18:27 ?2115次閱讀

    新型中文旅游文本命名實(shí)體識(shí)別設(shè)計(jì)方案

    傳統(tǒng)基于詞向量表示的命名實(shí)體識(shí)別方法通常忽略了字符語(yǔ)義信息、字符間的位置信息,以及字符和單詞的關(guān)聯(lián)關(guān)系。提出一種基于單詞字符引導(dǎo)注意力網(wǎng)絡(luò)( WCGAN)的中文旅游命名實(shí)體識(shí)別方法,利
    發(fā)表于 03-11 11:26 ?24次下載
    新型中文旅游文本<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>設(shè)計(jì)方案

    知識(shí)圖譜與訓(xùn)練模型相結(jié)合和命名實(shí)體識(shí)別的研究工作

    本次將分享ICLR2021中的三篇投遞文章,涉及知識(shí)圖譜與訓(xùn)練模型相結(jié)合和命名實(shí)體識(shí)別(NER)的研究工作。 文章概覽 知識(shí)圖譜和語(yǔ)言理解的聯(lián)合預(yù)訓(xùn)練(JAKET: Joint
    的頭像 發(fā)表于 03-29 17:06 ?4675次閱讀
    知識(shí)圖譜與訓(xùn)練<b class='flag-5'>模型</b>相結(jié)合和<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的研究工作

    命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

    命名實(shí)體識(shí)別(NER)是自然語(yǔ)言處理的核心應(yīng)用任務(wù)之一。傳統(tǒng)和深度命名實(shí)體識(shí)別方法嚴(yán)重依賴(lài)于大量
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的遷移學(xué)習(xí)相關(guān)研究分析

    基于字語(yǔ)言模型的中文命名實(shí)體識(shí)別系統(tǒng)

    造成的數(shù)據(jù)稀缺問(wèn)題,以及傳統(tǒng)字向量不能解決的一字多義問(wèn)題,文中使用在大規(guī)模無(wú)監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量,即利用語(yǔ)言模型生成上下文相關(guān)字向量以改進(jìn)中文NER
    發(fā)表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的中文<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>系統(tǒng)

    基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法

    在基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別過(guò)程中,字的向量化表示是重要步驟,而傳統(tǒng)的詞向量表示方法只是將字映射為單一向量,無(wú)法表征字的多義性。針對(duì)該問(wèn)題,通過(guò)嵌入BERT預(yù)訓(xùn)練語(yǔ)言模型,構(gòu)建BE
    發(fā)表于 06-03 11:30 ?3次下載

    關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

    引言 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子
    的頭像 發(fā)表于 09-22 16:05 ?3420次閱讀

    基于序列標(biāo)注的實(shí)體識(shí)別所存在的問(wèn)題

    實(shí)體識(shí)別通常被當(dāng)作序列標(biāo)注任務(wù)來(lái)做,序列標(biāo)注模型需要對(duì)實(shí)體邊界和實(shí)體類(lèi)別進(jìn)行預(yù)測(cè),從而
    的頭像 發(fā)表于 07-28 11:08 ?2077次閱讀

    什么是嵌套實(shí)體識(shí)別

    嵌套命名實(shí)體識(shí)別命名實(shí)體識(shí)別中的一個(gè)頗具挑戰(zhàn)的子問(wèn)題。我們?cè)凇?b class='flag-5'>實(shí)體識(shí)別LEAR論文閱讀筆記》與
    的頭像 發(fā)表于 09-30 15:19 ?2131次閱讀
    主站蜘蛛池模板: 色福利在线 | 嫩草影院久久国产精品 | 色多多最新地址福利地址 | 激情五月激情综合网 | 色优久久| 天天鲁天天爽精品视频 | 激情综合婷婷丁香六月花 | 欧美三级在线观看视频 | 一级特黄性色生活片一区二区 | 一二三区电影 | 午夜欧美视频 | 草馏社区| 三级天堂 | 午夜免费影视 | 一区二区三区视频网站 | 国产三级a三级三级天天 | 午夜欧美视频 | 亚洲成人一级片 | 全免费一级午夜毛片 | 午夜免费福利网站 | 色播影院性播免费看 | 欧美特黄一免在线观看 | 正在播放91大神调教偷偷 | 日本黄色小视频网站 | 久久香蕉国产线看观看亚洲片 | 99久久婷婷国产综合精品电影 | 国产精品视频网站你懂得 | 亚洲一本视频 | 人人插人人爱 | 午夜免费观看_视频在线观看 | 禁漫羞羞a漫入口 | 男人天堂网2021 | 精品成人在线 | 亚洲黄色小视频 | 久久久久久全国免费观看 | 欧美特级黄 | 狠狠狠狠狠操 | 欧美女同网站 | 亚洲影视大全 | 国产一卡二卡3卡4卡四卡在线视频 | 日本国产高清色www视频在线 |