91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深蘭在自然語言處理領(lǐng)域歐洲頂會(huì)上取得好成績(jī)

電子工程師 ? 來源:DeepBlue深蘭科技 ? 作者:DeepBlue深蘭科技 ? 2021-04-23 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2021年4月19-23日,EACL2021因疫情影響于線上正式召開,這是計(jì)算語言學(xué)和自然語言處理領(lǐng)域的重要國(guó)際會(huì)議,在Google Scholar計(jì)算語言學(xué)刊物指標(biāo)中排名第七。深蘭科技DeepBlueAI團(tuán)隊(duì)參加了Shared Task on Sarcasm and Sentiment Detection in Arabic 比賽,并在其兩個(gè)子任務(wù)諷刺檢測(cè)和情感識(shí)別中,分別獲得了第二名和第三名的好成績(jī),在深蘭榮譽(yù)榜上再添新篇。

29afae82-a39c-11eb-aece-12bb97331649.jpg

29afae82-a39c-11eb-aece-12bb97331649.jpg

獲獎(jiǎng)技術(shù)方案分享

任務(wù)介紹

諷刺檢測(cè)要求識(shí)別一段文字中是否包含諷刺的內(nèi)容,諷刺是當(dāng)前情感分析系統(tǒng)的主要挑戰(zhàn)之一,因?yàn)榫哂兄S刺性的句子通常用積極的表達(dá)方式去表示消極的情感。文本所表達(dá)的情感以及作者真正想表達(dá)的情感之間存在不同,這種情況給情感分析系統(tǒng)帶來了巨大的挑戰(zhàn)。

諷刺檢測(cè)、情感識(shí)別在其他語言中引起了很大的關(guān)注,但是在阿拉伯語上則沒有太多進(jìn)展,該任務(wù)則是針對(duì)阿拉伯語,針對(duì)給定的一個(gè)推特文本,判斷是積極、消極或者中立情感,以及是否具有諷刺性。

數(shù)據(jù)分析

任務(wù)數(shù)據(jù)集名字為ArSarcasm-v2[1],數(shù)據(jù)包含以下幾個(gè)字段,tweet, sarcasm, sentiment, dialect,tweet代表推特文本,sarcasm為諷刺檢測(cè)的標(biāo)簽,sentiment為情感分類的標(biāo)簽,dialect表示當(dāng)前文本確切屬于阿拉伯語中的哪個(gè)方言。

2a040f40-a39c-11eb-aece-12bb97331649.png

數(shù)據(jù)集統(tǒng)計(jì)如上圖所示,Arsarcasm-V2 共有12548條訓(xùn)練文本,其中MSA占比達(dá)到了68.2%,Maghrebi占比較少,僅有42條。此外我們還分析了具有諷刺文本中的情感分布情況,占比如下圖所示。可以看出諷刺文本中89%具有消極情感,只有3%具有正面情感,可見諷刺一般情況下傳遞消極的信息。

2a1afd68-a39c-11eb-aece-12bb97331649.png

模型

模型采用當(dāng)前比較流行的預(yù)訓(xùn)練模型,因?yàn)檎Z言為阿拉伯語,我們采用了專門針對(duì)阿拉伯語的預(yù)訓(xùn)練模型bert-large-arabertv02[2],以及多語言預(yù)訓(xùn)練模型xlm-roberta-large[3]。其中模型結(jié)構(gòu)如下,選取模型多層[CLS]位置的輸出進(jìn)行加權(quán)平均得到[CLS]位置向量,然后經(jīng)過全連接層,之后經(jīng)過Multi-sample dropout[4]得到損失。對(duì)于諷刺檢測(cè)為二分類,我們采用Binary Cross Entropy 損失函數(shù),對(duì)于情感識(shí)別為三分類,我們采用Cross Entropy損失函數(shù)。

2a3a4db2-a39c-11eb-aece-12bb97331649.png

Multi-sample dropout 是dropout的一種變種,傳統(tǒng) dropout 在每輪訓(xùn)練時(shí)會(huì)從輸入中隨機(jī)選擇一組樣本(稱之為 dropout 樣本),而 multi-sample dropout 會(huì)創(chuàng)建多個(gè) dropout 樣本,然后平均所有樣本的損失,從而得到最終的損失,multi-sample dropout 共享中間的全連接層權(quán)重。通過綜合 M 個(gè) dropout 樣本的損失來更新網(wǎng)絡(luò)參數(shù),使得最終損失比任何一個(gè) dropout 樣本的損失都低。這樣做的效果類似于對(duì)一個(gè) minibatch 中的每個(gè)輸入重復(fù)訓(xùn)練 M 次。因此,它大大減少訓(xùn)練迭代次數(shù),從而大幅加快訓(xùn)練速度。因?yàn)榇蟛糠诌\(yùn)算發(fā)生在 dropout 層之前的BERT層中,Multi-sample dropout 并不會(huì)重復(fù)這些計(jì)算,所以對(duì)每次迭代的計(jì)算成本影響不大。實(shí)驗(yàn)表明,multi-sample dropout 還可以降低訓(xùn)練集和驗(yàn)證集的錯(cuò)誤率和損失。

訓(xùn)練策略

任務(wù)自適應(yīng)預(yù)訓(xùn)練(TAPT)[5],在當(dāng)前和任務(wù)相關(guān)的數(shù)據(jù)集上進(jìn)行掩碼語言模型(MLM)訓(xùn)練,提升預(yù)訓(xùn)練模型在當(dāng)前數(shù)據(jù)集上的性能。

對(duì)抗訓(xùn)練是一種引入噪聲的訓(xùn)練方式,可以對(duì)參數(shù)進(jìn)行正則化,從而提升模型的魯棒性和泛化能力。我們采用FGM (Fast Gradient Method)[6],通過在嵌入層加入擾動(dòng),從而獲得更穩(wěn)定的單詞表示形式和更通用的模型,以此提升模型效果。

知識(shí)蒸餾[7]由Hinton在2015年提出,主要應(yīng)用在模型壓縮上,通過知識(shí)蒸餾用大模型所學(xué)習(xí)到的有用信息來訓(xùn)練小模型,在保證性能差不多的情況下進(jìn)行模型壓縮。我們將利用模型壓縮的思想,采用模型融合的方案,融合多個(gè)不同的模型作為teacher模型,將要訓(xùn)練的作為student模型。

假設(shè):采用arabertv模型,F(xiàn)1得分為70,采用不同參數(shù)、不同隨機(jī)數(shù),訓(xùn)練多個(gè)arabertv 模型融合后F1可以達(dá)到71;在采用xlm-roberta模型,訓(xùn)練多個(gè)模型后與arabertv模型進(jìn)行融合得到最終的F1為72。基于最后融合的多個(gè)模型,采用交叉驗(yàn)證的方式給訓(xùn)練集打上 soft label,此時(shí)的soft label已經(jīng)包含多個(gè)模型學(xué)到的知識(shí)。隨后再去訓(xùn)練arabertv模型,模型同時(shí)學(xué)習(xí)soft label以及本來hard label,學(xué)習(xí)soft label采用MSE損失函數(shù),學(xué)習(xí)hard label依舊采用交叉熵?fù)p失,通過這種方式訓(xùn)練出來的arabertv模型的F1可以達(dá)到71點(diǎn)多,最后將蒸餾學(xué)出來的模型再與原來的模型融合,得到最后的結(jié)果。

模型融合

為了更好地利用數(shù)據(jù),我們采用7折交叉驗(yàn)證,針對(duì)每一折我們使用了兩種預(yù)訓(xùn)練模型,又通過改變不同的參數(shù)隨機(jī)數(shù)種子以及不同的訓(xùn)練策略訓(xùn)練了多個(gè)模型,之后對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè)。為了更好地融合模型,我們針對(duì)諷刺檢測(cè)采用了線性回歸模型進(jìn)行融合,針對(duì)情感識(shí)別模型,采用支持向量機(jī)SVM進(jìn)行融合。

實(shí)驗(yàn)結(jié)果

評(píng)價(jià)標(biāo)準(zhǔn),針對(duì)諷刺檢測(cè),只評(píng)價(jià)諷刺類的F1,針對(duì)情感分類則對(duì)各個(gè)類的F1求平均,為了更好地評(píng)估模型的好壞,我們采用7折交叉驗(yàn)證的形式,以下結(jié)果是交叉驗(yàn)證結(jié)果的平均。

從下表中可以看出,無論是諷刺檢測(cè)任務(wù)還是情感分類任務(wù)都是XLM-Roberta 模型相對(duì)好一些,經(jīng)過TAPT和知識(shí)蒸餾后效果都有著顯著提升。對(duì)于諷刺檢測(cè)因?yàn)椴煌P椭g分?jǐn)?shù)相差比較大,直接求平均效果不行,而采用線性回歸后則達(dá)到了一個(gè)不錯(cuò)的水平,由于諷刺檢測(cè)類別不平衡,我們將閾值調(diào)整為0.41,即大于0.41為1類。同樣在情感分類任務(wù)中,由于多個(gè)模型之間的性能相差較大直接求平均也會(huì)造成性能的下降,我們最終采用SVM進(jìn)行模型融合。

2a5b6a6a-a39c-11eb-aece-12bb97331649.png

原文標(biāo)題:賽道 | 深蘭載譽(yù)自然語言處理領(lǐng)域歐洲頂會(huì)EACL2021

文章出處:【微信公眾號(hào):DeepBlue深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280038
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13656

原文標(biāo)題:賽道 | 深蘭載譽(yù)自然語言處理領(lǐng)域歐洲頂會(huì)EACL2021

文章出處:【微信號(hào):kmdian,微信公眾號(hào):深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自然語言提示原型英特爾Vision大會(huì)上首次亮相

    英特爾Vision大會(huì)上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動(dòng)的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?420次閱讀

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預(yù)處理優(yōu)化 文本清洗
    的頭像 發(fā)表于 12-05 15:30 ?1708次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于研究如何讓計(jì)算機(jī)能夠理解、解釋和生成人類
    的頭像 發(fā)表于 12-05 15:21 ?1988次閱讀

    語音識(shí)別與自然語言處理的關(guān)系

    人工智能的快速發(fā)展中,語音識(shí)別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1507次閱讀

    什么是LLM?LLM自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型(LLM)的出現(xiàn),標(biāo)志著我們對(duì)語言理解能力的一次
    的頭像 發(fā)表于 11-19 15:32 ?3664次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個(gè)重要分支,它們許多應(yīng)用中緊密結(jié)合,共同構(gòu)成了
    的頭像 發(fā)表于 11-18 15:19 ?1026次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為一種強(qiáng)大的模型,
    的頭像 發(fā)表于 11-15 14:58 ?807次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)自然語言處理中的應(yīng)用

    自然語言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其
    的頭像 發(fā)表于 11-15 09:41 ?820次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語言處理任務(wù)

    自然語言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體——長(zhǎng)短期記憶(LSTM)網(wǎng)
    的頭像 發(fā)表于 11-13 09:56 ?1165次閱讀

    自然語言處理的未來發(fā)展趨勢(shì)

    隨著技術(shù)的進(jìn)步,自然語言處理(NLP)已經(jīng)成為人工智能領(lǐng)域的一個(gè)重要分支。NLP的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成人類語言,這不僅涉及到語言
    的頭像 發(fā)表于 11-11 10:37 ?1727次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別

    人工智能的快速發(fā)展中,自然語言處理(NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1.
    的頭像 發(fā)表于 11-11 10:35 ?1556次閱讀

    自然語言處理的應(yīng)用實(shí)例

    在當(dāng)今數(shù)字化時(shí)代,自然語言處理(NLP)技術(shù)已經(jīng)成為我們?nèi)粘I畹囊徊糠帧闹悄苁謾C(jī)的語音助手到在線客服機(jī)器人,NLP技術(shù)的應(yīng)用無處不在。 1. 語音識(shí)別與虛擬助手 隨著Siri、Google
    的頭像 發(fā)表于 11-11 10:31 ?1618次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。大型
    的頭像 發(fā)表于 11-08 09:27 ?2460次閱讀

    Llama 3 自然語言處理中的優(yōu)勢(shì)

    自然語言處理(NLP)的快速發(fā)展中,我們見證了從基于規(guī)則的系統(tǒng)到基于機(jī)器學(xué)習(xí)的模型的轉(zhuǎn)變。隨著深度學(xué)習(xí)技術(shù)的興起,NLP領(lǐng)域迎來了新的突破。Llama 3,作為一個(gè)假設(shè)的先進(jìn)NLP模
    的頭像 發(fā)表于 10-27 14:22 ?732次閱讀

    AI大模型自然語言處理中的應(yīng)用

    AI大模型自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對(duì)AI大模型NLP中應(yīng)用的介紹: 一、核心應(yīng)用 文本生成 AI
    的頭像 發(fā)表于 10-23 14:38 ?1548次閱讀
    主站蜘蛛池模板: 日本一区二区免费在线观看 | 欧美黄页网| 伊人久久狼人 | 色香蕉在线观看 | 天天成人| 综合一个色 | 成年男人永久免费看片 | 大学生一级特黄的免费大片视频 | 亚洲国产激情在线一区 | 国产福利你懂的 | 一区二区三区高清视频在线观看 | 欧美一级精品高清在线观看 | 国产成人精品亚洲77美色 | 综合精品视频 | 成人欧美一区二区三区黑人3p | 亚洲免费在线观看视频 | 欧美亚洲韩国国产综合五月天 | 亚洲一级免费视频 | 午夜理伦片免费 | 狠狠干狠狠鲁 | 亚洲爱婷婷色婷婷五月 | 一级视频片 | 四虎国产精品免费久久影院 | 又黄又爽又猛大片录像 | 美脚连裤袜老师正在播放 | 亚洲成成品网站有线 | 操美女的视频网站 | 亚洲精品在线免费观看视频 | 日韩一级特黄毛片在线看 | 97久久综合区小说区图片专区 | 亚洲一区亚洲二区 | 丁香婷婷色 | 一级伦奸视频 | 国产黄色三级三级三级 | 黄色三级免费网站 | 在线天天干 | 天天插天天射天天干 | 欧美日一区 | 777成了人乱视频 | 日本三黄色大 | 国产精品久久福利网站 |