小说阅读器,欢乐颂小说在线阅读,欢乐颂第二季

2021年4月19-23日，EACL2021因疫情影響于線上正式召開，這是計算語言學和自然語言處理領域的重要國際會議，在Google Scholar計算語言學刊物指標中排名第七。深蘭科技DeepBlueAI團隊參加了Shared Task on Sarcasm and Sentiment Detection in Arabic 比賽，并在其兩個子任務諷刺檢測和情感識別中，分別獲得了第二名和第三名的好成績，在深蘭榮譽榜上再添新篇。

獲獎技術方案分享

任務介紹

諷刺檢測要求識別一段文字中是否包含諷刺的內容，諷刺是當前情感分析系統的主要挑戰之一，因為具有諷刺性的句子通常用積極的表達方式去表示消極的情感。文本所表達的情感以及作者真正想表達的情感之間存在不同，這種情況給情感分析系統帶來了巨大的挑戰。

諷刺檢測、情感識別在其他語言中引起了很大的關注，但是在阿拉伯語上則沒有太多進展，該任務則是針對阿拉伯語，針對給定的一個推特文本，判斷是積極、消極或者中立情感，以及是否具有諷刺性。

數據分析

任務數據集名字為ArSarcasm-v2［1］，數據包含以下幾個字段，tweet， sarcasm， sentiment， dialect，tweet代表推特文本，sarcasm為諷刺檢測的標簽，sentiment為情感分類的標簽，dialect表示當前文本確切屬于阿拉伯語中的哪個方言。

數據集統計如上圖所示，Arsarcasm-V2 共有12548條訓練文本，其中MSA占比達到了68.2%，Maghrebi占比較少，僅有42條。此外我們還分析了具有諷刺文本中的情感分布情況，占比如下圖所示。可以看出諷刺文本中89%具有消極情感，只有3%具有正面情感，可見諷刺一般情況下傳遞消極的信息。

模型

模型采用當前比較流行的預訓練模型，因為語言為阿拉伯語，我們采用了專門針對阿拉伯語的預訓練模型bert-large-arabertv02［2］，以及多語言預訓練模型xlm-roberta-large［3］。其中模型結構如下，選取模型多層［CLS］位置的輸出進行加權平均得到［CLS］位置向量，然后經過全連接層，之后經過Multi-sample dropout［4］得到損失。對于諷刺檢測為二分類，我們采用Binary Cross Entropy 損失函數，對于情感識別為三分類，我們采用Cross Entropy損失函數。

Multi-sample dropout 是dropout的一種變種，傳統 dropout 在每輪訓練時會從輸入中隨機選擇一組樣本（稱之為 dropout 樣本），而 multi-sample dropout 會創建多個 dropout 樣本，然后平均所有樣本的損失，從而得到最終的損失，multi-sample dropout 共享中間的全連接層權重。通過綜合 M 個 dropout 樣本的損失來更新網絡參數，使得最終損失比任何一個 dropout 樣本的損失都低。這樣做的效果類似于對一個 minibatch 中的每個輸入重復訓練 M 次。因此，它大大減少訓練迭代次數，從而大幅加快訓練速度。因為大部分運算發生在 dropout 層之前的BERT層中，Multi-sample dropout 并不會重復這些計算，所以對每次迭代的計算成本影響不大。實驗表明，multi-sample dropout 還可以降低訓練集和驗證集的錯誤率和損失。

訓練策略

任務自適應預訓練（TAPT）［5］，在當前和任務相關的數據集上進行掩碼語言模型（MLM）訓練，提升預訓練模型在當前數據集上的性能。

對抗訓練是一種引入噪聲的訓練方式，可以對參數進行正則化，從而提升模型的魯棒性和泛化能力。我們采用FGM （Fast Gradient Method）［6］，通過在嵌入層加入擾動，從而獲得更穩定的單詞表示形式和更通用的模型，以此提升模型效果。

知識蒸餾［7］由Hinton在2015年提出，主要應用在模型壓縮上，通過知識蒸餾用大模型所學習到的有用信息來訓練小模型，在保證性能差不多的情況下進行模型壓縮。我們將利用模型壓縮的思想，采用模型融合的方案，融合多個不同的模型作為teacher模型，將要訓練的作為student模型。

假設：采用arabertv模型，F1得分為70，采用不同參數、不同隨機數，訓練多個arabertv 模型融合后F1可以達到71；在采用xlm-roberta模型，訓練多個模型后與arabertv模型進行融合得到最終的F1為72。基于最后融合的多個模型，采用交叉驗證的方式給訓練集打上 soft label，此時的soft label已經包含多個模型學到的知識。隨后再去訓練arabertv模型，模型同時學習soft label以及本來hard label，學習soft label采用MSE損失函數，學習hard label依舊采用交叉熵損失，通過這種方式訓練出來的arabertv模型的F1可以達到71點多，最后將蒸餾學出來的模型再與原來的模型融合，得到最后的結果。

模型融合

為了更好地利用數據，我們采用7折交叉驗證，針對每一折我們使用了兩種預訓練模型，又通過改變不同的參數隨機數種子以及不同的訓練策略訓練了多個模型，之后對訓練集和測試集進行預測。為了更好地融合模型，我們針對諷刺檢測采用了線性回歸模型進行融合，針對情感識別模型，采用支持向量機SVM進行融合。

實驗結果

評價標準，針對諷刺檢測，只評價諷刺類的F1，針對情感分類則對各個類的F1求平均，為了更好地評估模型的好壞，我們采用7折交叉驗證的形式，以下結果是交叉驗證結果的平均。

從下表中可以看出，無論是諷刺檢測任務還是情感分類任務都是XLM-Roberta 模型相對好一些，經過TAPT和知識蒸餾后效果都有著顯著提升。對于諷刺檢測因為不同模型之間分數相差比較大，直接求平均效果不行，而采用線性回歸后則達到了一個不錯的水平，由于諷刺檢測類別不平衡，我們將閾值調整為0.41，即大于0.41為1類。同樣在情感分類任務中，由于多個模型之間的性能相差較大直接求平均也會造成性能的下降，我們最終采用SVM進行模型融合。

原文標題：賽道 | 深蘭載譽自然語言處理領域歐洲頂會EACL2021

文章出處：【微信公眾號：DeepBlue深蘭科技】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31711

瀏覽量
270511
自然語言

自然語言

+關注

關注
1

文章
291

瀏覽量
13407

原文標題：賽道 | 深蘭載譽自然語言處理領域歐洲頂會EACL2021

文章出處：【微信號：kmdian，微信公眾號：深蘭科技】歡迎添加關注！文章轉載請注明出處。

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它致力于研究如何讓計算機能夠理解、解釋和生成人類

發表于 12-05 15:21 ?766次閱讀

ASR與自然語言處理的結合

ASR（Automatic Speech Recognition，自動語音識別）與自然語言處理（NLP）是人工智能領域的兩個重要分支，它們在許多應用中緊密結合，共同構成了

發表于 11-18 15:19 ?548次閱讀

卷積神經網絡在自然語言處理中的應用

自然語言處理是人工智能領域的一個重要分支，它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展，卷積神經網絡（CNNs）作為一種強大的模型，

發表于 11-15 14:58 ?357次閱讀

自然語言處理與機器學習的區別

在人工智能的快速發展中，自然語言處理（NLP）和機器學習（ML）成為了兩個核心的研究領域。它們都致力于解決復雜的問題，但側重點和應用場景有所不同。 1.

發表于 11-11 10:35 ?796次閱讀

圖像識別技術包括自然語言處理嗎

圖像識別技術與自然語言處理是人工智能領域的兩個重要分支，它們在很多方面有著密切的聯系，但也存在一些區別。一、圖像識別技術與自然語言

發表于 07-16 10:54 ?959次閱讀

Transformer架構在自然語言處理中的應用

隨著人工智能技術的飛速發展，自然語言處理（NLP）領域取得了顯著的進步。其中，Transformer架構的提出，為NLP領域帶來了革命性的變

發表于 07-09 11:42 ?976次閱讀

自然語言處理技術有哪些

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個分支，它致力于使計算機能夠理解、解釋和生成人類語言。

發表于 07-03 14:30 ?1399次閱讀

自然語言處理模式的優點

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它致力于使計算機能夠理解、生成和處理人類

發表于 07-03 14:24 ?887次閱讀

自然語言處理技術的核心是什么

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，其核心目標是使計算機能夠理解、生成和處理人類

發表于 07-03 14:20 ?902次閱讀

自然語言處理是什么技術的一種應用

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它涉及到使用計算機技術來處理

發表于 07-03 14:18 ?1193次閱讀

自然語言處理包括哪些內容

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它涉及到計算機與人類語言之間的交互。NLP的目標是讓計算機能夠理解、生成

發表于 07-03 14:15 ?1227次閱讀

自然語言處理屬于人工智能的哪個領域

之間的交互，旨在使計算機能夠理解、生成和處理自然語言。 自然語言處理：人工智能的皇冠上的明珠引言人工智能作為一門跨學科的研究領域，涵蓋了

發表于 07-03 14:09 ?1587次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領域中的一個重要分支，它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能

發表于 07-02 18:16 ?1355次閱讀

自然語言處理技術的原理的應用

自然語言處理（Natural Language Processing, NLP）作為人工智能（AI）領域的一個重要分支，旨在使計算機能夠理解和處理人類

發表于 07-02 12:50 ?770次閱讀

神經網絡在自然語言處理中的應用

自然語言處理（NLP）是人工智能領域中的一個重要分支，它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發展，神經網絡在

發表于 07-01 14:09 ?604次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

深蘭在自然語言處理領域歐洲頂會上取得好成績

評論

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

ASR與自然語言處理的結合

卷積神經網絡在自然語言處理中的應用

自然語言處理與機器學習的區別

圖像識別技術包括自然語言處理嗎

Transformer架構在自然語言處理中的應用

自然語言處理技術有哪些

自然語言處理模式的優點

自然語言處理技術的核心是什么

自然語言處理是什么技術的一種應用

自然語言處理包括哪些內容

自然語言處理屬于人工智能的哪個領域

什么是自然語言處理 (NLP)

自然語言處理技術的原理的應用

神經網絡在自然語言處理中的應用