91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一套新的自然語言處理(NLP)評估基準,名為 SuperGLUE

電子工程師 ? 來源:lq ? 2019-04-29 18:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自然語言處理(NLP),是機器學習領域的一個分支,專門研究如何讓機器理解人類語言和相關文本,也是發展通用人工智能技術亟需攻克的核心難題之一。

不久之后,紐約大學、華盛頓大學、劍橋大學和 Facebook AI 將聯合推出一套新的自然語言處理(NLP)評估基準,名為 SuperGLUE,全稱是 Super General-Purpose Language Understanding。

該系統是現有 GLUE 基準的升級版(所以前面加上了 Super)。研究人員刪除了原本 11 項任務中的 9 項,更新了剩下 2 項,同時加入了 5 項新的評估基準。新版本將更契合未來 NLP 技術的發展方向,難度也是大幅增加,更具挑戰性。

(來源:Nikita Nangia)

這套系統的數據集、工具包和具體評估標準預計將于 5 月初公布。不過從最新發布的 SuperGLUE 論文中,我們可以先睹為快。

什么是 GLUE?

實現 NLP 的方法有很多,主流的方法大多圍繞多任務學習和語言模型預訓練展開,由此孕育出很多種不同模型,比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個模型的基礎上,研究團隊還可以借鑒其它模型的精華或者直接結合兩者。

為了更好地訓練模型,同時更準確地評估和分析其表現,紐約大學、華盛頓大學和 DeepMind 的 NLP 研究團隊在 2018 年推出了通用語言理解評估基準(GLUE),其中包含 11 項常見 NLP 任務,都是取自認可度相當高的 NLP 數據集,最大的語料庫規模超過 40 萬條,而且種類多變,涉及到自然語言推理、情感分析、閱讀理解和語義相似性等多個領域。

圖 | GLUE的11項任務

不過GLUE基準才發布一年,已經有很多 NLP 模型在特定任務中超過了人類基準,尤其是在 QQP、MRPC 和 QNLI 三項任務中:

QQP 是“Quora 問題配對”數據集,由 40 萬對 Quora 問題組成,模型需要識別兩個問題之間的含義是否相同。

MRPC 是“微軟研究釋義語料庫”,與 QQP 類似,模型需要判斷兩個形式不同的句子是否具有相似的意思(即釋義句)。

QNLI 任務基于“斯坦福問答數據集(SQuAD)”,主要考察模型的閱讀理解能力。它需要根據維基百科中的文章來回答一些問題,答案可能存在于文章中,也可能不存在。

圖 | NLP 模型在三項任務中普遍超過了人類基準,越靠右側的模型分數越高

目前綜合分數最高的是微軟提交的 MT-DNN++模型,其核心是多任務深度神經網絡(MT-DNN)模型,并且在文本編碼層整合了 BERT。僅次于它的是阿里巴巴達摩院 NLP 團隊的 ALICE Large 模型和斯坦福的 Snorkel MeTaL 模型。

從上面圖中我們也能看出,得益于 BERT 和 GPT 模型的引入,模型在很多GLUE 任務的得分都已經接近人類基準,只有 2-3 個任務與人類有明顯差距。

因此,推出新的評估基準勢在必行。

圖 | GLUE排行榜前五名

從 GLUE 到 SuperGLUE

新的 SuperGLUE 遵從了 GLUE 的基本原則:為通用語言理解技術的進步提供通俗,但又具有挑戰性的基準。

在制定這個新基準時,研究人員先在 NLP 社區公開征集任務提案,獲得了大約 30 份提案,隨后按照如下標準篩選:

任務本質:測試系統理解英語的能力。

任務難度:超出當前最先進模型的能力,但是人類可以解決。

可評估性:具備自動評判機制,并且能夠準確對應人類的判斷或表現。

公開數據:擁有公開的訓練數據。

任務格式:SuperGLUE 輸入值的復雜程度得到了提升,允許出現復雜句子,段落和文章等。

任務許可:所用數據必須獲得研究和重新分發的許可。

在篩選過程中,他們首先重新審核了現有的 GLUE 任務集,從中刪除了模型表現較好的 9 項任務,保留了 2 項表現最差的任務——Winograd 模式挑戰賽(WSC)和文本蘊含識別(RTE)——它們還有很大的進步空間。

兩項任務分別屬于自然語言推理和閱讀理解范疇。人類通常比較擅長這樣的任務,甚至于不需要特殊訓練就可以精通。比如看到這樣兩句話:

“這本書裝不進書包,因為它太大了。”

“這本書裝不進書包,因為它太小了。”

盡管兩個句子包含兩個含義截然相反的形容詞,人類還是可以輕松理解,因為我們知道“它”的指代物不同。但上面那些NLP模型卻表現的很糟糕,平均水平不足人類的 70%。而這其實就是 WSC 任務的主要內容。

最后,研究人員挑選(設計)了 5 項新任務,分別是 CB,COPA,GAP,MultiRC 和 WiC,主要測試模型回答問題,指代消解和常識推理的能力。

圖 | 新版SuperGLUE任務集,其中RTE和WSC來自于現有的GLUE任務

研究人員認為,SuperGLUE 的新任務更加側重于測試模型在復雜文本下的推理能力。

比如 WiC 要求模型在兩段內容中,區分同一個單詞的含義是否一致(聽起來簡單,但對于機器來說非常困難)。CB 和 COPA 都是考察模型在給定“前提”的情況下,對“假設”或“理由”的正確性進行判斷,只不過有的側重于分析從句,有的側重于問答模式。

GAP 則要求模型對性別做出判斷,能夠通過“姐姐”,“哥哥”和“妻子”這樣的詞匯,分辨文本中“他”和“她”的指代對象。

MultiRC 任務更加復雜,模型需要完成閱讀理解,然后回答問題。一個典型的例子是這樣的:

圖| 搜索關鍵詞“speedy recover”,幾乎一眼就能找到答案,但機器未必知道

選擇了新的任務之后,研究人員用主流 NLP 模型進行了測試。

最流行的 BERT 模型的表現勉強可以接受,但其量化之后的綜合分數比人類低約 16.8%,說明機器距離人類基準仍有不小的差距,而且 SuperGLUE 確實比GLUE 難了不少。

圖 | 現有模型在SuperGLUE上的表現

鑒于目前 SuperGLUE 還沒有正式推出,我們還無法查看任務數據集和模型排行榜。在 5 月份推出 SuperGLUE 后,它可能還會經歷一些微調,然后在7月份變為正式版本,供研發 NLP 模型的團隊挑戰。

目前來看,SuperGLUE 和 GLUE 之間的差距是可以接受的,新任務具有一定的挑戰性,但并非遙不可及,足以為全球的 NLP 團隊樹立一個新的標桿。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10786
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14149
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22613

原文標題:SuperGLUE!自然語言處理模型新標準即將公布

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何優化自然語言處理模型的性能

    優化自然語言處理NLP)模型的性能是個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是
    的頭像 發表于 12-05 15:30 ?1696次閱讀

    如何使用自然語言處理分析文本數據

    使用自然語言處理NLP)分析文本數據是個復雜但系統的過程,涉及多個步驟和技術。以下是個基本的流程,幫助你理解如何使用
    的頭像 發表于 12-05 15:27 ?1570次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的個分支,它致力于研究如何讓計算機
    的頭像 發表于 12-05 15:21 ?1973次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發表于 11-26 09:21 ?1490次閱讀

    什么是LLM?LLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的
    的頭像 發表于 11-19 15:32 ?3637次閱讀

    ASR與自然語言處理的結合

    。以下是對ASR與自然語言處理結合的分析: 、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本。
    的頭像 發表于 11-18 15:19 ?1021次閱讀

    循環神經網絡在自然語言處理中的應用

    自然語言處理NLP)是人工智能領域的個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,循環神經網絡(RN
    的頭像 發表于 11-15 09:41 ?811次閱讀

    使用LSTM神經網絡處理自然語言處理任務

    自然語言處理NLP)是人工智能領域的個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,特別是循環神經網絡(
    的頭像 發表于 11-13 09:56 ?1152次閱讀

    自然語言處理的未來發展趨勢

    隨著技術的進步,自然語言處理NLP)已經成為人工智能領域的個重要分支。NLP的目標是使計算機能夠理解、解釋和生成人類
    的頭像 發表于 11-11 10:37 ?1718次閱讀

    自然語言處理與機器學習的區別

    在人工智能的快速發展中,自然語言處理NLP)和機器學習(ML)成為了兩個核心的研究領域。它們都致力于解決復雜的問題,但側重點和應用場景有所不同。 1. 自然語言
    的頭像 發表于 11-11 10:35 ?1533次閱讀

    自然語言處理的應用實例

    在當今數字化時代,自然語言處理NLP)技術已經成為我們日常生活的部分。從智能手機的語音助手到在線客服機器人,NLP技術的應用無處不在。
    的頭像 發表于 11-11 10:31 ?1607次閱讀

    使用LLM進行自然語言處理的優缺點

    自然語言處理NLP)是人工智能和語言學領域的個分支,它致力于使計算機能夠理解、解釋和生成人類語言
    的頭像 發表于 11-08 09:27 ?2439次閱讀

    Llama 3 在自然語言處理中的優勢

    自然語言處理NLP)的快速發展中,我們見證了從基于規則的系統到基于機器學習的模型的轉變。隨著深度學習技術的興起,NLP領域迎來了新的突破。Llama 3,作為
    的頭像 發表于 10-27 14:22 ?726次閱讀

    AI智能化問答:自然語言處理技術的重要應用

    自然語言處理NLP)是人工智能領域的個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。問答系統作為
    的頭像 發表于 10-12 10:58 ?1090次閱讀
    AI智能化問答:<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>技術的重要應用

    圖像識別技術包括自然語言處理

    圖像識別技術與自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著密切的聯系,但也存在些區別。 、圖像識別技術與自然語言
    的頭像 發表于 07-16 10:54 ?1561次閱讀
    主站蜘蛛池模板: 色拍拍拍 | 亚洲在线a | 狠狠躁夜夜躁人人爽天天天天 | 久久久久四虎国产精品 | 免费看黄色一级毛片 | 特黄aaaaaa久久片 | 最新版资源在线天堂 | h网站国产 | 免费美剧在线观看 | 亚洲狠狠97婷婷综合久久久久 | 淫操 | 在线免费视频网站 | 男女性gif抽搐出入 男女性高爱潮免费的国产 男女性高爱麻豆 | 天堂在线www在线资源 | 恐怖片大全恐怖片免费观看好看的恐怖片 | 亚洲午夜视频在线 | 久久国产精品99久久久久久老狼 | 中国一级特黄特级毛片 | 51vv福利视频在线精品 | se在线播放| 性做久久久久久久免费观看 | 日本bbxx| 久久97精品久久久久久久看片 | 在线观看一区二区三区视频 | 免费观看欧美一级片 | 国模在线 | 高清毛片aaaaaaaaa片 | 亚洲视频一区在线观看 | 色视频在线观看在线播放 | 国产精品久久久久久久9999 | 午夜网站视频 | 在线观看jyzzjyzz | 色香蕉色香蕉在线视频 | 天天看天天摸色天天综合网 | 国产乱通伦 | 我被黑人巨大开嫩苞在线观看 | 日本不卡在线播放 | 91欧美精品激情在线观看 | 久久青草精品免费资源站 | 大伊人网| 唐人社电亚洲一区二区三区 |