在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新的預訓練方法——MASS!MASS預訓練幾大優勢!

電子工程師 ? 來源:lq ? 2019-05-11 09:34 ? 次閱讀

編者按:從2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。借助于BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型并沒有取得顯著效果。為此,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS,在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。

BERT在自然語言理解(比如情感分類、自然語言推理、命名實體識別、SQuAD閱讀理解等)任務中取得了很好的結果,受到了越來越多的關注。然而,在自然語言處理領域,除了自然語言理解任務,還有很多序列到序列的自然語言生成任務,比如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。在這類任務中,目前主流的方法是編碼器-注意力-解碼器框架,如下圖所示。

編碼器-注意力-解碼器框架

編碼器(Encoder)將源序列文本X編碼成隱藏向量序列,然后解碼器(Decoder)通過注意力機制(Attention)抽取編碼的隱藏向量序列信息,自回歸地生成目標序列文本Y。

BERT通常只訓練一個編碼器用于自然語言理解,而GPT的語言模型通常是訓練一個解碼器。如果要將BERT或者GPT用于序列到序列的自然語言生成任務,通常只有分開預訓練編碼器和解碼器,因此編碼器-注意力-解碼器結構沒有被聯合訓練,記憶力機制也不會被預訓練,而解碼器對編碼器的注意力機制在這類任務中非常重要,因此BERT和GPT在這類任務中只能達到次優效果。

新的預訓練方法——MASS

專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的預訓練方法:屏蔽序列到序列預訓練(MASS: Masked Sequence to Sequence Pre-training)。MASS對句子隨機屏蔽一個長度為k的連續片段,然后通過編碼器-注意力-解碼器模型預測生成該片段。

屏蔽序列到序列預訓練MASS模型框架

如上圖所示,編碼器端的第3-6個詞被屏蔽掉,然后解碼器端只預測這幾個連續的詞,而屏蔽掉其它詞,圖中“_”代表被屏蔽的詞。

MASS預訓練有以下幾大優勢:

(1)解碼器端其它詞(在編碼器端未被屏蔽掉的詞)都被屏蔽掉,以鼓勵解碼器從編碼器端提取信息來幫助連續片段的預測,這樣能促進編碼器-注意力-解碼器結構的聯合訓練;

(2)為了給解碼器提供更有用的信息,編碼器被強制去抽取未被屏蔽掉詞的語義,以提升編碼器理解源序列文本的能力;

(3)讓解碼器預測連續的序列片段,以提升解碼器的語言建模能力。

統一的預訓練框架

MASS有一個重要的超參數k(屏蔽的連續片段長度),通過調整k的大小,MASS能包含BERT中的屏蔽語言模型訓練方法以及GPT中標準的語言模型預訓練方法,使MASS成為一個通用的預訓練框架。

當k=1時,根據MASS的設定,編碼器端屏蔽一個單詞,解碼器端預測一個單詞,如下圖所示。解碼器端沒有任何輸入信息,這時MASS和BERT中的屏蔽語言模型的預訓練方法等價。

當k=m(m為序列長度)時,根據MASS的設定,編碼器屏蔽所有的單詞,解碼器預測所有單詞,如下圖所示,由于編碼器端所有詞都被屏蔽掉,解碼器的注意力機制相當于沒有獲取到信息,在這種情況下MASS等價于GPT中的標準語言模型。

MASS在不同K下的概率形式如下表所示,其中m為序列長度,u和v為屏蔽序列的開始和結束位置,x^u:v表示從位置u到v的序列片段,x^\u:v表示該序列從位置u到v被屏蔽掉。可以看到,當K=1或者m時,MASS的概率形式分別和BERT中的屏蔽語言模型以及GPT中的標準語言模型一致。

我們通過實驗分析了屏蔽MASS模型中不同的片段長度(k)進行預訓練的效果,如下圖所示。

當k取大約句子長度一半時(50% m),下游任務能達到最優性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練,過度偏向編碼器(k=1,即BERT)或者過度偏向解碼器(k=m,即LM/GPT)都不能在該任務中取得最優的效果,由此可以看出MASS在序列到序列的自然語言生成任務中的優勢。

序列到序列自然語言生成任務實驗

預訓練流程

MASS只需要無監督的單語數據(比如WMT News Crawl Data、Wikipedia Data等)進行預訓練。MASS支持跨語言的序列到序列生成(比如機器翻譯),也支持單語言的序列到序列生成(比如文本摘要生成、對話生成)。當預訓練MASS支持跨語言任務時(比如英語-法語機器翻譯),我們在一個模型里同時進行英語到英語以及法語到法語的預訓練。需要單獨給每個語言加上相應的語言嵌入向量,用來區分不同的語言。我們選取了無監督機器翻譯、低資源機器翻譯、文本摘要生成以及對話生成四個任務,將MASS預訓練模型針對各個任務進行精調,以驗證MASS的效果。

無監督機器翻譯

在無監督翻譯任務上,我們和當前最強的Facebook XLM作比較(XLM用BERT中的屏蔽預訓練模型,以及標準語言模型來分別預訓練編碼器和解碼器),對比結果如下表所示。

可以看到,MASS的預訓練方法在WMT14英語-法語、WMT16英語-德語一共4個翻譯方向上的表現都優于XLM。MASS在英語-法語無監督翻譯上的效果已經遠超早期有監督的編碼器-注意力-解碼器模型,同時極大縮小了和當前最好的有監督模型之間的差距。

低資源機器翻譯

低資源機器翻譯指的是監督數據有限情況下的機器翻譯。我們在WMT14英語-法語、WMT16英語-德語上的不同低資源場景上(分別只有10K、100K、1M的監督數據)驗證我們方法的有效性,結果如下所示。

在不同的數據規模下,我們的預訓練方法的表現均比不用預訓練的基線模型有不同程度的提升,監督數據越少,提升效果越顯著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任務上,我們將MASS同BERT+LM(編碼器用BERT預訓練,解碼器用標準語言模型LM預訓練)以及DAE(去噪自編碼器)進行了比較。從下表可以看到,MASS的效果明顯優于BERT+LM以及DAE。

對話生成

在對話生成(Cornell Movie Dialog Corpus)任務上,我們將MASS同BERT+LM進行了比較,結果如下表所示。MASS的PPL低于BERT+LM。

在不同的序列到序列自然語言生成任務中,MASS均取得了非常不錯的效果。接下來,我們還將測試MASS在自然語言理解任務上的性能,并為該模型增加支持監督數據預訓練的功能,以期望在更多自然語言任務中取得提升。未來,我們還希望將MASS的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1164

    瀏覽量

    41728
  • 編碼器
    +關注

    關注

    45

    文章

    3780

    瀏覽量

    137298
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13613

原文標題:ICML 2019:序列到序列自然語言生成任務超越BERT、GPT!微軟提出通用預訓練模型MASS | 技術頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    【大語言模型:原理與工程實踐】大語言模型的訓練

    大語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對訓練數據的需求也相應
    發表于 05-07 17:10

    優化神經網絡訓練方法有哪些?

    優化神經網絡訓練方法有哪些?
    發表于 09-06 09:52

    微軟在ICML 2019上提出了一個全新的通用訓練方法MASS

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的訓練方法:屏蔽序列到序列訓練MASS: Masked Sequence
    的頭像 發表于 05-11 09:19 ?3682次閱讀
    微軟在ICML 2019上提出了一個全新的通用<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b><b class='flag-5'>MASS</b>

    訓練語言模型設計的理論化認識

    在這篇文章中,我會介紹一篇最新的訓練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經典的訓練語言模型(MaskedLa
    的頭像 發表于 11-02 15:09 ?3009次閱讀

    小米在訓練模型的探索與優化

    大家帶來小米在訓練模型的探索與優化。 01 訓練簡介 訓練與詞向量的
    的頭像 發表于 12-31 10:17 ?2906次閱讀
    小米在<b class='flag-5'>預</b><b class='flag-5'>訓練</b>模型的探索與優化

    一種側重于學習情感特征的訓練方法

    transformers編碼表示)的基礎上,提岀了一種側重學習情感特征的訓練方法。在目標領域的練階段,利用情感詞典改進了BERT的訓練
    發表于 04-13 11:40 ?4次下載
    一種側重于學習情感特征的<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當中,如最早的使用ImageNet
    的頭像 發表于 08-08 15:33 ?1675次閱讀

    什么是訓練 AI 模型?

    訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用,也可以根據不同行業的應用需求進行自定義。 如果要教一個剛學會走路的孩子什么是獨角獸,那么我們首先應
    的頭像 發表于 04-04 01:45 ?1816次閱讀

    什么是訓練AI模型?

    訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用,也可以根據不同行業的應用需求進行自定義。
    的頭像 發表于 05-25 17:10 ?1388次閱讀

    基礎模型自監督訓練的數據之謎:大量數據究竟是福還是禍?

    。然而,在自監督訓練中,是否數據越多越好?數據增廣是否始終有效?華為諾亞方舟實驗室與香港科技大學的研究團隊近期發現: 主流自監督訓練方法如 Masked Autoencoder (
    的頭像 發表于 07-24 16:55 ?822次閱讀
    基礎模型自監督<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的數據之謎:大量數據究竟是福還是禍?

    基于生成模型的訓練方法

    with Deep Generative Models,我認為是個挺強挺有趣的自監督方面的工作。DreamTeacher 用于從訓練的生成網絡向目標圖像 Backbone 進行知識蒸餾,作為一種通用的
    的頭像 發表于 08-11 09:38 ?1542次閱讀
    基于生成模型的<b class='flag-5'>預</b><b class='flag-5'>訓練方法</b>

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且在效率上更勝一籌。
    的頭像 發表于 02-29 17:37 ?1038次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。訓練模型指的是在大
    的頭像 發表于 07-03 18:20 ?4233次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    理解和生成自然語言的能力,為各種NLP任務提供了強大的支持。本文將詳細介紹LLM訓練的基本概念、基本原理以及主要優勢,并附上相關的代碼示例。
    的頭像 發表于 07-10 11:03 ?2847次閱讀

    大語言模型的訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識,為后續的任務微調奠定基礎。本文將深入探討大語言模型
    的頭像 發表于 07-11 10:11 ?906次閱讀
    主站蜘蛛池模板: 久久久久久综合 | 国产毛片一区二区三区精品 | 四虎国产精品永久在线看 | 国色天香精品亚洲精品 | 手机看片99 | 国模视频在线 | 曰本福利写真片视频在线 | 欧美四虎| 久久久久88色偷偷免费 | 色视频日本 | 国产在线观看网址你懂得 | 网站黄色在线观看 | 国产精品久久久久久一级毛片 | 欧美又粗又长又湿又黄的视频 | 色多多入口| 手机看福利片 | 天天操综 | 国产精品1区2区3区 国产精品1区2区3区在线播放 | 色先峰| 亚洲精品色一区色二区色三区 | 色视频欧美 | 国产天天在线 | 夜夜爱夜夜爽 | 国产高清在线播放免费观看 | 97理论片 | 国产或人精品日本亚洲77美色 | 一色屋成人免费精品网站 | 一级毛片日韩a欧美 | 婷婷午夜影院 | 亚洲免费视频观看 | 神马三级我不卡 | 网站毛片| 天天在线天天综合网色 | 四虎影院中文字幕 | 成 人 a v黄 色| 色多多视频在线播放 | 亚洲成片在线观看12345ba | 久久国产精品99久久久久久老狼 | 国产三级在线观看播放 | 天天射天天干天天舔 | 天天添天天操 |