如何发布网络小说,遮天辰东小说,古风小说

微軟亞洲研究院的研究員在 ICML 2019 上提出了一個全新的通用預(yù)訓練方法 MASS，在序列到序列的自然語言生成任務(wù)中全面超越 BERT 和 GPT。本文帶來論文作者的技術(shù)解讀。

從 2018 年開始，預(yù)訓練（pre-train）毫無疑問成為 NLP 領(lǐng)域最熱的研究方向。

借助于 BERT 和 GPT 等預(yù)訓練模型，人類在多個自然語言理解任務(wù)中取得了重大突破。然而，在序列到序列的自然語言生成任務(wù)中，目前主流預(yù)訓練模型并沒有取得顯著效果。

為此，微軟亞洲研究院的研究員在 ICML 2019 上提出了一個全新的通用預(yù)訓練方法 MASS，在序列到序列的自然語言生成任務(wù)中全面超越 BERT 和 GPT。在微軟參加的 WMT19 機器翻譯比賽中，MASS 幫助中 - 英、英 - 立陶宛兩個語言對取得了第一名的成績。

BERT 在自然語言理解（比如情感分類、自然語言推理、命名實體識別、SQuAD 閱讀理解等）任務(wù)中取得了很好的結(jié)果，受到了越來越多的關(guān)注。然而，在自然語言處理領(lǐng)域，除了自然語言理解任務(wù)，還有很多序列到序列的自然語言生成任務(wù)，比如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉(zhuǎn)換等。在這類任務(wù)中，目前主流的方法是編碼器 - 注意力 - 解碼器框架，如下圖所示。

編碼器 - 注意力 - 解碼器框架

編碼器（Encoder）將源序列文本 X 編碼成隱藏向量序列，然后解碼器（Decoder）通過注意力機制（Attention）抽取編碼的隱藏向量序列信息，自回歸地生成目標序列文本 Y。

BERT 通常只訓練一個編碼器用于自然語言理解，而 GPT 的語言模型通常是訓練一個解碼器。如果要將 BERT 或者 GPT 用于序列到序列的自然語言生成任務(wù)，通常只有分開預(yù)訓練編碼器和解碼器，因此編碼器 - 注意力 - 解碼器結(jié)構(gòu)沒有被聯(lián)合訓練，記憶力機制也不會被預(yù)訓練，而解碼器對編碼器的注意力機制在這類任務(wù)中非常重要，因此 BERT 和 GPT 在這類任務(wù)中只能達到次優(yōu)效果。

新的預(yù)訓練方法 ——MASS

專門針對序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓練方法：屏蔽序列到序列預(yù)訓練（MASS: Masked Sequence to Sequence Pre-training）。MASS 對句子隨機屏蔽一個長度為 k 的連續(xù)片段，然后通過編碼器 - 注意力 - 解碼器模型預(yù)測生成該片段。

屏蔽序列到序列預(yù)訓練 MASS 模型框架

如上圖所示，編碼器端的第 3-6 個詞被屏蔽掉，然后解碼器端只預(yù)測這幾個連續(xù)的詞，而屏蔽掉其它詞，圖中 “_” 代表被屏蔽的詞。

MASS 預(yù)訓練有以下幾大優(yōu)勢：

（1）解碼器端其它詞（在編碼器端未被屏蔽掉的詞）都被屏蔽掉，以鼓勵解碼器從編碼器端提取信息來幫助連續(xù)片段的預(yù)測，這樣能促進編碼器 - 注意力 - 解碼器結(jié)構(gòu)的聯(lián)合訓練；

（2）為了給解碼器提供更有用的信息，編碼器被強制去抽取未被屏蔽掉詞的語義，以提升編碼器理解源序列文本的能力；

（3）讓解碼器預(yù)測連續(xù)的序列片段，以提升解碼器的語言建模能力。

統(tǒng)一的預(yù)訓練框架

MASS 有一個重要的超參數(shù) k（屏蔽的連續(xù)片段長度），通過調(diào)整 k 的大小，MASS 能包含 BERT 中的屏蔽語言模型訓練方法以及 GPT 中標準的語言模型預(yù)訓練方法，使 MASS 成為一個通用的預(yù)訓練框架。

當 k=1 時，根據(jù) MASS 的設(shè)定，編碼器端屏蔽一個單詞，解碼器端預(yù)測一個單詞，如下圖所示。解碼器端沒有任何輸入信息，這時 MASS 和 BERT 中的屏蔽語言模型的預(yù)訓練方法等價。

當 k=m（m 為序列長度）時，根據(jù) MASS 的設(shè)定，編碼器屏蔽所有的單詞，解碼器預(yù)測所有單詞，如下圖所示，由于編碼器端所有詞都被屏蔽掉，解碼器的注意力機制相當于沒有獲取到信息，在這種情況下 MASS 等價于 GPT 中的標準語言模型。

MASS 在不同 K 下的概率形式如下表所示，其中 m 為序列長度，u 和 v 為屏蔽序列的開始和結(jié)束位置，x^u:v 表示從位置 u 到 v 的序列片段，x^\u:v 表示該序列從位置 u 到 v 被屏蔽掉。可以看到，當K=1 或者 m 時，MASS 的概率形式分別和 BERT 中的屏蔽語言模型以及 GPT 中的標準語言模型一致。

我們通過實驗分析了屏蔽 MASS 模型中不同的片段長度（k）進行預(yù)訓練的效果，如下圖所示。

當 k 取大約句子長度一半時（50% m），下游任務(wù)能達到最優(yōu)性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預(yù)訓練，過度偏向編碼器（k=1，即 BERT）或者過度偏向解碼器（k=m，即 LM/GPT）都不能在該任務(wù)中取得最優(yōu)的效果，由此可以看出 MASS 在序列到序列的自然語言生成任務(wù)中的優(yōu)勢。

序列到序列自然語言生成任務(wù)實驗

預(yù)訓練流程

MASS 只需要無監(jiān)督的單語數(shù)據(jù)（比如 WMT News Crawl Data、Wikipedia Data 等）進行預(yù)訓練。MASS 支持跨語言的序列到序列生成（比如機器翻譯），也支持單語言的序列到序列生成（比如文本摘要生成、對話生成）。當預(yù)訓練 MASS 支持跨語言任務(wù)時（比如英語 - 法語機器翻譯），我們在一個模型里同時進行英語到英語以及法語到法語的預(yù)訓練。需要單獨給每個語言加上相應(yīng)的語言嵌入向量，用來區(qū)分不同的語言。我們選取了無監(jiān)督機器翻譯、低資源機器翻譯、文本摘要生成以及對話生成四個任務(wù)，將 MASS 預(yù)訓練模型針對各個任務(wù)進行精調(diào)，以驗證 MASS 的效果。

無監(jiān)督機器翻譯

在無監(jiān)督翻譯任務(wù)上，我們和當前最強的 Facebook XLM 作比較（XLM 用 BERT 中的屏蔽預(yù)訓練模型，以及標準語言模型來分別預(yù)訓練編碼器和解碼器），對比結(jié)果如下表所示。

可以看到，MASS 的預(yù)訓練方法在 WMT14 英語 - 法語、WMT16 英語 - 德語一共 4 個翻譯方向上的表現(xiàn)都優(yōu)于 XLM。MASS 在英語 - 法語無監(jiān)督翻譯上的效果已經(jīng)遠超早期有監(jiān)督的編碼器 - 注意力 - 解碼器模型，同時極大縮小了和當前最好的有監(jiān)督模型之間的差距。

低資源機器翻譯

低資源機器翻譯指的是監(jiān)督數(shù)據(jù)有限情況下的機器翻譯。我們在 WMT14 英語 - 法語、WMT16 英語 - 德語上的不同低資源場景上（分別只有 10K、100K、1M 的監(jiān)督數(shù)據(jù)）驗證我們方法的有效性，結(jié)果如下所示。

在不同的數(shù)據(jù)規(guī)模下，我們的預(yù)訓練方法的表現(xiàn)均比不用預(yù)訓練的基線模型有不同程度的提升，監(jiān)督數(shù)據(jù)越少，提升效果越顯著。

文本摘要生成

在文本摘要生成（Gigaword Corpus）任務(wù)上，我們將 MASS 同 BERT+LM（編碼器用 BERT 預(yù)訓練，解碼器用標準語言模型 LM 預(yù)訓練）以及 DAE（去噪自編碼器）進行了比較。從下表可以看到，MASS 的效果明顯優(yōu)于 BERT+LM 以及 DAE。

對話生成

在對話生成（Cornell Movie Dialog Corpus）任務(wù)上，我們將 MASS 同 BERT+LM 進行了比較，結(jié)果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然語言生成任務(wù)中，MASS 均取得了非常不錯的效果。接下來，我們還將測試 MASS 在自然語言理解任務(wù)上的性能，并為該模型增加支持監(jiān)督數(shù)據(jù)預(yù)訓練的功能，以期望在更多自然語言任務(wù)中取得提升。未來，我們還希望將 MASS 的應(yīng)用領(lǐng)域擴展到包含語音、視頻等其它序列到序列的生成任務(wù)中。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6630

瀏覽量
104469
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3669

瀏覽量
135245
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
291

瀏覽量
13400

原文標題：【ICML 2019】微軟最新通用預(yù)訓練模型MASS，超越BERT、GPT！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

KerasHub統(tǒng)一、全面的預(yù)訓練模型庫

深度學習領(lǐng)域正在迅速發(fā)展，在處理各種類型的任務(wù)中，預(yù)訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名，始終處于這一動向的前沿。Keras 擁有專用的內(nèi)

發(fā)表于 12-20 10:32 ?169次閱讀

LLM和傳統(tǒng)機器學習的區(qū)別

和訓練方法 LLM： 預(yù)訓練和微調(diào)： LLM通常采用預(yù)訓練（Pre-training）和微調(diào)（Fine-tuning）的

發(fā)表于 11-08 09:25 ?768次閱讀

使用PyTorch在英特爾獨立顯卡上訓練模型

《PyTorch 2.5重磅更新：性能優(yōu)化+新特性》中的一個新特性就是：正式支持在英特爾獨立顯卡上訓練模型！

發(fā)表于 11-01 14:21 ?780次閱讀

使用PyTorch<b class='flag-5'>在</b>英特爾獨立顯卡<b class='flag-5'>上</b><b class='flag-5'>訓練</b>模型

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓練的基礎(chǔ)模型下的持續(xù)學習

神經(jīng)網(wǎng)絡(luò)，特別是預(yù)訓練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用，但其仍然主要依賴于在大量樣本上的批量式訓練。本報告將探討實現(xiàn)模型的增量式

發(fā)表于 10-18 08:09 ?275次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：<b class='flag-5'>預(yù)</b><b class='flag-5'>訓練</b>的基礎(chǔ)模型下的持續(xù)學習

蘋果承認使用谷歌芯片來訓練AI

蘋果公司最近在一篇技術(shù)論文中披露，其先進的人工智能系統(tǒng)Apple Intelligence背后的兩個關(guān)鍵AI模型，是在谷歌設(shè)計的云端芯片上完成預(yù)

發(fā)表于 07-30 17:03 ?781次閱讀

蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓練

蘋果公司在最新的技術(shù)論文中披露了一項重要信息，其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU，而是選擇了

發(fā)表于 07-30 15:00 ?586次閱讀

馬斯克宣布開始在“全球最大AI訓練集群”上訓練

”訓練項目，這一壯舉被馬斯克本人譽為“全球最強大的AI訓練集群”，標志著人工智能算力競賽進入了一個全新

發(fā)表于 07-23 17:44 ?694次閱讀

ai大模型訓練方法有哪些？

AI大模型訓練方法是一個復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓練方法：數(shù)據(jù)預(yù)處理和增強數(shù)據(jù)清洗：去除噪聲和不完整的數(shù)據(jù)。數(shù)據(jù)標準化：將數(shù)據(jù)縮放到統(tǒng)

發(fā)表于 07-16 10:11 ?1821次閱讀

預(yù)訓練和遷移學習的區(qū)別和聯(lián)系

預(yù)訓練和遷移學習是深度學習和機器學習領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?1216次閱讀

大語言模型的預(yù)訓練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標簽數(shù)據(jù)上進行訓練，使模型學習到語言的

發(fā)表于 07-11 10:11 ?537次閱讀

LLM預(yù)訓練的基本概念、基本原理和主要優(yōu)勢

在人工智能和自然語言處理（NLP）領(lǐng)域，大型語言模型（Large Language Model，簡稱LLM）的興起極大地推動了技術(shù)的進步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓練

發(fā)表于 07-10 11:03 ?1299次閱讀

預(yù)訓練模型的基本原理和應(yīng)用

預(yù)訓練模型（Pre-trained Model）是深度學習和機器學習領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）

發(fā)表于 07-03 18:20 ?3152次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓練

數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化，可以進一步提高數(shù)據(jù)的質(zhì)量和可用性，為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。在得到了大語言模型的數(shù)據(jù)之后，就是對其進行預(yù)訓練

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

處理各種自然語言任務(wù)時都表現(xiàn)出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預(yù)訓練語言模型。這類模型的核心思想是

發(fā)表于 05-05 12:17

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預(yù)訓練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率

發(fā)表于 02-29 17:37 ?854次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

微軟在ICML 2019上提出了一個全新的通用預(yù)訓練方法MASS

評論

KerasHub統(tǒng)一、全面的預(yù)訓練模型庫

LLM和傳統(tǒng)機器學習的區(qū)別

使用PyTorch在英特爾獨立顯卡上訓練模型

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓練的基礎(chǔ)模型下的持續(xù)學習

蘋果承認使用谷歌芯片來訓練AI

蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓練

馬斯克宣布開始在“全球最大AI訓練集群”上訓練

ai大模型訓練方法有哪些？

預(yù)訓練和遷移學習的區(qū)別和聯(lián)系

大語言模型的預(yù)訓練

LLM預(yù)訓練的基本概念、基本原理和主要優(yōu)勢

預(yù)訓練模型的基本原理和應(yīng)用

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓練

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

谷歌模型訓練軟件有哪些功能和作用