91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CMU、谷歌大腦的研究者最新提出萬用NLP模型Transformer的升級版

DPVg_AI_era ? 來源:lq ? 2019-01-14 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CMU、谷歌大腦的研究者最新提出萬用NLP模型Transformer的升級版——Transformer-XL。這個新架構在5個數據集上都獲得了強大的結果,在評估中甚至比原始Transformer快1800+倍。研究人員公開了代碼、預訓練模型和超參數。

Transformer是谷歌在2017年提出的一個革新性的NLP框架,相信大家對那篇經典論文吸睛的標題仍印象深刻:Attention Is All You Need。

自那以來,業內人士表示,在機器翻譯領域,Transformer 已經幾乎全面取代 RNN。總之 Transformer 確實是一個非常有效且應用廣泛的結構,應該可以算是自 seq2seq 之后又一次 “革命”。

最近,CMU的Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,以及谷歌的Zhilin Yang(楊值麟),William W. Cohen和Quoc V. Le等人提出了Transformer的升級版——Transformer-XL。這篇論文最初投給ICLR 2019,最新放在arXiv的版本更新了更好的結果,并公開了代碼、預訓練模型和超參數。

論文地址:

https://arxiv.org/pdf/1901.02860.pdf

Transformer網絡具有學習較長期依賴關系的潛力,但是在語言建模的設置中受到固定長度上下文(fixed-length context)的限制。

作為一種解決方案,這篇論文提出一種新的神經網絡結構——Transformer-XL,它使Transformer能夠在不破壞時間一致性的情況下學習固定長度以外的依賴性。

具體來說,Transformer-XL由一個segment-level的遞歸機制和一種新的位置編碼方案組成。這一方法不僅能夠捕獲長期依賴關系,而且解決了上下文碎片的問題。

實驗結果表明, Transformer-XL學習的依賴關系比RNN長80%,比vanilla Transformer長450%,在短序列和長序列上都獲得了更好的性能,并且在評估中比vanilla Transformer快1800+倍。

此外,Transformer-XL在5個數據集上都獲得了強大的結果。研究人員在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word, 上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

他們公布了代碼、預訓練模型和超參數,在Tensorflow和PyTorch中都可用。

Transformer-XL模型架構

為了解決前面提到的固定長度上下文的限制,Transformer-XL這個新架構(其中XL表示extra long)將遞歸(recurrence)的概念引入到self-attention網絡中。

具體來說,我們不再從頭開始計算每個新的段(segment)的隱藏狀態,而是重用(reuse)在前一段中獲得的隱藏狀態。被重用的隱藏狀態用作當前段的memory,這就在段之間建立一個循環連接。

因此,建模非常長期的依賴關系成為可能,因為信息可以通過循環連接傳播。同時,從上一段傳遞信息也可以解決上下文碎片(context fragmentation)的問題。

更重要的是,我們展示了使用相對位置編碼而不是絕對位置編碼的必要性,以便在不造成時間混亂的情況下實現狀態重用。因此,我們提出了一個簡單但更有效的相對位置編碼公式,該公式可以推廣到比訓練中觀察到的更長的attention lengths。

原始Transformer模型

為了將Transformer或self-attention應用到語言建模中,核心問題是如何訓練Transformer有效地將任意長的上下文編碼為固定大小的表示。給定無限內存和計算,一個簡單的解決方案是使用無條件Transformer解碼器處理整個上下文序列,類似于前饋神經網絡。然而,在實踐中,由于資源有限,這通常是不可行的。

圖1:一個segment長度為4的vanilla model的圖示

一種可行但比較粗略的近似方法是將整個語料庫分割成可管理大小的更短的片段,只在每個片段中訓練模型,忽略來自前一段的所有上下文信息。這是Al-Rfou et al(2018)提出的想法,我們稱之為原始模型(vanilla model),它的圖示如圖1a。

在評估過程中,vanilla 模型在每個步驟都消耗與訓練期間相同長度的一個segment,但是在最后一個位置只是進行一次預測。然后,在下一步中,這個segment只向右移動一個位置,新的segment必須從頭開始處理。

如圖1b所示,該過程保證了每個預測在訓練過程中利用的上下文盡可能長,同時也緩解了訓練過程中遇到的上下文碎片問題。然而,這個評估過程成本是非常高的。

接下來,我們將展示我們所提出的架構能夠大大提高評估速度。

Transformer-XL

為了解決固定長度上下文的局限性,我們建議在Transformer架構中引入一種遞歸機制(recurrence mechanism)。

在訓練過程中,對上一個segment計算的隱藏狀態序列進行修復,并在模型處理下一個新的segment時將其緩存為可重用的擴展上下文,如圖2a所示。

圖2:一個segment長度為4的Transformer-XL模型

這種遞歸機制應用于整個語料庫的每兩個連續的segment,它本質上是在隱藏狀態中創建一個segment-level 的遞歸。因此,所使用的有效上下文可以遠遠超出兩個segments。

除了實現超長的上下文和解決碎片問題外,這種遞歸方案的另一個好處是顯著加快了評估速度。

具體地說,在評估期間,可以重用前面部分的表示,而不是像普通模型那樣從頭開始計算。在enwiki8數據集的實驗中,Transformer-XL在評估過程比普通模型快1800倍以上。

實驗和結果

我們將Transformer-XL應用于單詞級和字符級語言建模的各種數據集,與state-of-the-art 的系統進行了比較,包括WikiText-103 (Merity et al., 2016), enwiki8 (LLC, 2009), text8 (LLC, 2009), One Billion Word (Chelba et al., 2013), 以及 Penn Treebank (Mikolov & Zweig, 2012).

實驗結果表明, Transformer-XL學習的依賴關系比RNN長80%,比vanilla Transformer長450%,在短序列和長序列上都獲得了更好的性能,并且在評估中比vanilla Transformer快1800+倍。

表1:在WikiText-103上與SoTA結果的比較

表2:在enwiki8上與SoTA結果的比較

表3:在text8上與SoTA結果的比較

表4:在One Billion Word上與SoTA結果的比較

表5:在Penn Treebank上與SoTA結果的比較

Transformer-XL在5個數據集上都獲得了強大的結果。研究人員在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

評估速度

最后,我們將模型的評估速度與vanilla Transformer模型進行了比較。

如表9所示,與Al-Rfou et al. (2018).的架構相比,由于state reuse方案,Transformer-XL的評估速度加快了高達1874倍。

表9:評估時間比較

結論

我們提出了一種新的架構,Transformer-XL,這是一個超出了固定長度的上下文限制的self-attention的語言建模架構。

我們的主要技術貢獻包括在一個純粹的 self-attentive 模型中引入遞歸的概念,并推導出一種新的位置編碼方案。這兩種技術形成了一套完整的解決方案,因為它們中的任何一種單獨都不能解決固定長度上下文的問題。

Transformer-XL是第一個在字符級和單詞級語言建模方面都取得了比RNN更好結果的self-attention模型。Transformer-XL還能夠建模比RNN和Transformer更長期的依賴關系,并且與vanilla Transformers相比在評估過程中取得了顯著的加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1174

    瀏覽量

    41965
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108107
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103561

原文標題:谷歌、CMU重磅論文:Transformer升級版,評估速度提升超1800倍!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發表于 02-06 10:21 ?4006次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    指針式萬用表與數字萬用表對比

    在電子維修和測試領域,萬用表是不可或缺的工具。它們能夠測量電壓、電流、電阻等多種電氣參數。市場上主要有兩種類型的萬用表:指針式萬用表和數字萬用表。 指針式
    的頭像 發表于 01-23 09:31 ?1468次閱讀

    指針式萬用表和數字萬用表哪個好

    在電子測量領域,萬用表是工程師和技術人員不可或缺的工具。它們能夠測量電壓、電流、電阻等多種電氣參數。市場上主要有兩種類型的萬用表:指針式萬用表和數字萬用表。 1. 指針式
    的頭像 發表于 01-22 17:28 ?2942次閱讀

    如何正確使用萬用表測量電壓

    萬用表是一種多功能的測量工具,能夠測量電壓、電流、電阻等多種電氣參數。在電子維修、電路測試和電氣工程中,正確使用萬用表測量電壓是非常重要的。 準備工作 選擇合適的萬用表 :確保萬用表的
    的頭像 發表于 12-03 15:16 ?4325次閱讀

    萬用表的基本使用方法 萬用表使用注意事項

    萬用表的基本使用方法 1. 選擇萬用表 首先,根據需要測量的參數選擇合適的萬用表。常見的萬用表有數字萬用表和模擬
    的頭像 發表于 12-03 15:14 ?4387次閱讀

    便攜式萬用表的優勢

    在電子工程、電氣維修和日常的電子設備維護中,萬用表是一種不可或缺的工具。隨著技術的發展,便攜式萬用表因其體積小、功能全、易于攜帶等特點,越來越受到專業人士和愛好的青睞。 1. 便攜性 便攜式
    的頭像 發表于 11-01 10:36 ?955次閱讀

    如何使用萬用表檢測電池

    使用萬用表檢測電池的步驟 1. 準備工具 在開始之前,確保你有以下工具: 萬用表 待檢測的電池 絕緣手套(如果處理高電壓電池) 2. 了解電池類型 在檢測電池之前,了解電池的類型和電壓等級是非
    的頭像 發表于 11-01 10:35 ?4641次閱讀

    萬用表測量頻率的技巧

    萬用表通常用于測量電壓、電流和電阻等電氣參數,但大多數標準的萬用表并不直接測量頻率。不過,有一些高級的萬用表或者特定的測試設備可以測量頻率。如果你使用的是這類設備,以下是一些測量頻率的技巧: 選擇
    的頭像 發表于 11-01 10:34 ?2826次閱讀

    萬用表的工作原理 萬用表校準的方法

    萬用表的工作原理 電壓測量 : 萬用表通過內部電路將被測電壓與標準電壓(例如1.5V或9V電池)進行比較,從而測量電壓值。 對于交流電壓,萬用表使用整流電路將交流轉換為直流,然后進行測量。 電流測量
    的頭像 發表于 11-01 10:31 ?2409次閱讀

    萬用表維修與保養技巧

    萬用表是電子工程師和技術人員不可或缺的工具之一。它不僅能夠測量電壓、電流和電阻,還能檢測電路中的故障。然而,不正確的使用和保養會導致萬用表的損壞,影響測量結果的準確性。 一、萬用表的正確使用 選擇
    的頭像 發表于 11-01 10:29 ?2109次閱讀

    萬用表的安全使用注意事項

    。不同類型的萬用表有不同的功能和測量限制,例如數字萬用表和模擬萬用表在精度和讀數方式上有所不同。了解萬用表的最大測量值可以避免超出其能力范圍,從而保護設備和使用
    的頭像 發表于 11-01 10:24 ?1458次閱讀

    數字萬用表與模擬萬用表的區別

    在電子工程和維修領域,萬用表是一種不可或缺的工具。它能夠測量電壓、電流、電阻等多種電氣參數。根據顯示方式的不同,萬用表可以分為數字萬用表和模擬萬用表。 一、顯示方式 數字
    的頭像 發表于 11-01 10:20 ?1694次閱讀

    萬用表使用方法 如何選擇萬用

    萬用表(multimeter)是一種多功能的測量儀器,可以測量電壓、電流、電阻等多種電氣參數。正確使用和選擇萬用表對于電氣維修和測試工作至關重要。 萬用表的使用方法 1. 了解萬用表的
    的頭像 發表于 11-01 10:19 ?1390次閱讀

    萬用表怎么查漏電不漏電

    萬用表是一種多功能的電子測量工具,可以用來測量電壓、電流、電阻等多種電氣參數。在查找漏電問題時,萬用表可以發揮重要作用。以下是使用萬用表查找漏電步驟和原理: 1. 準備工作 萬用表 :
    的頭像 發表于 09-27 09:55 ?1612次閱讀

    萬用表校準方法

    萬用表校準方法 萬用表的校準是一個涉及多個步驟的精密過程,主要包括使用標準器對不同電壓和電阻進行校準,并比較記錄的示值與標準值來判斷校準是否合格。以下是詳細的校準步驟: 熟悉萬用表 :首先,需要熟悉
    的頭像 發表于 07-17 15:35 ?3311次閱讀
    主站蜘蛛池模板: 全黄毛片 | 电影一区二区三区 | 久久美女免费视频 | 六月婷婷网 | 一级毛片免费全部播放 | 夜夜爽天天爽 | 亚洲伊人成综合成人网 | 77成人| 初恋视频黄色 | 欧美色爱综合网 | 天堂网www在线资源链接 | 黄蓉吕文德欲乱系列小说 | 日本黄色免费网址 | 永久黄网站色视频免费 | 神马午夜在线观看 | 岛国午夜 | 四虎永久精品免费观看 | jlzzjlzz欧美大全 | 亚洲欧美国产高清va在线播放 | www激情五月 | 中文字幕一区二区三区永久 | 91精品国产91久久久久久青草 | www.色五月.com | 日本一区二区视频在线观看 | 美女露出扒开尿口让男人桶 | 377p亚洲欧洲日本大胆色噜噜 | 国产精品麻豆va在线播放 | 久久久久999| 久久婷婷色综合老司机 | 波多野结衣在线观看一区二区三区 | 特一级黄 | 天天看影院 | 色秀视频免费网站在线观看 | 老司机午夜永久在线观看 | 又粗又大的机巴好爽欧美 | 人人艹人人插 | 天天综合天天干 | 午夜精品久久久久久久四虎 | 午夜久| 深夜福利欧美 | 天天擦天天干 |