在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語言建模中XLNet比BERT好在哪里

汽車玩家 ? 來源:人工智能遇見磐創 ? 作者:人工智能遇見磐創 ? 2020-04-20 09:30 ? 次閱讀

XLNet震驚了NLP領域,這種語言建模的新方法在20個NLP任務上的表現優于強大的BERT,并且在18個任務中獲得了最先進的結果。

XLNet可能會改變語言建模,這就是為什么它是任何NLP從業者的重要補充。在本文中,我們將討論XLNet背后的原理,它使它比BERT更好。為了更好地理解它,我們還將研究它之前的相關技術。

語言建模簡介

在2018年,隨著語言建模任務處于研究的中心,NLP領域取得了重大的進步。

語言建模是在給定所有先前的單詞的情況下,預測句子中的下一個單詞的任務。語言模型現在已經成為NLP管道的重要組成部分,因為它們為各種下游任務提供了支撐。語言模型捕獲幾乎普遍有用的輸入文本的一些特性。

早期的語言模型ULMFiT和ELMo,兩者都是基于LSTM的語言模型。事實上,ULMFiT和ELMo都取得了巨大的成功,在眾多任務中取得了最先進的成果。但我們將看到XLNet如何實現前所未有的成果。

用于語言建模的自回歸模型(AR)

XLNet是一種通用的自回歸預訓練模型。自回歸模型僅僅是一種前饋模型,它根據給定上下文的一組單詞預測下一個詞。但是在這里,上下文單詞被限制在兩個方向,前向或后向。

可以按順序運行自回歸模型以生成新序列!從x1,x2,…,xk開始,預測xk+1。然后使用x2,x3,…,xk+1來預測xk+2,依此類推。GPT和GPT-2都是自回歸語言模型。所以,它們在文本生成中變現不錯。

自回歸語言模型的問題在于它只能使用前向上下文或后向上下文,這意味著它不能同時使用前向和后向上下文,從而限制其對上下文和預測的理解。

自動編碼器(AE)語言建模

與AR語言模型不同,BERT使用自動編碼器(AE)語言模型。AE語言模型旨在從損壞的輸入重建原始數據。

在BERT中,通過添加[MASK]來破壞預訓練輸入數據。例如,'Goa has the most beautiful beaches in India'將成為‘Goa has the most beautiful [MASK] in India’,該模型的目標是根據上下文詞預測[MASK]詞。自動編碼器語言模型的優點是,它可以看到前向和后向的上下文。但是,由于在輸入數據中添加[MASK]引入了微調模型的差異。

BERT有什么問題?

雖然通過使用AE語言建模BERT幾乎在所有NLP任務中都實現了SOTA,但它的實現仍然存在一些漏洞。BERT模型有兩個主要缺點:

1.由于掩蔽導致的微調差異

訓練BERT以預測用特殊[MASK]標記替換的標記。問題是在下游任務中微調BERT時,[MASK]標記永遠不會出現。在大多數情況下,BERT只是將非掩碼標記復制到輸出中。

那么,它真的會學會為非掩碼標記生成有意義的表示嗎?它也不清楚如果輸入句中沒有[MASK]標記會發生什么。

2.預測的標記彼此獨立

BERT假設在給定未掩蔽的的標記的情況下,預測的(掩蔽的)標記彼此獨立。為了理解這一點,我們來看一個例子。

Whenever she goes to the[MASK][MASK]she buys a lot of[MASK].

這可以填寫為:

Whenever she goes to theshopping center, she buys a lot ofclothes.

或者

Whenever she goes to thecinema hallshe buys a lot ofpopcorn.

而句子:

Whenever she goes to thecinema hallshe buys a lot ofclothes.

是無效的。BERT并行預測所有掩蔽的的位置,這意味著在訓練期間,它沒有學會處理同時預測的掩蔽的標記之間的依賴關系。換句話說,它不會學習到預測之間的依賴關系。它預測標記彼此之間互相獨立。這可能是一個問題的原因是這減少了BERT一次學習的依賴關系的數量,使得學習信號比它原本可能的更弱。

XLNet:排列語言建模

BERT在所有傳統語言模型中脫穎而出的原因在于它能夠捕獲雙向上下文。同樣,它的主要缺陷是在預訓練引入[MASK]標記和并行獨立預測。

如果我們以某種方式構建一個包含雙向上下文的模型,同時避免[MASK]標記和并行獨立預測,那么該模型肯定會勝過BERT并取得最先進的結果。

這基本上就是XLNet所實現的目標。

XLNet通過使用稱為“排列語言建模”的語言建模變體來實現這一點。訓練排列語言模型以預測在給定上下文后的一個標記,就像傳統語言模型一樣,但是不是以連續順序預測標記,而是以某種隨機順序預測標記。為清楚起見,我們以下面的句子為例:

“Sometimes you have to be your own hero.”

傳統的語言模型按照下面的順序預測標記:

“Sometimes”, “you”, “have”, “to”, “be”, “your”, “own”, “hero”

其中每個標記使用所有前面的標記作為上下文。

在排列語言建模中,預測的順序不一定是從左到右。例如,它可能是:

“own”, “Sometimes”, “to”, “be”, “your”, “hero”, “you”, “have”

其中“Sometimes”會以看到“own為條件,而“to” 則以看到“own”和“Sometimes”等為條件。

注意如何使用排列語言建模強制模型建模雙向依賴關系。期望上,模型應該學習建模所有輸入組合之間的依賴關系,而傳統語言模型只能在一個方向上學習依賴關系。

XLNet使用Transformer XL

除了使用排列語言建模之外,XLNet還使用了Transformer XL,它可以進一步改善其結果。

Transformer XL模型背后的主要思想:

相對位置嵌入

循環機制

在對當前段進行排列語言建模時,緩存并凍結來自前一段的隱藏狀態。由于來自前一段的所有單詞都用作輸入,因此不需要知道前一段的排列順序。

雙流自注意力(Two-Stream Self-Attention)

對于使用Transformer模型的語言模型,當預測位置i處的標記時,該詞的整個嵌入被掩蔽,包括位置嵌入。這意味著模型與它所預測的標記位置有關的知識隔絕。

這可能是有問題的,特別是對于句子開頭的位置,其與句子中的其他位置具有顯著不同的分布。為了解決這個問題,作者引入了第二組表示,其中包含位置信息,但僅為了預訓練而屏蔽了實際的標記。第二組表示稱為query stream。訓練該模型以使用來自query stream的信息來預測句子中的每個標記。

包括位置嵌入和詞嵌入的原始表示集稱為content stream。這組表示用于在預訓練期間合并與特定單詞相關的所有信息。content stream用作query stream的輸入。這個模式稱為“雙流自注意力”。

對于每個單詞,query stream使用ontent stream,該ontent stream對直到當前單詞的單詞的所有可用上下文信息進行編碼。例如,我們在下面的句子中預測 “calm” 一詞:

“Keep calm and read papers

其中位于排列前面的詞是 “and”和“papers”。content stream將編碼單詞“and”和“papers”的信息,query stream將編碼 “calm”的位置信息,以及結合來自content stream的信息,用于預測單詞 “calm”。

總結

XLNet必將成為研究中討論的話題。這表明NLP中的語言建模和遷移學習還有很多需要探索的地方。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言建模
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6313
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22490
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    可以在哪里修改以更改非 PD 類型 C 不同的 Rp 等級?

    ,但在 C 類型不是 PD pd_typec_en_rp ();函數對 Rp 等級沒有影響,那么我們可以在哪里修改以更改非 PD 類型 C 不同的 Rp 等級? 還建議一種在非 pd sink 連接
    發表于 05-27 07:16

    微控制器讀取閃存的軟件信息時,軟件信息部署在哪里? 是 SRAM 嗎?

    我對 PMG1 閃光燈有疑問。 1.微控制器讀取閃存的軟件信息時,軟件信息部署在哪里? 是 SRAM 嗎? 2.微控制器加載軟件時,在部署之前是否檢查 SRAM 是否復位?
    發表于 05-23 06:22

    請問在哪里可以找到 DFU HOST TOOL?

    DFU Host Tool 的鏈接似乎已關閉: 請您告訴我還可以在哪里找到該工具。
    發表于 05-20 06:51

    STMHAL庫的USB每次插拔時識別位置在哪里

    STMHAL庫的USB每次插拔時識別位置在哪里
    發表于 03-07 14:00

    人工智能的下一站在哪里

    DeepSeek的爆發進一步推動了AI行業的發展速度,這讓人們不得不想象AI的下一站在哪里?維智科技所深耕的時空大模型與AI發展的邏輯軌跡又是如何聯系的?
    的頭像 發表于 02-14 10:27 ?373次閱讀

    VirtualLab Fusion案例:K域和X域中的系統建模

    有用。此外,我們還展示了VirtualLab Fusion的功能,可以根據用戶可調的精度和計算量的標準,在需要進行模擬的任何地方自動選擇最適合的傅里葉變換算法。我們還展示了在哪里檢查選擇了哪些傅里葉變換
    發表于 01-15 08:56

    ADS131M08規格書上將“ADC主時鐘和SCLK同步能實現最佳性能”,具體相對于不同步,性能好在哪

    ADS131M08規格書上將“ADC主時鐘和SCLK同步能實現最佳性能”,具體相對于不同步,性能好在哪
    發表于 11-21 07:49

    智慧燈桿到底“智慧”在哪里?條形智能為您專業解讀 AI燈桿屏

    智慧燈桿到底“智慧”在哪里?條形智能為您專業解讀 AI燈桿屏
    的頭像 發表于 11-14 13:51 ?566次閱讀
    智慧燈桿到底“智慧”<b class='flag-5'>在哪里</b>?條形智能為您專業解讀 AI燈桿屏

    貼片電容與貼片電阻的本質差異在哪里

    貼片電容與貼片電阻的本質差異在哪里
    的頭像 發表于 08-27 15:51 ?717次閱讀
    貼片電容與貼片電阻的本質差異<b class='flag-5'>在哪里</b>?

    在哪里可以下載opa197和opa4180的符號和封裝?

    請問,在哪里可以下載opa197和opa4180的符號和封裝? 畫原理圖和PCB,結果沒有找到opa197和opa4180的符號和封裝,在哪里可以找到?
    發表于 08-27 06:38

    請問TINA的電流源在哪里可以找到?

    我想用TINA軟件來做開關電源的輸出瞬態仿真測試。例如輸出電流源沖1A到2A的跳變,測試輸出電壓的變化值。我在TINA沒有找到對應的脈沖電流源,但是在WEBENCH就有的。請問TINA的電流源在哪里可以找到?
    發表于 08-09 08:22

    請問fpga與單片機最大的區別在哪里

    fpga和單片機是用得最多的兩款芯片,那么兩者最大的不同點在哪里呢?
    發表于 07-30 21:32

    Python建模算法與應用

    上成為理想的腳本語言,特別適用于快速的應用程序開發。本文將詳細介紹Python在建模算法的應用,包括常見的建模算法、Python在建模
    的頭像 發表于 07-24 10:41 ?1096次閱讀

    CYUSB3014無法在閃存編程圖像,問題出在哪里

    not found\" 消息。 我無法在 Flash 中加載圖像。 問題可能出在哪里? 我們使用的閃存部件是 MT25QL128ABA8E12。
    發表于 07-23 07:30

    神經網絡在數學建模的應用

    數學建模是一種利用數學方法和工具來描述和分析現實世界問題的過程。神經網絡是一種模擬人腦神經元結構和功能的計算模型,可以用于解決各種復雜問題。在數學建模,神經網絡可以作為一種有效的工具,幫助我們更好
    的頭像 發表于 07-02 11:29 ?1670次閱讀
    主站蜘蛛池模板: 天天做天天爱天天爽天天综合 | 98pao强力打造高清免费 | 色综合中文网 | bt在线www天堂资源网 | mide-776中文字幕在线 | 永久黄色免费网站 | 免费被视频网站在线观看 | 午夜影院免费入口 | 五月婷婷网址 | 欧美成人性动漫在线观看 | 欧美freesex| 欧美午夜性春猛交bbb | 国产精品国产三级国产普通话对白 | 天天插天天操天天干 | 日本免费不卡在线一区二区三区 | 亚洲色图综合在线 | 啪一啪日一日 | 欧美freesex交 | 视频在线观看免费网址 | 深爱激情婷婷 | 狠狠gao| 国产三级视频在线播放 | 久久精品最新免费国产成人 | 黄a在线观看 | 一级骚片超级骚在线观看 | 国产资源在线播放 | 日女人免费视频 | 一级毛片一级毛片一级毛片aa | 4438x成人网全国最大 | 日韩三级在线观看视频 | 亚洲一区二区高清 | 久久久久久亚洲精品 | 最近2018中文字幕免费看在线 | 最新国产精品视频免费看 | 日本色色图 | 天天做天天添天天谢 | 大又大粗又爽又黄少妇毛片 | 亚洲人成电影综合网站色 | 九九黄色网 | 亚洲视频在线不卡 | 丰满寡妇一级毛片 |