在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

電子工程師 ? 來(lái)源:fqj ? 2019-05-14 09:45 ? 次閱讀

自然語(yǔ)言推理 (Natural Language Inference, NLI) 是一個(gè)活躍的研究領(lǐng)域,許多基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs),卷積神經(jīng)網(wǎng)絡(luò)(CNNs),self-attention 網(wǎng)絡(luò) (SANs) 的模型為此提出。盡管這些模型取得了不錯(cuò)的表現(xiàn),但是基于 RNNs 的模型難以并行訓(xùn)練,基于 CNNs 的模型需要耗費(fèi)大量的參數(shù),基于 self-attention 的模型弱于捕獲文本中的局部依賴(lài)。為了克服這個(gè)問(wèn)題,我們向 self-attention 機(jī)制中引入高斯先驗(yàn) (Gaussian prior) 來(lái)更好的建模句子的局部結(jié)構(gòu)。接著,我們?yōu)?NLI 任務(wù)提出了一個(gè)高效的、不依賴(lài)循環(huán)或卷積的網(wǎng)絡(luò)結(jié)構(gòu),名為 Gaussian Transformer。它由用于建模局部和全局依賴(lài)的編碼模塊,用于收集多步推理的高階交互模塊,以及一個(gè)參數(shù)輕量的對(duì)比模塊組成。實(shí)驗(yàn)結(jié)果表明,我們的模型在SNLI 和 MultiNLI 數(shù)據(jù)集上取得了當(dāng)時(shí)最高的成績(jī),同時(shí)大大減少了參數(shù)數(shù)量和訓(xùn)練時(shí)間。此外,在 HardNLI 數(shù)據(jù)集上的實(shí)驗(yàn)表明我們的方法較少受到標(biāo)注的人工痕跡(Annotation artifacts) 影響。

1 引言

1.1 任務(wù)簡(jiǎn)介

自然語(yǔ)言推理 (Natural Language Inference, NLI) ,又叫文本蘊(yùn)含識(shí)別 (Recognizing Textual Entailment, RTE), 研究的是文本間的語(yǔ)義推理關(guān)系, 具體來(lái)講, 就是識(shí)別兩句話(huà)之間的蘊(yùn)含關(guān)系,例如,蘊(yùn)含、矛盾、中性。形式上是,NLI 是一個(gè)本文對(duì)分類(lèi)問(wèn)題。

1.2 動(dòng)機(jī)

這里簡(jiǎn)要介紹一下我們提出 Gaussian Self-attention 的動(dòng)機(jī)。我們觀(guān)察到,在句子中,與當(dāng)前詞的語(yǔ)義關(guān)聯(lián)比較大的詞往往出現(xiàn)在這個(gè)單詞的周?chē)?但是普通的 Self-attention, 并沒(méi)有有效地體現(xiàn)這一點(diǎn)。如圖1所示,在句子 ”I bought a newbookyesterday with a new friend in New York. ” 中,共出現(xiàn)了三個(gè) ”new”,但對(duì)于當(dāng)前詞 book 來(lái)說(shuō),只有第一個(gè)new 才是有意義的。但是普通的 self-attention(在不使用 position-encoding 的情況下),卻給這三個(gè) ”new” 分配了同樣大小的權(quán)重,如圖1(a)所示。我們的想法是,應(yīng)當(dāng)鼓勵(lì) self-attention 給鄰近的詞更大的權(quán)重,為此,我們 在原始的權(quán)重上乘以一個(gè)按臨近位置分布的高斯先驗(yàn)概率,如圖 1(b),改變 self-attention 的權(quán)重分布,如圖 1(c),從而更加有效地建模句子的局部結(jié)構(gòu)。

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

圖 1. Gaussian self-attention 示例

事實(shí)上,RNNs 和 CNNs 能夠自然而然地賦予臨近的單詞更大的權(quán)重,例如,RNNs 會(huì)傾向忘記遠(yuǎn)處的單詞,CNNs 會(huì)忽略所有不在當(dāng)前窗口內(nèi)的單詞。在這篇文章中,我們把 Gaussian self-attention 應(yīng)用到了 Transformer 網(wǎng)絡(luò)上, 并在自然語(yǔ)言推理 (Natural language Inference)這一任務(wù)上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)表明我們所提出的基于 Gaussian self-attention 的 Gaussian Transformer 效果優(yōu)于許多較強(qiáng)的基線(xiàn)方法。同時(shí),該方法也保留了原始 Transformer 的并行訓(xùn)練,參數(shù)較少的優(yōu)點(diǎn)。

2 模型簡(jiǎn)介

在實(shí)現(xiàn)上, 我們可以通過(guò)一系列化簡(jiǎn) (具體細(xì)節(jié)請(qǐng)參看我們的論文原文), 把 Gaussian self-attention 轉(zhuǎn)化為 Transformer 中的一次矩陣加法操作, 如圖 2 所示, 從而節(jié)省了運(yùn)算量。 此外,我們發(fā)現(xiàn),與使用原始的 Gaussian 分布作為先驗(yàn)概率相比,適當(dāng)?shù)囊种频絾卧~自身的 attention可以對(duì)最終的實(shí)驗(yàn)結(jié)果有少許的提升,如圖 3(b) 所示。

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

圖 2. Attention 示例: (a) 原始的 dot-product attention;(b)&(c) Gaussian self-attention 的兩種實(shí)現(xiàn)

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

圖 3. 先驗(yàn)概率示例: (a) 原始的 Gaussian prior;(b) 抑制到自身的 Gaussian prior 變種

圖 4 展示了我們模型的整體框架。 如圖所示, 模型自底向上大致分為四個(gè)部分:Embedding模塊、編碼 (Encoding) 模塊、交互 (Interaction) 模塊和對(duì)比 (Comparison) 模塊。

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

圖 4. Gaussian Transformer 整體框架

Embedding 模塊的作用是把自然語(yǔ)言文本轉(zhuǎn)化為機(jī)器方便處理的向量化表示, 我們使用了單詞和字符級(jí)別的 Embedding,以及 Positional Encoding。

Encoding 模塊與原始的 Transformer 的 Encoder 非常類(lèi)似,只是我們?cè)黾恿饲拔囊氲?Gaussian self-attention 以便更好的建模句子的局部結(jié)構(gòu)。 但事實(shí)上, 句子中也存在長(zhǎng)距離依賴(lài), 僅僅建模句子的局部結(jié)構(gòu)是不夠的。為了捕獲句子的全局信息,我們堆疊了 M 個(gè) Encoding 模塊。這種方式類(lèi)似于多層的 CNNs 網(wǎng)絡(luò),層數(shù)較高的卷積層的 receptive ?eld 要大于底層的卷積。

Interaction 模塊用于捕獲兩個(gè)句子的交互信息。 這一部分與原始的 Transformer 的 Decoder 部分類(lèi)似, 區(qū)別是我們?nèi)サ袅?Positional Mask 和解碼的部分。 通過(guò)堆疊 N 個(gè) Interaction 模塊,我們可以捕獲高階交互的信息。

Comparison 模塊主要負(fù)責(zé)對(duì)比兩個(gè)句子,分別從句子的 Encoding 和 Interaction 兩個(gè)角度對(duì)比,這里我們沒(méi)有使用以前模型中的復(fù)雜結(jié)構(gòu),從而節(jié)省了大量的參數(shù)。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)結(jié)果

首先,我們驗(yàn)證各個(gè)模塊的有效性,如圖 5 所示,采用多層的 Encoding 模塊和多層的 Interaction 模塊的效果要優(yōu)于使用單層的模型,證明了前面所提到的全局信息和高階交互的有效性。其次,我們想要驗(yàn)證一下 Gaussian prior 的有效性。如表 1 所示,我們發(fā)現(xiàn) Gaussian prior 及其變種的性能要優(yōu)于其他諸如 Zipf prior 等方法,也要優(yōu)于原始的 Transformer。最后, 我們?cè)?SNLI、MultiNLI 和 HardNLI 的測(cè)試集上與其他前人的方法進(jìn)行了橫向比較。如表 2、 3、4、5 和 6 所示,我們的方法在 Accuracy、模型參數(shù)量、訓(xùn)練與預(yù)測(cè)一輪同樣的數(shù)據(jù)的時(shí)間上都優(yōu)于基線(xiàn)方法。

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

圖 5. MultiNLI 開(kāi)發(fā)集上的 Accuracy 熱圖。

表1.MultiNLI 開(kāi)發(fā)集上各 Gaussian transformer 變種的 Accuracy

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

表2.SNLI 測(cè)試集上 Gaussian Transformer 與其他模型的橫向比較

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

表3.MultiNLI 測(cè)試集上 Gaussian Transformer 與其他模型的橫向比較

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

表4.在 SNLI 數(shù)據(jù)集上訓(xùn)練或預(yù)測(cè)一輪所需的時(shí)間對(duì)比

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

表5.當(dāng)引入外部資源時(shí),各個(gè)模型的性能比較

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

表6.HardNLI 上的對(duì)比結(jié)果

AAAI 2019 Gaussian Transformer 一種自然語(yǔ)言推理方法

3.2 分析

Q:原始的 Transformer 中已經(jīng)有了 Positional encoding,已經(jīng)能夠捕獲單詞的位置信息,為什么還要用 Gaussian Prior ?

A:Positional Encoding 僅僅使模型具有了感知單詞位置的能力;而 Gaussian Prior 告訴模型哪些單詞更重要,即對(duì)于當(dāng)前單詞來(lái)說(shuō),臨近的單詞比遙遠(yuǎn)的單詞更重要,這一先驗(yàn)來(lái)自于人的觀(guān)察。

Q:為什么 Gaussian Transformer 在時(shí)間和參數(shù)量上優(yōu)于其他的方法?

A:Gaussian Transformer 沒(méi)有循環(huán)和卷積結(jié)構(gòu),從而能夠并行計(jì)算,同時(shí)我們?cè)谠O(shè)計(jì)模型時(shí),盡量保持模型簡(jiǎn)化,摒棄了以往方法中的復(fù)雜結(jié)構(gòu) (例如,在 Comparison block 中的簡(jiǎn)化),使我們的模型更加輕量。

4 結(jié)論

針對(duì)自然語(yǔ)言推理任務(wù)的前人工作的不足,我們提出了基于 Gaussian self-attention 的 Gaussian Transformer 模型。實(shí)驗(yàn)表明所提出的模型在若干自然語(yǔ)言推理任務(wù)上取得了State-of-the-Art的實(shí)驗(yàn)結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:AAAI 2019 Gaussian Transformer: 一種自然語(yǔ)言推理的輕量方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    python自然語(yǔ)言

    最近,python自然語(yǔ)言是越來(lái)越火了,那么什么是自然語(yǔ)言。自然語(yǔ)言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類(lèi)語(yǔ)言進(jìn)
    發(fā)表于 05-02 13:50

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    `相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的個(gè)分支,它與計(jì)算機(jī)和人類(lèi)之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān),而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類(lèi)樣理解
    發(fā)表于 10-09 15:28

    自然語(yǔ)言處理的詞性標(biāo)注方法

    自然語(yǔ)言處理——78 詞性標(biāo)注方法
    發(fā)表于 04-21 11:38

    什么是自然語(yǔ)言處理

    什么是自然語(yǔ)言處理?自然語(yǔ)言處理任務(wù)有哪些?自然語(yǔ)言處理的方法是什么?
    發(fā)表于 09-08 06:51

    深度視頻自然語(yǔ)言描述方法

    針對(duì)計(jì)算機(jī)對(duì)視頻進(jìn)行自動(dòng)標(biāo)注和描述準(zhǔn)確率不高的問(wèn)題,提出一種基于多特征融合的深度視頻自然語(yǔ)言描述的方法。該方法提取視頻幀序列的空間特征、運(yùn)動(dòng)特征、視頻特征,進(jìn)行特征的融合,使用融合的特
    發(fā)表于 12-04 14:07 ?1次下載
    深度視頻<b class='flag-5'>自然語(yǔ)言</b>描述<b class='flag-5'>方法</b>

    什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說(shuō)明

    自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法自然語(yǔ)言處理是
    發(fā)表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語(yǔ)言</b>處理_<b class='flag-5'>自然語(yǔ)言</b>處理常用<b class='flag-5'>方法</b>舉例說(shuō)明

    一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESIM

    自然語(yǔ)言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層添加到ESIM模型的雙向LSTM網(wǎng)絡(luò)中,從而
    發(fā)表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b>注意力增強(qiáng)的<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>推理</b>模型aESIM

    PyTorch教程16.4之自然語(yǔ)言推理和數(shù)據(jù)集

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.4之自然語(yǔ)言推理和數(shù)據(jù)集.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:57 ?0次下載
    PyTorch教程16.4之<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>推理</b>和數(shù)據(jù)集

    PyTorch教程16.5之自然語(yǔ)言推理:使用注意力

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.5之自然語(yǔ)言推理:使用注意力.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:49 ?0次下載
    PyTorch教程16.5之<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>推理</b>:使用注意力

    PyTorch教程16.7之自然語(yǔ)言推理:微調(diào)BERT

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.7之自然語(yǔ)言推理:微調(diào)BERT.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:52 ?0次下載
    PyTorch教程16.7之<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>推理</b>:微調(diào)BERT

    PyTorch教程-16.5。自然語(yǔ)言推理:使用注意力

    的基于注意力的方法(使用 MLP),如圖 16.5.1所示。 圖 16.5.1本節(jié)將預(yù)訓(xùn)練的 GloVe 提供給基于注意力和 MLP 的架構(gòu)以進(jìn)行自然語(yǔ)言推理。? 16.5.1。該模型? 比保留前提和假設(shè)中標(biāo)
    的頭像 發(fā)表于 06-05 15:44 ?694次閱讀
    PyTorch教程-16.5。<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>推理</b>:使用注意力

    自然語(yǔ)言處理的概念和應(yīng)用 自然語(yǔ)言處理屬于人工智能嗎

      自然語(yǔ)言處理(Natural Language Processing)是一種人工智能技術(shù),它是研究自然語(yǔ)言與計(jì)算機(jī)之間的交互和通信的門(mén)學(xué)科。
    發(fā)表于 08-23 17:31 ?1931次閱讀

    一種基于自然語(yǔ)言的軌跡修正方法

    本研究提出了ExTraCT框架,利用自然語(yǔ)言進(jìn)行軌跡校正。該框架結(jié)合了大型語(yǔ)言模型(LLMs)用于自然語(yǔ)言理解和軌跡變形函數(shù)。ExTraCT能夠根據(jù)場(chǎng)景在線(xiàn)生成軌跡修改特征及其自然語(yǔ)言
    的頭像 發(fā)表于 01-19 10:45 ?599次閱讀
    <b class='flag-5'>一種</b>基于<b class='flag-5'>自然語(yǔ)言</b>的軌跡修正<b class='flag-5'>方法</b>

    自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它涉及到使用計(jì)算機(jī)技術(shù)來(lái)處理、分析和生成自然語(yǔ)言文本。
    的頭像 發(fā)表于 07-03 14:18 ?1598次閱讀

    Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)的核心思想、組成部分以及在
    的頭像 發(fā)表于 07-09 11:42 ?1254次閱讀
    主站蜘蛛池模板: 亚洲乱亚洲乱妇41p 亚洲乱亚洲乱妇41p国产成人 | 国产巨大bbbb俄罗斯 | 国产在线五月综合婷婷 | 一级欧美日韩 | 黄色日本视频网站 | 午夜色网站 | 亚洲三级电影在线播放 | 奇米米奇777| 中文天堂网在线www 中文天堂资源在线www | 2021精品综合久久久久 | 成人午夜啪啪免费网站 | 免费播放特黄特色毛片 | 色噜噜噜噜噜在线观看网站 | 激情婷婷综合久久久久 | 1000部禁片黄的免费看 | 康熙古代高h细节肉爽文全文 | 欧美成人午夜不卡在线视频 | 网色视频 | 四虎最新视频 | 欧美一级第一免费高清 | 国产一级特黄高清免费大片 | 99精品国产高清自在线看超 | 欧美3区| 日本特黄特色 | 亚洲福利一区二区三区 | 欧美一级乱理片免费观看 | 日韩1024| 亚洲免费网 | 99热网址| 午夜久久免费视频 | 一区二区三区中文字幕 | 在线免费亚洲 | 国产成人啪精品午夜在线播放 | 4438全国最大成人免费高清 | 夜色福利久久久久久777777 | 免费男女视频 | 成人免费看黄页网址大全 | 狠狠色噜噜狠狠狠狠米奇777 | 亚洲成色在线综合网站 | 亚洲午夜精品久久久久 | 伦理一区二区三区 |