盗墓笔记,大主宰之灵路天蚕土豆,神武八荒一颗小说

編者按：在過去的一段時間，自然語言處理領域取得了許多重要的進展，Transformer、BERT、無監督機器翻譯，這些詞匯仿佛在一夜之間就進入了人們的視野。你知道它們具體都是什么意思嗎？今天，我們就將為大家介紹三個NLP領域的熱門詞匯。

Transformer

Transformer 在2017年由Google在題為《Attention Is All You Need》的論文中提出。Transformer 是一個完全基于注意力機制的編解碼器模型，它拋棄了之前其它模型引入注意力機制后仍然保留的循環與卷積結構，而采用了自注意力（Self-attention）機制，在任務表現、并行能力和易于訓練性方面都有大幅的提高。

在 Transformer 出現之前，基于神經網絡的機器翻譯模型多數都采用了 RNN 的模型架構，它們依靠循環功能進行有序的序列操作。雖然 RNN 架構有較強的序列建模能力，但是存在訓練速度慢，訓練質量低等問題。

與基于 RNN 的方法不同，Transformer 模型中沒有循環結構，而是把序列中的所有單詞或者符號并行處理，同時借助自注意力機制對句子中所有單詞之間的關系直接進行建模，而無需考慮各自的位置。

具體而言，如果要計算給定單詞的下一個表征，Transformer 會將該單詞與句子中的其它單詞一一對比，并得出這些單詞的注意力分數。注意力分數決定其它單詞對給定詞匯的語義影響。之后，注意力分數用作所有單詞表征的平均權重，這些表征輸入全連接網絡，生成新表征。

由于 Transformer 并行處理所有的詞，以及每個單詞都可以在多個處理步驟內與其它單詞之間產生聯系，它的訓練速度比 RNN 模型更快，在翻譯任務中的表現也比 RNN 模型更好。

除了計算性能和更高的準確度，Transformer 另一個亮點是可以對網絡關注的句子部分進行可視化，尤其是在處理或翻譯一個給定詞時，因此可以深入了解信息是如何通過網絡傳播的。

之后，Google的研究人員們又對標準的 Transformer 模型進行了拓展，采用了一種新型的、注重效率的時間并行循環結構，讓它具有通用計算能力，并在更多任務中取得了更好的結果。

改進的模型（Universal Transformer）在保留Transformer 模型原有并行結構的基礎上，把 Transformer 一組幾個各異的固定的變換函數替換成了一組由單個的、時間并行的循環變換函數構成的結構。

相比于 RNN一個符號接著一個符號從左至右依次處理序列，Universal Transformer 和 Transformer 能夠一次同時處理所有的符號，但 Universal Transformer 接下來會根據自注意力機制對每個符號的解釋做數次并行的循環處理修飾。

Universal Transformer 中時間并行的循環機制不僅比 RNN 中使用的串行循環速度更快，也讓 Universal Transformer 比標準的前饋 Transformer 更加強大。

預訓練 Pre-train

目前神經網絡在進行訓練的時候基本都是基于后向傳播（Back Propagation，BP）算法，通過對網絡模型參數進行隨機初始化，然后利用優化算法優化模型參數。

但是在標注數據很少的情況下，通過神經網絡訓練出的模型往往精度有限，“預訓練”則能夠很好地解決這個問題，并且對一詞多義進行建模。

預訓練是通過大量無標注的語言文本進行語言模型的訓練，得到一套模型參數，利用這套參數對模型進行初始化，再根據具體任務在現有語言模型的基礎上進行精調。

預訓練的方法在自然語言處理的分類和標記任務中，都被證明擁有更好的效果。目前，熱門的預訓練方法主要有三個：ELMo，OpenAI GPT 和 BERT。

在2018年初，艾倫人工智能研究所和華盛頓大學的研究人員在題為《Deep contextualized word representations》一文中提出了ELMo。

相較于傳統的使用詞嵌入（Word embedding）對詞語進行表示，得到每個詞唯一固定的詞向量，ELMo 利用預訓練好的雙向語言模型，根據具體輸入從該語言模型中可以得到在文本中該詞語的表示。在進行有監督的 NLP 任務時，可以將 ELMo 直接當做特征拼接到具體任務模型的詞向量輸入或者是模型的最高層表示上。

在ELMo的基礎之上，OpenAI的研究人員在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。

與ELMo為每一個詞語提供一個顯式的詞向量不同，OpenAI GPT能夠學習一個通用的表示，使其能夠在大量任務上進行應用。

在處理具體任務時，OpenAI GPT 不需要再重新對任務構建新的模型結構，而是直接在 Transformer 這個語言模型上的最后一層接上 softmax 作為任務輸出層，再對這整個模型進行微調。

ELMo和OpenAI GPT這兩種預訓練語言表示方法都是使用單向的語言模型來學習語言表示，而Google在提出的BERT則實現了雙向學習，并得到了更好的訓練效果。

具體而言，BERT使用Transformer的編碼器作為語言模型，并在語言模型訓練時提出了兩個新的目標：MLM（Masked Language Model）和句子預測。

MLM是指在輸入的詞序列中，隨機的擋上 15% 的詞，并遮擋部分的詞語進行雙向預測。為了讓模型能夠學習到句子間關系，研究人員提出了讓模型對即將出現的句子進行預測：對連續句子的正誤進行二元分類，再對其取和求似然。

圖片來源：Google AI Blog

無監督機器翻譯

Unsupervised Machine Translation

現有的機器翻譯需要大量的翻譯文本做訓練樣本，這使得機器翻譯只在一小部分樣本數量充足的語言上表現良好，但如何在沒有源翻譯的情況下訓練機器翻譯模型，即無監督訓練，成為了目前熱門的研究話題。

Facebook 在 EMNLP 2018 上的論文《Phrase-Based & Neural Unsupervised Machine Translation》利用跨字嵌入（Cross Word Embedding），提升了高達 11 BLEU，那么 Facebook 是如何實現的呢？

第一步是讓系統學習雙語詞典。系統首先為每種語言中的每個單詞訓練詞嵌入，訓練詞嵌入通過上下文來預測給定單詞周圍的單詞。

不同語言的詞嵌入具有相似的鄰域結構，因此可以通過對抗訓練等方法讓系統學習旋轉變換一種語言的詞嵌入，以匹配另一種語言的詞嵌入。

基于這些信息，就可以得到一個相對準確的雙語詞典，并基本可以實現逐字翻譯。在得到語言模型和初始的逐字翻譯模型之后，就可以構建翻譯系統的早期版本。

然后將系統翻譯出的語句作為標注過的真實數據進行處理，訓練反向機器翻譯系統，得到一個更加流暢和語法正確的語言模型，并將反向翻譯中人工生成的平行句子與該語言模型提供的校正相結合，以此來訓練這個翻譯系統。

通過對系統的訓練，形成了反向翻譯的數據集，從而改進原有的機器翻譯系統。隨著一個系統得到改進，可以使用它以迭代方式在相反方向上為系統生成訓練數據，并根據需要進行多次迭代。

逐字嵌入初始化、語言建模和反向翻譯是無監督機器翻譯的三個重要原則。將基于這些原理得到的翻譯系統應用于無監督的神經模型和基于計數的統計模型，從訓練好的神經模型開始，使用基于短語模型的其它反向翻譯句子對其進行訓練，最終得到了一個既流暢，準確率又高的模型。

對于無監督機器翻譯，微軟亞洲研究院自然語言計算組也進行了探索。研究人員利用后驗正則（Posterior Regularization）的方式將 SMT（統計機器翻譯）引入到無監督NMT的訓練過程中，并通過EM過程交替優化 SMT 和 NMT 模型，使得無監督 NMT 迭代過程中的噪音能夠被有效去除，同時 NMT 模型也彌補了 SMT 模型在句子流暢性方面的不足。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4785

瀏覽量
101273
機器翻譯

機器翻譯

+關注

關注
0

文章
139

瀏覽量
14963
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22125

原文標題：請收下這份 NLP 熱門詞匯解讀

文章出處：【微信號：AI_Thinker，微信公眾號：人工智能頭條】歡迎添加關注！文章轉載請注明出處。

基本理想電路元件的三個特征是什么

基本理想電路元件是構成電路的基本單元，它們具有三個基本特征：電壓-電流關系、能量轉換和電路參數。以下是對這三個特征的分析：電壓-電流關系理想電路元件的電壓-電流關系是其最基本的特征之一。這種關系

發表于 08-25 09:38 ?1434次閱讀

對稱三相電壓的特點是哪三個方面

對稱三相電壓是電力系統中常見的一種電壓形式，它具有三個相位，每個相位之間的相位差為120度。對稱三相電壓在工業生產和日常生活中有著廣泛的應用，如電動機、變壓器、發電機等。本文將從三個方

發表于 08-12 18:18 ?1871次閱讀

可調變阻器三個引腳怎么區分

的區分對于正確使用可調變阻器至關重要。本文將介紹可調變阻器的三個引腳的區分方法。一、可調變阻器的工作原理在了解可調變阻器的三個引腳之前，我們首先需要了解其工作原理。可調變阻器主要由一個

發表于 07-24 11:12 ?1537次閱讀

可調電阻三個腳各是什么

可調電阻器，也稱為電位器或可變電阻器，是一種可調節電阻值的電子元件。它通常由三個腳（引腳）組成，分別是固定腳、滑動腳和可調腳。以下是對這三個腳的介紹：固定腳（Fixed Terminal）：固定

發表于 07-24 11:06 ?2483次閱讀

嵌入式熱門領域有哪些?

嵌入式熱門領域有哪些? 當前，嵌入式行業正處于快速發展階段，并在多個領域呈現出蓬勃的熱度。物聯網物聯網作為目前嵌入式行業的炙手可熱領域之一，已經在各行業展現出了強勁的增長勢頭

發表于 07-16 09:23

nlp邏輯層次模型的特點

NLP（自然語言處理）邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次，以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析：詞匯層次

發表于 07-09 10:39 ?485次閱讀

nlp自然語言處理基本概念及關鍵技術

、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型語言模型是NLP的基礎，它用于描述一個句子在自然語言中出現的概率。語言模型通常用于文本生成、機

發表于 07-09 10:32 ?806次閱讀

nlp自然語言處理框架有哪些

自然語言處理（Natural Language Processing，簡稱NLP）是計算機科學和人工智能領域的一個重要分支，它致力于使計算機能夠理解和處理人類語言。隨著技術的發展，NLP

發表于 07-09 10:28 ?649次閱讀

nlp自然語言處理模型怎么做

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展，NLP

發表于 07-05 09:59 ?736次閱讀

nlp自然語言處理模型有哪些

自然語言處理（Natural Language Processing，NLP）是計算機科學和人工智能領域的一個重要分支，旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP

發表于 07-05 09:57 ?911次閱讀

NLP技術在人工智能領域的重要性

智能的橋梁，其重要性日益凸顯。本文將從NLP的定義、發展歷程、核心技術、應用領域以及對人工智能領域的深遠影響等多個維度，深入探討NLP技術在人工智能

發表于 07-04 16:03 ?711次閱讀

微波測量的三個基本參量是什么

微波測量是電子工程領域中的一個重要分支，它涉及到對微波信號的頻率、幅度、相位等參數的測量。在微波測量中，有三個基本參量：頻率、幅度和相位。這三個參量是微波信號的基本特征，對于微波系統的

發表于 05-28 14:46 ?1566次閱讀

如何判斷三極管的三個極性

三極管是電子電路中的基本元件之一，其性能的好壞直接影響到整個電路的性能。而判斷三極管的三個極性（基極b、發射極e、集電極c）是電路分析和設計中不可或缺的一步。下面將詳細介紹判斷

發表于 05-21 15:26 ?7180次閱讀

一個籬笆三個樁——記晶體三極管的發明

一個籬笆三個樁——記晶體三極管的發明

發表于 05-12 08:14 ?901次閱讀

三個電位怎么判斷NPN還是PNP

晶體管是一種常見的電子元件，用于放大和開關電流。根據晶體管的構造和極性，可以將其分為NPN型和PNP型晶體管。判斷晶體管的極性對正確使用和連接電路至關重要。本文將詳細介紹如何通過三個電位來判斷晶體管

發表于 02-27 15:02 ?3484次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

介紹三個NLP領域的熱門詞匯

評論

基本理想電路元件的三個特征是什么

對稱三相電壓的特點是哪三個方面

可調變阻器三個引腳怎么區分

可調電阻三個腳各是什么

嵌入式熱門領域有哪些?

nlp邏輯層次模型的特點

nlp自然語言處理基本概念及關鍵技術

nlp自然語言處理框架有哪些

nlp自然語言處理模型怎么做

nlp自然語言處理模型有哪些

NLP技術在人工智能領域的重要性

微波測量的三個基本參量是什么

如何判斷三極管的三個極性

一個籬笆三個樁——記晶體三極管的發明

三個電位怎么判斷NPN還是PNP