在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-12-25 08:36 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近年來(lái),隨著大語(yǔ)言模型的不斷出圈,Transformer這一概念也走進(jìn)了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)模型,最早于2017年由谷歌(Google)研究團(tuán)隊(duì)提出,主要用于處理自然語(yǔ)言。

2018年10月,Google發(fā)出一篇論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型橫空出世,并橫掃NLP領(lǐng)域11項(xiàng)任務(wù)的最佳成績(jī)。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer,之后又相繼出現(xiàn)XLNET、roBERT等模型擊敗了BERT,但是他們的核心沒(méi)有變,仍然是Transformer。

與傳統(tǒng)CNN和RNN相比,Transformer計(jì)算效率更高

Transformer是一種基于注意力機(jī)制的序列模型,與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)不同,Transformer僅使用自注意力機(jī)制(self-attention)來(lái)處理輸入序列和輸出序列,因此可以并行計(jì)算,極大地提高了計(jì)算效率。

自注意力機(jī)制是注意力機(jī)制的一個(gè)特例。注意力機(jī)制類似于人類的注意力,能夠根據(jù)任務(wù)的需要分配不同權(quán)重給輸入序列中的不同部分。自注意力機(jī)制則更像是一種“全知”的能力,系統(tǒng)可以同時(shí)關(guān)注輸入序列中的所有位置,而不受序列中位置的限制。

自注意力機(jī)制是Transformer的核心部分,它允許模型在處理序列時(shí),將輸入序列中的每個(gè)元素與其他元素進(jìn)行比較,以便在不同上下文中正確地處理每個(gè)元素。

Transformer模型由編碼器(Encoder)和解碼器(Decoder)兩部分組成。編碼器將輸入序列(例如一句話)轉(zhuǎn)化為一系列上下文表示向量(Contextualized Embedding),它由多個(gè)相同的層組成。每一層都由兩個(gè)子層組成,分別是自注意力層(Self-Attention Layer)和前饋全連接層(Feedforward Layer)。具體地,自注意力層將輸入序列中的每個(gè)位置與所有其他位置進(jìn)行交互,以計(jì)算出每個(gè)位置的上下文表示向量。前饋全連接層則將每個(gè)位置的上下文表示向量映射到另一個(gè)向量空間,以捕捉更高級(jí)別的特征。

解碼器將編碼器的輸出和目標(biāo)序列(例如翻譯后的句子)作為輸入,生成目標(biāo)序列中每個(gè)位置的概率分布。解碼器由多個(gè)相同的層組成,每個(gè)層由三個(gè)子層組成,分別是自注意力層、編碼器-解碼器注意力層(Encoder-Decoder Attention Layer)和前饋全連接層。其中自注意力層和前饋全連接層的作用與編碼器相同,而編碼器-解碼器注意力層則將解碼器當(dāng)前位置的輸入與編碼器的所有位置進(jìn)行交互,以獲得與目標(biāo)序列有關(guān)的信息。

Transformer在自然語(yǔ)言處理中廣泛應(yīng)用,例如機(jī)器翻譯、文本摘要、語(yǔ)言生成、問(wèn)答系統(tǒng)等領(lǐng)域。相比于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),Transformer的并行計(jì)算能力更強(qiáng),處理長(zhǎng)序列的能力更強(qiáng),且可以直接對(duì)整個(gè)序列進(jìn)行處理。

比如,在問(wèn)答系統(tǒng)中,Transformer模型主要用于對(duì)問(wèn)題和答案進(jìn)行匹配,從而提供答案。具體而言,輸入序列為問(wèn)題和答案,輸出為問(wèn)題和答案之間的匹配分?jǐn)?shù)。Transformer模型通過(guò)編碼器將問(wèn)題和答案分別轉(zhuǎn)化為向量表示,然后通過(guò)Multi-Head Attention層計(jì)算問(wèn)題和答案之間的注意力分布,最終得到匹配分?jǐn)?shù)。

CNN和RNN的特點(diǎn)及應(yīng)用領(lǐng)域

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks),是深度學(xué)習(xí)(deep learning)的代表算法之一 。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)(representation learning)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(shift-invariant classification),因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)(Shift-Invariant Artificial Neural Networks, SIANN)”。

卷積神經(jīng)網(wǎng)絡(luò)的研究始于二十世紀(jì)80至90年代,時(shí)間延遲網(wǎng)絡(luò)和LeNet-5是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò);在二十一世紀(jì)后,隨著深度學(xué)習(xí)理論的提出和數(shù)值計(jì)算設(shè)備的改進(jìn),卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展,并被應(yīng)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域 。

計(jì)算機(jī)視覺(jué)方面,卷積神經(jīng)網(wǎng)絡(luò)長(zhǎng)期以來(lái)是圖像識(shí)別領(lǐng)域的核心算法之一,并在學(xué)習(xí)數(shù)據(jù)充足時(shí)有穩(wěn)定的表現(xiàn)。對(duì)于一般的大規(guī)模圖像分類問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)可用于構(gòu)建階層分類器(hierarchical classifier),也可以在精細(xì)分類識(shí)別(fine-grained recognition)中用于提取圖像的判別特征以供其它分類器進(jìn)行學(xué)習(xí)。對(duì)于后者,特征提取可以人為地將圖像的不同部分分別輸入卷積神經(jīng)網(wǎng)絡(luò),也可以由卷積神經(jīng)網(wǎng)絡(luò)通過(guò)非監(jiān)督學(xué)習(xí)自行提取。

卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)方面的應(yīng)用還包括字符檢測(cè)(text detection)/字符識(shí)別(text recognition)/光學(xué)字符讀取、物體識(shí)別(object recognition)等,此外,在圖像語(yǔ)義分割(semantic segmentation)、場(chǎng)景分類(scene labeling)和圖像顯著度檢測(cè)(Visual Saliency Detection)等問(wèn)題中也有應(yīng)用,其表現(xiàn)被證實(shí)超過(guò)了很多使用特征工程的分類系統(tǒng)。

然而,由于受到窗口或卷積核尺寸的限制,無(wú)法很好地學(xué)習(xí)自然語(yǔ)言數(shù)據(jù)的長(zhǎng)距離依賴和結(jié)構(gòu)化語(yǔ)法特征,卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(Natural Language Processing, NLP)中的應(yīng)用要少于循環(huán)神經(jīng)網(wǎng)絡(luò),且在很多問(wèn)題中會(huì)在循環(huán)神經(jīng)網(wǎng)絡(luò)的構(gòu)架上進(jìn)行設(shè)計(jì),但也有一些卷積神經(jīng)網(wǎng)絡(luò)算法在多個(gè)NLP主題中取得成功。

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸(recursion)且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)。

循環(huán)神經(jīng)網(wǎng)絡(luò)的研究始于二十世紀(jì)80-90年代,并在二十一世紀(jì)初發(fā)展為深度學(xué)習(xí)(deep learning)算法之一 ,其中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN, Bi-RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory networks,LSTM)是常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò)。

循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備(Turing completeness),因此在對(duì)序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(Natural Language Processing, NLP),例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時(shí)間序列預(yù)報(bào)。引入了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)構(gòu)筑的循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理包含序列輸入的計(jì)算機(jī)視覺(jué)問(wèn)題。

RNN在NLP問(wèn)題中有得到應(yīng)用。在語(yǔ)音識(shí)別中,有研究人員使用L雙向STM對(duì)英語(yǔ)文集TIMIT進(jìn)行語(yǔ)音識(shí)別,其表現(xiàn)超過(guò)了同等復(fù)雜度的隱馬爾可夫模型(Hidden Markov Model, HMM)和深度前饋神經(jīng)網(wǎng)絡(luò)。在語(yǔ)音合成領(lǐng)域,有研究人員將多個(gè)雙向LSTM相組合建立了低延遲的語(yǔ)音合成系統(tǒng),成功將英語(yǔ)文本轉(zhuǎn)化為接近真實(shí)的語(yǔ)音輸出 。RNN也被用于端到端文本-語(yǔ)音(Text-To-Speech, TTS)合成工具的開(kāi)發(fā),例子包括Tacotron 、Merlin 等。RNN也被用于與自然語(yǔ)言處理有關(guān)的異常值檢測(cè)問(wèn)題,例如社交網(wǎng)絡(luò)中虛假信息/賬號(hào)的檢測(cè) 。

RNN與卷積神經(jīng)網(wǎng)絡(luò)向結(jié)合的系統(tǒng)可被應(yīng)用于在計(jì)算機(jī)視覺(jué)問(wèn)題,例如在字符識(shí)別(text recognition)中,有研究使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)包含字符的圖像進(jìn)行特征提取,并將特征輸入LSTM進(jìn)行序列標(biāo)注 。對(duì)基于視頻的計(jì)算機(jī)視覺(jué)問(wèn)題,例如行為認(rèn)知(action recognition)中,RNN可以使用卷積神經(jīng)網(wǎng)絡(luò)逐幀提取的圖像特征進(jìn)行學(xué)習(xí)。

總結(jié)

可以看到,Transformer以及CNN、RNN是不同的深度學(xué)習(xí)模型,Transformer是一種基于自注意力機(jī)制的特征提取網(wǎng)絡(luò)結(jié)構(gòu),主要用于自然語(yǔ)言處理領(lǐng)域。CNN是一種基于卷積層的特征提取網(wǎng)絡(luò)結(jié)構(gòu),主要用于圖像處理領(lǐng)域。RNN是一種基于循環(huán)層的特征提取網(wǎng)絡(luò)結(jié)構(gòu),用于自然語(yǔ)言處理,也用于計(jì)算機(jī)視覺(jué)。總體而言,因?yàn)槭褂米宰⒁饬C(jī)制(self-attention)來(lái)處理輸入序列和輸出序列,Transformer可以并行計(jì)算,相比之下計(jì)算效率大幅提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22561
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    147

    瀏覽量

    6310
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    89

    瀏覽量

    7031
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2923

    瀏覽量

    3669
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    transformer專用ASIC芯片Sohu說(shuō)明

    的舊圖像模型,也不能運(yùn)行CNNRNN或LSTM。 但對(duì)于transformer來(lái)說(shuō),Sohu是有史以來(lái)最快的芯片。 借助Llama 70B每秒超過(guò)50萬(wàn)個(gè)token的吞吐量,Sohu
    的頭像 發(fā)表于 01-06 09:13 ?829次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說(shuō)明

    RNN與LSTM模型的比較分析

    RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))與LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))模型在深度學(xué)習(xí)領(lǐng)域都具有處理序列數(shù)據(jù)的能力,但它們?cè)诮Y(jié)構(gòu)、功能和應(yīng)用上存在顯著的差異。以下是對(duì)RNN與LSTM模型的比較分析: 一、基
    的頭像 發(fā)表于 11-15 10:05 ?1702次閱讀

    cnn常用的幾個(gè)模型哪些

    CNN(卷積神經(jīng)網(wǎng)絡(luò))是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域。以下是一些常用的CNN模型: LeNet-5:LeNet-
    的頭像 發(fā)表于 07-11 14:58 ?1502次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型
    的頭像 發(fā)表于 07-10 11:48 ?2619次閱讀

    CNNRNN的關(guān)系?

    在深度學(xué)習(xí)的廣闊領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是兩種極為重要且各具特色的神經(jīng)網(wǎng)絡(luò)模型。它們各自在圖像處理、自然語(yǔ)言處理等領(lǐng)域展現(xiàn)出卓越的性能。本文將從概念、原理
    的頭像 發(fā)表于 07-08 16:56 ?1279次閱讀

    rnn是什么神經(jīng)網(wǎng)絡(luò)模型

    RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,它能夠處理序列數(shù)據(jù),并對(duì)序列中的元素進(jìn)行建模。RNN在自然語(yǔ)言處理、語(yǔ)音識(shí)別、
    的頭像 發(fā)表于 07-05 09:50 ?936次閱讀

    rnn神經(jīng)網(wǎng)絡(luò)模型原理

    RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),具有記憶功能。RNN在自然語(yǔ)言處理、語(yǔ)音識(shí)別、時(shí)間序列預(yù)測(cè)等領(lǐng)域有著廣泛
    的頭像 發(fā)表于 07-04 15:40 ?901次閱讀

    RNN神經(jīng)網(wǎng)絡(luò)適用于什么

    領(lǐng)域: 語(yǔ)言模型和文本生成 RNN在自然語(yǔ)言處理(NLP)領(lǐng)域有著廣泛的應(yīng)用,特別是在語(yǔ)言模型
    的頭像 發(fā)表于 07-04 15:04 ?1280次閱讀

    用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)哪些

    取得了顯著進(jìn)展,成為處理自然語(yǔ)言任務(wù)的主要工具。本文將詳細(xì)介紹幾種常用于NLP的神經(jīng)網(wǎng)絡(luò)模型,包括遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、變換器(
    的頭像 發(fā)表于 07-03 16:17 ?1912次閱讀

    NLP模型RNNCNN的選擇

    在自然語(yǔ)言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì),適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN
    的頭像 發(fā)表于 07-03 15:59 ?851次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)cnn模型哪些

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡(jiǎn)稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域。 CNN的基本概念 1.1
    的頭像 發(fā)表于 07-02 15:24 ?1043次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建
    的頭像 發(fā)表于 07-02 11:41 ?2262次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。 對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色,耳真正厲害的是Transformer,此框架
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    Transformer有效避免了CNN中的梯度消失和梯度爆炸問(wèn)題,同時(shí)提高了處理長(zhǎng)文本序列的效率。此外,模型編碼器可以運(yùn)用更多層,以捕獲輸入序列中元素間的深層關(guān)系,并學(xué)習(xí)更全面的上下文向量表示。 預(yù)訓(xùn)練
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    Transformer架構(gòu),利用自注意力機(jī)制對(duì)文本進(jìn)行編碼,通過(guò)預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語(yǔ)言理解和生成能力。 大語(yǔ)言
    發(fā)表于 05-04 23:55
    主站蜘蛛池模板: 香港午夜理理伦_级毛片 | 在线观看亚洲成人 | 欧日韩美香蕉在线观看 | 久久久久久99 | 一本大道香蕉大vr在线吗视频 | 在线看黄网 | 丁香五月缴情综合网 | 天天爽爽 | 欧美性一区二区三区五区 | wwwwww日本| 久久观看午夜精品 | 免费看h的网站 | 亚洲区| 欧美伊人久久大香线蕉综合69 | 性视频久久 | 二级黄绝大片中国免费视频0 | 国产男女免费视频 | 久操资源在线 | 伊人久久亚洲综合 | 亚洲成人777 | 午夜日批| 欧美性aaa| 久久婷婷久久一区二区三区 | 天堂网在线最新版www中文网 | 久久久黄色片 | 亚洲欧洲一区二区三区在线观看 | 亚洲乱亚洲乱妇41p国产成人 | 国产 麻豆 欧美亚洲综合久久 | 天天曰夜夜曰 | 一二三区视频 | 四虎最新地址 | 真实一级一级一片免费视频 | 国产日韩精品一区二区三区 | youjizz国产 | 国模精品视频 | 国产成人精品高清免费 | 亚洲一级特黄特黄的大片 | 免费看大黄| 男女那啥的视频免费 | 亚洲男人的天堂成人 | 国产欧美日韩haodiaose |