在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer架構中解碼器的工作流程

SSDFans ? 來源:SSDFans ? 2025-06-10 14:32 ? 次閱讀

解碼器的作用主要是制作文本序列。與編碼器類似,解碼器也配備了一組類似的子層。它具有兩個Multi-Headattention層,一個點前饋層,并且在每個子層之后都包含剩余連接和層歸一化。

372edd92-458e-11f0-b715-92fbcf53809c.png

這些組件的功能類似于編碼器的層,但有所不同:解碼器中的每個Multi-Headattention層都有其獨特的任務。

解碼器的最后一個過程包括一個線性層,作為分類器,頂部是一個softmax函數來計算不同單詞的概率。

Transformer解碼器具有專門設計用于通過逐步解碼編碼信息來生成此輸出的結構。

重要的是解碼器以自回歸的方式運行,用開始token啟動其進程。它巧妙地使用先前生成的輸出列表作為輸入,與編碼器的輸出串聯,編碼器的輸出包含來自初始輸入的豐富的attention信息。

這種連續的解碼一直持續到解碼器到達關鍵時刻:生成標志其輸出創建結束的token。

步驟1 -輸出嵌入

在解碼器的起跑線上,這個過程反映了編碼器的過程。這里,輸入首先通過嵌入層。

步驟2 -位置編碼

在嵌入之后,再次像解碼器一樣,輸入經過位置編碼層。這個序列被設計用來產生位置嵌入。

然后將這些位置嵌入引入解碼器的第一個Multi-Head attention層,在那里精心計算特定于解碼器輸入的注意分數。

步驟3 -解碼器層堆棧

解碼器由一堆相同的層組成(在原來的Transformer模型中是6層)。每一層有三個主要的子組件:

步驟3.1Masked Self-Attention機制

這類似于編碼器中的Self-Attention機制,但有一個關鍵的區別:它防止位置關注后續位置,這意味著序列中的每個單詞都不受未來標記的影響。

例如,當計算單詞“are”的attention得分時,重要的是“are”不會偷看到序列中后面的單詞“you”。

373cdd66-458e-11f0-b715-92fbcf53809c.png

這種屏蔽確保了對特定位置的預測只能依賴于在它之前位置的已知輸出。

步驟3.2 -編碼器-解碼器Multi-Head attention或交叉attention

在解碼器的第二個Multi-Head attention層中,我們看到編碼器和解碼器組件之間的獨特相互作用。在這里,編碼器的輸出充當查詢和鍵的角色,而解碼器的第一個Multi-Head attention層的輸出充當值。

這種設置有效地將編碼器的輸入與解碼器的輸入對齊,使解碼器能夠識別并強調編碼器輸入中最相關的部分。

在此之后,來自第二層Multi-Head attention的輸出然后通過點前饋層進行細化,進一步增強處理。

37e7c6ea-458e-11f0-b715-92fbcf53809c.png

在這個子層中,查詢來自前一個解碼器層,鍵和值來自編碼器的輸出。這允許解碼器中的每個位置參與輸入序列中的所有位置,從而有效地將來自編碼器的信息與解碼器中的信息集成在一起。

步驟3.3前饋神經網絡

與編碼器類似,每個解碼器層包括一個完全連接的前饋網絡,分別并相同地應用于每個位置。

步驟4線性分類器和Softmax用于生成輸出概率

數據通過Transformer模型的旅程在其通過最終的線性層時達到高潮,該線性層的功能是分類器。

這個分類器的大小對應于所涉及的類的總數(詞匯表中包含的單詞數)。例如,在一個有1000個不同的類代表1000個不同單詞的場景中,分類器的輸出將是一個有1000個元素的數組。

然后將該輸出引入softmax層,該層將其轉換為概率分數的范圍,每個分數位于0到1之間。這些概率得分中最高的是key,它對應的索引直接指向模型預測的序列中的下一個單詞。

37f8b810-458e-11f0-b715-92fbcf53809c.png

歸一化和剩余連接

每個子層(Masked Self-Attention、編碼器-解碼器attention、前饋網絡)之后是一個歸一化步驟,每個子層周圍還包括一個殘余連接。

解碼器的輸出

最后一層的輸出被轉換成一個預測序列,通常是通過一個線性層,然后是一個softmax來生成詞匯表的概率。

解碼器在其操作流程中,將新生成的輸出合并到其不斷增長的輸入列表中,然后繼續進行解碼過程。這個循環不斷重復,直到模型預測到一個特定的token,表示完成。

預測概率最高的token被分配為結束類,通常由結束token表示。

再次記住,解碼器并不局限于單層。它可以由N層組成,每一層都建立在從編碼器及其前一層接收的輸入上。這種分層架構允許模型分散其焦點,并在其attention head中提取不同的attention模式。

這種多層次的方法可以顯著提高模型的預測能力,因為它對不同的attention組合有了更細致的理解。

最終的架構是類似于這樣的(來自原始論文)

38096ec6-458e-11f0-b715-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1164

    瀏覽量

    41763
  • 模型
    +關注

    關注

    1

    文章

    3500

    瀏覽量

    50112
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6426

原文標題:Transformer架構詳細解析——解碼器

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    大眾控為什么改家用需要解碼器解碼器是什么# 硬聲創作季

    解碼器電工技術控系統電路維修
    電子學習
    發布于 :2022年11月13日 19:09:36

    如何去制作紅外遙控解碼器

    紅外遙控解碼器的電路原理是什么?如何去制作紅外遙控解碼器?其步驟流程是怎樣的?
    發表于 04-19 07:00

    網格環境基于移動Agent的工作流架構研究

    傳統的工作流架構有很多弱點,比如架構嚴重降低了系統性能,在動態環境缺少靈活性。本文提出了一個集成了Web Services,網格,工作流
    發表于 08-18 08:31 ?17次下載

    基于DTMF的解碼器設計

    本文介紹了DTMF 解碼芯片MT8870 的功能和特點,給出了在解碼器與89C51 單片機的接口電路,說明了解碼器工作原理抗干擾措施。關
    發表于 08-19 08:20 ?71次下載

    基于DTMF的解碼器設計

    本文介紹了DTMF 解碼芯片MT8870 的功能和特點,給出了在解碼器與89C51 單片機的接口電路,說明了解碼器工作原理抗干擾措施。關
    發表于 08-21 09:42 ?34次下載

    解碼器工作原理

    解碼器就如同一臺筆記本一樣,通過解碼器上的數據線,與汽車相關的接口對接,從而對汽車各系統進行全方位的身體檢測。而且,解碼器可以在接收到車主控鑰匙發出的信號之后,將
    的頭像 發表于 12-10 16:35 ?2.9w次閱讀
    <b class='flag-5'>解碼器</b>的<b class='flag-5'>工作</b>原理

    工作流程圖怎么用?有哪些繪制工作流程圖的軟件

    工作流程圖是清晰地展示工作中各個環節的流程圖圖示,主要用于工作活動和效率的管理。工作流程圖這種圖示方法具有直觀描述性、簡潔性、可操作性和指導
    的頭像 發表于 07-28 14:22 ?3857次閱讀

    PyTorch教程10.6之編碼-解碼器架構

    電子發燒友網站提供《PyTorch教程10.6之編碼-解碼器架構.pdf》資料免費下載
    發表于 06-05 18:12 ?0次下載
    PyTorch教程10.6之編碼<b class='flag-5'>器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>

    PyTorch教程-10.6. 編碼-解碼器架構

    10.6. 編碼-解碼器架構? Colab [火炬]在 Colab 打開筆記本 Colab [mxnet] Open the notebook in Colab Col
    的頭像 發表于 06-05 15:44 ?1122次閱讀
    PyTorch教程-10.6. 編碼<b class='flag-5'>器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>

    基于transformer的編碼-解碼器模型的工作原理

    與基于 RNN 的編碼-解碼器模型類似,基于 transformer 的編碼-解碼器模型由一個編碼
    發表于 06-11 14:17 ?2818次閱讀
    基于<b class='flag-5'>transformer</b>的編碼<b class='flag-5'>器</b>-<b class='flag-5'>解碼器</b>模型的<b class='flag-5'>工作</b>原理

    基于 RNN 的解碼器架構如何建模

    ? Vaswani 等人在其名作 Attention is all you need 首創了?基于 transformer?的編碼-解碼器模型,如今已成為自然語言處理 (natur
    的頭像 發表于 06-12 17:08 ?1115次閱讀
    基于 RNN 的<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>如何建模

    基于 Transformers 的編碼-解碼器模型

    基于 transformer 的編碼-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼-
    的頭像 發表于 06-16 16:53 ?1231次閱讀
    基于 Transformers 的編碼<b class='flag-5'>器</b>-<b class='flag-5'>解碼器</b>模型

    神經編碼-解碼器模型的歷史

    基于 transformer 的編碼-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼-
    的頭像 發表于 06-20 15:42 ?1158次閱讀
    神經編碼<b class='flag-5'>器</b>-<b class='flag-5'>解碼器</b>模型的歷史

    NX CAD軟件:數字化工作流程解決方案(CAD工作流程)

    NXCAD——數字化工作流程解決方案(CAD工作流程)使用西門子領先的產品設計軟件NXCAD加速執行基于工作流程的解決方案。我們在了解行業需求方面累積了多年的經驗,并據此針對各個行業的具體需求提供
    的頭像 發表于 02-06 18:15 ?357次閱讀
    NX CAD軟件:數字化<b class='flag-5'>工作流程</b>解決方案(CAD<b class='flag-5'>工作流程</b>)

    Transformer架構編碼工作流程

    編碼Transformer體系結構的基本組件。編碼的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼
    的頭像 發表于 06-10 14:27 ?164次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b><b class='flag-5'>中</b>編碼<b class='flag-5'>器</b>的<b class='flag-5'>工作流程</b>
    主站蜘蛛池模板: 久久久久久国产精品免费 | 狠狠干干| 美女视频黄色的免费 | 特黄特黄特色大片免费观看 | 欧美激欧美啪啪片免费看 | 久久精品综合视频 | 国产美女在线免费观看 | free性乌克兰高清videos | 在线观看国产日本 | 国产黄色录像视频 | 久久综合中文字幕 | 久久成人精品免费播放 | 综合第一页 | 天天操天天谢 | 欧美国产在线一区 | 毛片新网址| 狠狠干狠狠爱 | 日韩a毛片免费全部播放完整 | 国产精品美女免费视频观看 | 国产呦系列呦交 | 91大神大战丝袜美女在线观看 | 亚洲一区二区三区不卡视频 | 亚洲午夜精品久久久久久成年 | 伊人久久成人成综合网222 | 女同毛片免费网站 | 天天操天天操天天操 | 久青草国产手机在线观 | 欧美午夜片 | 九色视频网 | 视频在线高清完整免费观看 | 337p亚洲精品色噜噜狠狠 | 亚洲 欧美 另类 综合 日韩 | 特一级黄色毛片 | 日本在线视频www色 日本在线视频精品 | 色多多网站在线观看 | 国产精品主播在线 | 999影院成 人在线影院 | 精品一区视频 | 成人免费看片视频色多多 | 免费黄色一级毛片 | 亚洲免费在线观看视频 |