PyTorch教程11.5之多頭注意力

2512909 2023-06-05 | pdf | 0.14 MB | 次下載 | 免費

資料介紹

在實踐中，給定一組相同的查詢、鍵和值，我們可能希望我們的模型結合來自同一注意機制的不同行為的知識，例如捕獲各種范圍的依賴關系（例如，較短范圍與較長范圍）在一個序列中。因此，這可能是有益的

允許我們的注意力機制聯合使用查詢、鍵和值的不同表示子空間。

為此，可以使用以下方式轉換查詢、鍵和值，而不是執行單個注意力池h獨立學習線性投影。那么這些h投影查詢、鍵和值被并行輸入注意力池。到底，h 注意池的輸出與另一個學習的線性投影連接并轉換以產生最終輸出。這種設計稱為多頭注意力，其中每個hattention pooling outputs 是一個頭（Vaswani et al. , 2017）。使用全連接層執行可學習的線性變換，圖 11.5.1描述了多頭注意力。

圖 11.5.1多頭注意力，其中多個頭連接起來然后進行線性變換。

						import math
import torch
from torch import nn
from d2l import torch as d2l

						 

						import math
from mxnet import autograd, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						 

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import tensorflow as tf
from d2l import tensorflow as d2l

11.5.1。模型

在提供多頭注意力的實現之前，讓我們從數學上形式化這個模型。給定一個查詢 q∈Rdq，關鍵 k∈Rdk和一個值 v∈Rdv, 每個注意力頭 hi(i=1,…,h) 被計算為

(11.5.1)hi=f(Wi(q)q,Wi(k)k,Wi(v)v)∈Rpv,

其中可學習參數 Wi(q)∈Rpq×dq, Wi(k)∈Rpk×dk和 Wi(v)∈Rpv×dv，和f是注意力集中，例如11.3 節中的附加注意力和縮放點積注意力。多頭注意力輸出是另一種通過可學習參數進行的線性變換Wo∈Rpo×hpv的串聯h負責人：

(11.5.2)Wo[h1?hh]∈Rpo.

基于這種設計，每個頭可能會關注輸入的不同部分。可以表達比簡單加權平均更復雜的函數。

11.5.2。執行

在我們的實現中，我們為多頭注意力的每個頭選擇縮放的點積注意力。為了避免計算成本和參數化成本的顯著增長，我們設置 pq=pk=pv=po/h

投影函數 pytorch

下載該資料的人也在下載下載該資料的人還在閱讀

更多 >

理解KV cache的作用及優化方法 7216次閱讀
基于YOLOv5s基礎上實現五種視覺注意力模塊的改進 1594次閱讀
一種新型的雙流注意力增強型BERT來提高捕捉句子對中細微差異的能力 1572次閱讀
pytorch實現斷電繼續訓練時需要注意的要點 1447次閱讀
PyTorch 的 Autograd 機制和使用 1132次閱讀
基于選擇機制的自注意力網絡模型 5039次閱讀
循環神經網絡卷積神經網絡注意力文本生成變換器編碼器序列表征 3288次閱讀
注意力機制的誕生、方法及幾種常見模型 4.1w次閱讀
一文解構PyTorch：深入了解PyTorch內部機制 4033次閱讀
深度分析NLP中的注意力機制 3884次閱讀
一種通過引入硬注意力機制來引導學習視覺回答任務的研究 5501次閱讀
北大研究者創建了一種注意力生成對抗網絡 4990次閱讀
DeepMind為視覺問題回答提出了一種新的硬注意力機制 6244次閱讀
一種金字塔注意力網絡，用于處理圖像語義分割問題 1.1w次閱讀
基于注意力機制的用戶行為建模框架及其在推薦領域的應用 4836次閱讀

1山景DSP芯片AP8248A2數據手冊
1.06 MB | 532次下載 | 免費
2RK3399完整板原理圖（支持平板，盒子VR）
3.28 MB | 339次下載 | 免費
3TC358743XBG評估板參考手冊
1.36 MB | 330次下載 | 免費
4DFM軟件使用教程
0.84 MB | 295次下載 | 免費
5元宇宙深度解析—未來的未來-風口還是泡沫
6.40 MB | 227次下載 | 免費
6迪文DGUS開發指南
31.67 MB | 194次下載 | 免費
7元宇宙底層硬件系列報告
13.42 MB | 182次下載 | 免費
8FP5207XR-G1中文應用手冊
1.09 MB | 178次下載 | 免費

本月

1OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費
2555集成電路應用800例(新編版)
0.00 MB | 33566次下載 | 免費
3接口電路圖大全
未知 | 30323次下載 | 免費
4開關電源設計實例指南
未知 | 21549次下載 | 免費
5電氣工程師手冊免費下載(新編第二版pdf電子書)
0.00 MB | 15349次下載 | 免費
6數字電路基礎pdf(下載)
未知 | 13750次下載 | 免費
7電子制作實例集錦下載
未知 | 8113次下載 | 免費
8《LED驅動電路設計》溫德爾著
0.00 MB | 6656次下載 | 免費

總榜

1matlab軟件下載入口
未知 | 935054次下載 | 免費
2protel99se軟件下載(可英文版轉中文版)
78.1 MB | 537798次下載 | 免費
3MATLAB 7.1 下載 (含軟件介紹)
未知 | 420027次下載 | 免費
4OrCAD10.5下載OrCAD10.5中文版軟件
0.00 MB | 234315次下載 | 免費
5Altium DXP2002下載入口
未知 | 233046次下載 | 免費
6電路仿真軟件multisim 10.0免費下載
340992 | 191187次下載 | 免費
7十天學會AVR單片機與C語言視頻教程下載
158M | 183279次下載 | 免費
8proe5.0野火版下載(中文版免費下載)
未知 | 138040次下載 | 免費

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

PyTorch教程11.5之多頭注意力

資料介紹

11.5.1。模型

11.5.2。執行

評論

下載排行

本周

本月

總榜

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

PyTorch教程11.5之多頭注意力

資料介紹

11.5.1。模型

11.5.2。執行

評論

下載排行

本周

本月

總榜

11.5.2。執行