在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

LLM中的大規(guī)模激活

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2024-03-01 11:38 ? 次閱讀

Massive Activations in Large Language Models摘要:我們在大型語言模型(LLM)中觀察到一種經(jīng)驗現(xiàn)象-很少有激活表現(xiàn)出比其他激活大得多的值(例如,100,000倍)。我們稱之為大規(guī)模激活。首先,我們證明了廣泛存在的大規(guī)模激活在各種LLM和表征他們的位置。其次,我們發(fā)現(xiàn)它們的值在很大程度上保持不變,無論輸入,它們作為不可或缺的偏置項在LLM中。第三,這些大規(guī)模的激活導致注意概率集中到它們相應的標記上,并進一步導致自我注意輸出中的隱式偏差項。最后,我們還研究了Vision Transformers中的大規(guī)模激活。

f31164ee-d6ef-11ee-a297-92fbcf53809c.png

https://arxiv.org/abs/2402.17762

Q1: 這篇論文試圖解決什么問題?

A: 這篇論文主要研究了大型語言模型(LLMs)中的一個現(xiàn)象,即在模型的隱藏狀態(tài)中存在極少數(shù)激活值(activations)遠大于其他激活值的情況,這些被稱為“massive activations”。論文試圖解決的問題包括:

1.現(xiàn)象的普遍性:作者首先展示了這種massive activations在不同LLMs中的普遍存在,并對其進行了特征定位。

2.功能角色:研究這些massive activations在LLMs中的功能角色,即它們是否對模型性能有實質(zhì)性影響,還是僅僅是無關緊要的異常值。

3.與自注意力機制的關聯(lián):探討massive activations與自注意力機制之間的關系,以及它們如何影響模型的注意力分布

4.作為固定偏差的作用:分析massive activations如何在LLMs中充當固定但重要的偏差項,并探究這種偏差對模型性能的影響。

5.在視覺變換器(Vision Transformers, ViTs)中的應用:將研究擴展到ViTs,觀察是否也存在類似的massive activations現(xiàn)象,并分析其在ViTs中的作用。

6.消除massive activations的可能性:通過實驗,作者探索了通過在自注意力中顯式引入偏差項來消除massive activations的可能性。

總的來說,這篇論文試圖深入理解LLMs內(nèi)部表示中massive activations的本質(zhì)、功能和影響,以及它們?nèi)绾闻c模型的自注意力機制相互作用。這些發(fā)現(xiàn)有助于我們更好地理解大型模型的內(nèi)部工作機制,可能對改進模型設計和訓練方法具有重要意義。

Q2: 有哪些相關研究?

A: 論文中提到了與massive activations現(xiàn)象相關的一些研究領域和具體工作,包括:

自回歸Transformers的有趣屬性:

Timkey和Schijndel (2021) 觀察到GPT-2的倒數(shù)第二層中存在特征維度,其激活值高達3000,這些維度在評估表示相似性的標準度量中占主導地位。

Heimersheim和Turner (2023) 發(fā)現(xiàn)GPT-2中初始token的特征范數(shù)比其他token增長得更快。

Kovaleva等人 (2021) 和 Zhao等人 (2023) 展示了GPT-2和LLaMA2-13B中LayerNorm的異常權(quán)重的存在,并表明將它們設置為零會導致模型性能的災難性下降。

異常特征(Outlier Features):

Dettmers等人 (2022) 展示了LLMs中異常特征的存在,這些特征在大多數(shù)序列維度中具有較大的激活值。盡管massive activations和異常特征在表面上看似相似,但論文中討論了它們的根本區(qū)別,并表明massive activations不能歸因于異常特征的存在。

注意力集中模式(Attention Concentration Patterns):

Clark等人 (2019b)、Kovaleva等人 (2019) 和 Bondarenko等人 (2021) 發(fā)現(xiàn)BERT中的注意力傾向于集中在“separate”token [SEP]上。

Xiao等人 (2023b) 展示了LLMs將大部分注意力分配給起始詞token。

Darcet等人 (2023) 揭示了ViTs中注意力的異常現(xiàn)象。

Robinson等人 (2023) 發(fā)現(xiàn)ViTs中的稀疏激活模式,這些模式將注意力吸引到特定token上。

自注意力中的偏差(Biases in Self-Attention):

Namazifar等人 (2023) 提出了在自注意力的線性層中使用簡單的加性偏差項。

Su等人 (2021) 和 Press等人 (2021) 引入了位置偏差來編碼每個token的位置信息。

Evan (2023) 和 Bondarenko等人 (2023) 提出了具有手動設計的softmax操作符的偏差變體。

Vision Transformers(ViTs)中的massive activations:

Darcet等人 (2023) 提出了在標準ViTs中引入額外的可學習token(稱為register tokens),并展示了訓練帶有register tokens的ViTs可以導致平滑的注意力圖,從而提高了下游任務的性能。

這些相關研究為理解LLMs和ViTs的內(nèi)部機制提供了背景知識,并且與本文研究的massive activations現(xiàn)象有著直接或間接的聯(lián)系。

Q3: 論文如何解決這個問題?

A: 論文通過以下步驟來解決大型語言模型(LLMs)中massive activations的問題:

現(xiàn)象觀察:首先,作者在不同的LLMs中觀察并確認了massive activations的普遍存在。他們通過可視化技術展示了這些激活值在特定特征維度上的異常高值。

特征定位:作者確定了massive activations在模型的哪些層和特征維度上出現(xiàn),以及它們與序列中的哪些token相關聯(lián)。他們發(fā)現(xiàn)這些激活通常出現(xiàn)在模型的起始token和分隔符token(如句點或換行符)。

功能分析:通過干預實驗(例如,將massive activations設置為零或其均值),作者分析了這些激活對模型性能的影響。他們發(fā)現(xiàn),massive activations對模型性能至關重要,且其值在輸入變化時保持相對恒定,類似于固定偏差

自注意力機制的深入研究:作者探討了massive activations如何影響自注意力機制,特別是它們?nèi)绾螌е伦⒁饬性谂c這些激活相關的token上。他們通過分解注意力輸出來展示這些token如何作為隱含的注意力偏差項。

顯式偏差的引入:為了消除massive activations,作者嘗試在自注意力中顯式引入偏差項。他們通過實驗發(fā)現(xiàn),當在自注意力中添加額外的鍵(key)和值(value)嵌入作為顯式偏差時,模型不再需要學習massive activations。

視覺變換器(ViTs)的擴展研究:作者還將研究擴展到ViTs,觀察這些模型是否也存在類似的massive activations現(xiàn)象,并分析它們在ViTs中的作用。他們發(fā)現(xiàn)ViTs中的某些模型也表現(xiàn)出massive activations,并且這些激活在功能上類似于LLMs中的massive activations。

替代方法的探索:作者還探索了其他可能的方法來引入自注意力中的偏差,例如通過修改softmax操作符或添加額外的特征維度。

通過這些步驟,論文不僅揭示了massive activations在LLMs中的作用,還提出了可能的解決方案來調(diào)整或消除這些激活,從而可能改善模型的訓練和性能。

Q4: 論文做了哪些實驗?

A: 論文中進行了一系列實驗來研究大型語言模型(LLMs)中的massive activations現(xiàn)象,以及它們在模型中的作用和影響。以下是主要的實驗內(nèi)容:

存在性驗證:作者在多個LLMs中觀察massive activations,包括LLaMA2-7B、LLaMA2-13B和Mixtral-8x7B等,通過可視化技術展示了這些激活在特定特征維度上的異常高值。

位置和特性分析:對于LLaMA2-7B模型,作者分析了massive activations在不同層和特征維度上的位置,以及它們與序列中特定token(如起始token和句點token)的關系。

干預實驗:作者通過將massive activations設置為零或其均值,來評估這些激活對模型性能的影響。實驗結(jié)果表明,massive activations對模型性能至關重要。

自注意力分析:作者研究了massive activations如何影響自注意力機制,特別是它們?nèi)绾螌е伦⒁饬性谂c這些激活相關的token上。他們通過分析注意力logits和注意力概率來展示這一點。

顯式偏差引入實驗:為了消除massive activations,作者嘗試在自注意力中引入顯式偏差項。他們訓練了GPT-2模型,并在自注意力中添加了額外的鍵(key)和值(value)嵌入作為顯式偏差。實驗結(jié)果顯示,這種方法可以消除massive activations。

Vision Transformers(ViTs)的實驗:作者在ViTs中也觀察到了massive activations現(xiàn)象,并分析了它們在ViTs中的作用。他們研究了CLIP、MAE和DINOv2等模型,并探討了register tokens在ViTs中的功能。

替代方法的探索:作者探索了其他可能的方法來引入自注意力中的偏差,例如通過修改softmax操作符或添加額外的特征維度,并評估了這些方法對massive activations的影響。

這些實驗不僅幫助作者深入理解了massive activations在LLMs中的作用,還為如何調(diào)整或消除這些激活提供了實驗依據(jù)。通過這些實驗,作者能夠提出新的見解和可能的改進方向。

Q5: 有什么可以進一步探索的點?

A: 論文中提出了一些可以進一步探索的點,包括但不限于:

massive activations的深入理解:

研究massive activations在不同類型和大小的LLMs中的普遍性和差異性。

探索massive activations在模型訓練過程中的動態(tài)變化,以及它們?nèi)绾斡绊懩P偷膶W習過程。

massive activations與模型性能的關系:

分析massive activations對模型泛化能力、魯棒性和可解釋性的具體影響。

研究在不同的下游任務中,massive activations的作用和重要性。

自注意力機制的改進:

設計新的自注意力機制,以減少或消除對massive activations的依賴。

探索其他類型的顯式偏差項,以替代或增強massive activations的功能。

ViTs中的massive activations:

在更廣泛的ViTs模型和任務中研究massive activations現(xiàn)象。

分析register tokens在ViTs中的作用,以及它們與massive activations的關系。

模型壓縮和優(yōu)化:

研究如何利用對massive activations的理解來優(yōu)化模型的壓縮和加速。

探索在模型部署時,如何有效地處理massive activations以提高效率。

理論分析:

從理論角度分析massive activations的存在對模型表示能力的影響。

研究massive activations在模型的優(yōu)化過程中所扮演的角色。

跨領域應用:

將對massive activations的研究擴展到其他類型的深度學習模型,如強化學習模型、序列生成模型等。

探索massive activations在多模態(tài)學習(如圖像和文本聯(lián)合處理)中的應用。

倫理和社會影響:

研究massive activations可能對模型的公平性、透明度和可解釋性帶來的影響。

探討如何在設計和部署LLMs時考慮到這些因素,以促進負責任的AI發(fā)展。

這些探索點不僅有助于提升我們對LLMs和ViTs內(nèi)部機制的理解,還可能對模型設計、訓練策略和實際應用產(chǎn)生重要影響。

Q6: 總結(jié)一下論文的主要內(nèi)容

A: 這篇論文主要研究了大型語言模型(LLMs)中的一個現(xiàn)象,即在模型的隱藏狀態(tài)中存在極少數(shù)激活值(activations)遠大于其他激活值的情況,這些被稱為“massive activations”。以下是論文的主要內(nèi)容總結(jié):

現(xiàn)象觀察:作者在多個LLMs中觀察到massive activations的存在,這些激活值在特定的特征維度上顯著高于其他激活值,且數(shù)量極少。

位置和特性分析:通過分析,作者發(fā)現(xiàn)massive activations通常出現(xiàn)在模型的起始token和分隔符token(如句點或換行符)上,且在模型的不同層中表現(xiàn)出不同的分布特征。

功能角色:實驗表明,massive activations在LLMs中扮演著類似固定偏差的角色,對模型性能至關重要。將它們設置為零會導致模型性能顯著下降,而將它們設置為均值則對性能影響不大。

與自注意力的關聯(lián):作者發(fā)現(xiàn)massive activations與自注意力機制密切相關,它們導致注意力集中在相關token上,并在自注意力輸出中形成隱含的偏差項。

顯式偏差的引入:通過在自注意力中引入顯式偏差項,作者展示了可以消除massive activations的需要,這表明massive activations可能是在預訓練階段學習隱含偏差的一種方式。

Vision Transformers(ViTs)中的研究:作者還將研究擴展到ViTs,發(fā)現(xiàn)在ViTs中也存在類似的massive activations現(xiàn)象,這些激活在功能上類似于LLMs中的massive activations。

未來工作:論文提出了一些未來研究方向,包括更深入地理解massive activations在模型中的作用,探索如何在模型設計中利用或消除這些激活,以及它們在不同類型模型中的應用。

總的來說,這篇論文揭示了LLMs中massive activations的普遍性和重要性,以及它們?nèi)绾斡绊懩P偷膬?nèi)部機制和性能。這些發(fā)現(xiàn)對于理解和改進大型模型的設計具有重要意義。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    2598

    瀏覽量

    3211

原文標題:每日論文速遞 | LLM中的大規(guī)模激活

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Veloce平臺在大規(guī)模SOC仿真驗證的應用

    Graphics公司Veloce驗證平臺在超大規(guī)模IC系統(tǒng)仿真驗證的應用。借助Veloce的高速和大容量的特性,極大的提高功能驗證的效率,解決由于芯片規(guī)模大FPGA無法驗證的問題,保證芯片的按時投片
    發(fā)表于 05-28 13:41

    大規(guī)模FPGA設計的多點綜合技術

    大規(guī)模FPGA設計的多點綜合技術
    發(fā)表于 08-17 10:27

    大規(guī)模集成電路在信息系統(tǒng)的廣泛應用

    集成電路。 數(shù)字信號處理作為信息系統(tǒng)的基本處理技術而受到關注,其應用研究正在積極進行。數(shù)字信號處理是用數(shù)字值得代數(shù)運算來實現(xiàn)調(diào)制、解調(diào)、濾波、均衡等功能的一門技術,而高速、高度集成的邏輯運算等大規(guī)模
    發(fā)表于 09-11 11:27

    勻一枯大規(guī)模奪頂替

    頂替枯大規(guī)模奪頂替頂替
    發(fā)表于 01-05 18:50

    大規(guī)模特征構(gòu)建實踐總結(jié)

    Server相關的資料,但我們在實際實踐,發(fā)現(xiàn)大規(guī)模的特征預處理也有很多問題需要解決。有一次和明風(以前在阿里,后來去了騰訊做了開源的PS:angel)交流過這部分的工作為何沒有人開源,結(jié)論大致
    發(fā)表于 11-19 09:35

    大規(guī)模天線技術商用測試

    作為提升5G系統(tǒng)頻譜效率最直觀的物理層技術之一,大規(guī)模天線技術自問世以來,受到了來自學術界、工業(yè)界的廣泛關注。樣機測試為了克服信道信息獲取困難、解決導頻污染、以及計算復雜度大幅提升等問題,測試
    發(fā)表于 06-13 07:49

    大規(guī)模MIMO的利弊

    IEEE Transactions on Information Forensics and Security上的一篇論文探討了這種類型的攻擊。他們發(fā)現(xiàn),在某些情況下,當使用大規(guī)模多入多出技術
    發(fā)表于 06-18 07:54

    大規(guī)模MIMO的性能

    列,可能包含成百上千的收發(fā)器。此概念稱為大規(guī)模MIMO。的確,大規(guī)模MIMO 脫離了當前的網(wǎng)絡拓補,可能是解決我們所面對的無線數(shù)據(jù)挑戰(zhàn)的關鍵;然而,在認知大規(guī)模MIMO 廣泛部署的效能和/ 或可行性的過程
    發(fā)表于 07-17 07:54

    大規(guī)模天線陣列介紹

    解讀5G通信的殺手锏大規(guī)模天線陣列
    發(fā)表于 01-06 07:11

    怎么實現(xiàn)大規(guī)模電動汽車的生產(chǎn)

    大規(guī)模電動汽車生產(chǎn)需要先進的電池化成和測試系統(tǒng)
    發(fā)表于 01-27 06:59

    構(gòu)建大規(guī)模MIMO的難點在哪?

    構(gòu)建大規(guī)模MIMO的難點在哪?高功率硅開關的應用案列分析
    發(fā)表于 03-11 07:05

    請問一下大規(guī)模MIMO的原型怎么制作?

    大規(guī)模MIMO的原型怎么制作?
    發(fā)表于 05-24 06:25

    如何去推進FTTH大規(guī)模建設?

    如何去推進FTTH大規(guī)模建設?影響FTTH大規(guī)模建設的原因有哪些?
    發(fā)表于 05-27 06:58

    大規(guī)模FPGA設計的多點綜合技術

    本文介紹了在大規(guī)模FPGA設計可以提高綜合效率和效果的多點綜合技術,本文適合大規(guī)模FPGA的設計者和Synplify pro的用戶閱讀。
    發(fā)表于 01-17 10:36 ?38次下載
    <b class='flag-5'>大規(guī)模</b>FPGA設計<b class='flag-5'>中</b>的多點綜合技術

    什么是LLMLLM在自然語言處理的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本的長距
    的頭像 發(fā)表于 11-19 15:32 ?1365次閱讀
    主站蜘蛛池模板: 手机看片中文字幕 | 免费观看a黄一级视频 | 给个网站可以在线观看你懂的 | 天堂8在线天堂资源在线 | 美女把尿口扒开让男人桶出水 | 亚洲邪恶天堂影院在线观看 | 亚洲婷婷影院 | 天天色影院 | 一区卡二区卡三区卡视频 | 欧美中出 | 中文在线免费看影视 | 免费观看成人欧美1314www | 看黄视频网站 | 韩国三级无遮挡床戏视频 | 九九热在线视频观看这里只有精品 | 日本最猛黑人xxxx猛交 | 天天综合网久久 | 国产成人三级 | 国产主播在线观看 | 美女拍拍拍爽爽爽爽爽爽 | 欧美黄色片在线 | 在线永久免费播放视频 | 成人国产精品毛片 | 男男宿舍高h炒肉bl 男男污肉高h坐便器调教 | 亚洲视频一区二区在线观看 | 色多多18免费观看 | 国产一二三区精品 | 美日韩免费视频 | 欧美艹逼视频 | 狠狠去 | 日本大片免费播放网站 | 色多多视频网站 | 久久综合一| 97国内精品久久久久久久影视 | 大色综合色综合资源站 | 天堂精品视频 | 色多多网站 | 黄视频在线观看免费 | 天天干小说 | 69午夜视频| 巨臀中文字幕一区二区翘臀 |