在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

transformer模型詳解:Transformer 模型的壓縮方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-07-17 10:50 ? 次閱讀

動機&背景

Transformer 模型在各種自然語言任務中取得了顯著的成果,但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發現,結構化剪枝在高稀疏率時往往不可避免地刪除表達神經元,這將導致模型性能嚴重降低。低秩近似則旨在壓縮表達神經元,它對于壓縮神經元中的相干部分十分有效,其本質就是提取神經元共享相干子空間的公共基,該方法在 Transformer 結構上也遇到了困難,不同于 CNN,Transformer 模型的權重矩陣往往是滿秩的,這導致低秩近似會破壞神經元的多樣性,從而影響模型的表達能力。

為了解決結構化剪枝和低秩近似的局限性和困難,本文提出了一種新的模型壓縮技術 LoSparse(Low-Rank and Sparse approximation),該技術通過低秩矩陣和稀疏矩陣的和來近似權重矩陣。這種復合近似將相干部分與神經元的非相干部分解耦。低秩近似壓縮神經元中的連貫和表達部分,而修剪去除神經元中的不連貫和非表達部分。從這個意義上說,低秩近似可以防止剪枝過度去除表達神經元,而稀疏近似增強了低秩近似的多樣性。

3. 方法:LoSparse

本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來說,LoSparse 通過低秩矩陣和稀疏矩陣的和來近似權重矩陣(如圖 1 所示)。這兩個近似的組合使得壓縮方法更有效和穩定。

4a564b1a-23c8-11ee-962d-dac502259ad0.png圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進行前向傳遞)

圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進行前向傳遞)

3.1 低秩矩陣和稀疏矩陣的近似

給定一個權重矩陣 ,通常采用結構化剪枝稀疏矩陣 來近似 以進行壓縮。然而,稀疏矩陣近似導致性能不佳,尤其是當壓縮比率較高時。因此,本文引入了一個低秩矩陣來改進近似。具體來說,權重矩陣可以表示為:

其中 和 的乘積表示秩為 的低秩矩陣。

4a7a9e66-23c8-11ee-962d-dac502259ad0.png圖 2. 語言模型的奇異值

圖 2. 語言模型的奇異值

為什么需要低秩矩陣?首先,它可以有效地逼近神經元的相干部分。如圖 2 所示,我們可以看到語言模型中權重矩陣的頻譜在開始時迅速下降。這表明權重矩陣中的神經元有一個共同的子空間,可以看作是這些神經元的連貫部分。此外,公共子空間可以通過頂部奇異值的奇異向量來恢復。其次,低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個神經元跨越它們的單個子空間,可以表示這些神經元的非相干部分。由于這些子空間不共享,因此低秩近似無法捕獲非相干部分。幸運的是,低秩矩陣能夠將相干部分與神經元的非相干部分解耦。這使我們能夠通過添加一個新的矩陣 來近似剩余的不連貫部分,然后修剪非表達不連貫的部分。圖 3 表明,大多數不連貫的部分在解耦后具有較低的重要性分數,這有助于剪枝刪除這些冗余參數

4ab4dde2-23c8-11ee-962d-dac502259ad0.png圖3. 線性投影的神經元的重要性得分分布情況(ITP vs LoSparse)

圖3. 線性投影的神經元的重要性得分分布情況(ITP vs LoSparse)

3.2 算法

給定一個預訓練的權重矩陣 ,我們首先基于 的奇異值分解(SVD)初始化秩 的低秩矩陣。具體來說,本文選擇:

在此基礎上,我們可以初始化 為:

原始的前向傳遞()可替換為更高效的形式:

LoSparse 對模型的每個權重矩陣應用這樣的分解,并將 表示為所有稀疏矩陣的集合。初始化后,本文對 進行迭代結構化剪枝。具體來說,在第 次迭代時,我們首先采用隨機梯度下降更新 、 和 。重要性得分和迭代更新策略均采用標準設置(一階泰勒評估重要性+三次時間表的迭代衰減策略)。具體算法見算法 1。

4aca28e6-23c8-11ee-962d-dac502259ad0.pngUntitled

4. 實驗

自然語言理解:表 1 和 表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個壓縮方法在 GLUE 上的表現。LoSparse 表現出了遠超其他方法的性能,與此同時,它還比其他方法更穩定,這是因為 LoSparse 方法中每個權重矩陣至少有一個低秩矩陣來保證連貫和表達神經元信息的不過分丟失。

4ae445a0-23c8-11ee-962d-dac502259ad0.png表 1. GLUE 驗證集上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

表 1. GLUE 驗證集上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

4af61d48-23c8-11ee-962d-dac502259ad0.png表 2. GLUE 驗證集上 BERT-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

表 2. GLUE 驗證集上 BERT-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

問答任務:表 3 對比了 LoSparse 方法在 SQuAD v1.1 上的表現。在所有壓縮比率下,LoSparse 都優于其他壓縮方法,尤其是在更高壓縮比的情況下。

4b087560-23c8-11ee-962d-dac502259ad0.png表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)

自然語言生成:表 4 說明在自然語言生成任務上,LoSparse 仍然表現優異,在各個壓縮比下優于現有方法。值得注意的是,LoSparse 在更困難的摘要任務上表現更好。

4b2485d4-23c8-11ee-962d-dac502259ad0.png表 4. XSum 上 BART-Large 的壓縮結果(Ratio表示剩余權重比例,最佳結果以粗體顯示)

表 4. XSum 上 BART-Large 的壓縮結果(Ratio表示剩余權重比例,最佳結果以粗體顯示)

消融實驗:論文分析了稀疏近似的有效性和稀疏分配的影響(低秩矩陣和稀疏矩陣的權重占比),實驗表明本文提出的稀疏近似對于性能有很大正貢獻,且 LoSparse 對稀疏分配策略相對魯棒,具體細節可見原文。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49227
  • 神經元
    +關注

    關注

    1

    文章

    363

    瀏覽量

    18511
  • Transformer
    +關注

    關注

    0

    文章

    146

    瀏覽量

    6047

原文標題:標題:ICML 2023 | LoSparse:低秩近似和結構化剪枝的有機組合

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文詳解Transformer神經網絡模型

    Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中,通過試錯來學習最優的行為策略。
    發表于 02-20 09:55 ?1.6w次閱讀
    一文<b class='flag-5'>詳解</b><b class='flag-5'>Transformer</b>神經網絡<b class='flag-5'>模型</b>

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發表于 02-06 10:21 ?207次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    大語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發燒友網報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習模型,最早于2017年
    的頭像 發表于 12-25 08:36 ?4409次閱讀
    大語言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然語言處理預訓練的經典結構Transformer,以及其工作原理,為構建大語言
    發表于 05-05 12:17

    詳解ABBYY PDF Transformer+從文件創建PDF文檔

    可使用ABBYY PDF Transformer+從Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft
    發表于 10-17 14:13

    你了解在單GPU上就可以運行的Transformer模型

    最近,谷歌推出了Reformer架構,Transformer模型旨在有效地處理處理很長的時間序列的數據(例如,在語言處理多達100萬個單詞)。Reformer的執行只需要更少的內存消耗,并且即使在
    發表于 11-02 15:19

    Transformer模型的多模態學習應用

    隨著Transformer在視覺中的崛起,Transformer在多模態中應用也是合情合理的事情,甚至以后可能會有更多的類似的paper。
    的頭像 發表于 03-25 09:29 ?1.1w次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的多模態學習應用

    使用跨界模型Transformer來做物體檢測!

    用了Transformer 架構開發的一個目標檢測模型。在這篇文章中,我將通過分析DETR架構的內部工作方式來幫助提供一些關于它的直覺。 下面,我將解釋一些結構,但是如果你只是想了解如何使用模型,可以直接跳到代碼部分
    的頭像 發表于 06-10 16:04 ?2265次閱讀
    使用跨界<b class='flag-5'>模型</b><b class='flag-5'>Transformer</b>來做物體檢測!

    Microsoft使用NVIDIA Triton加速AI Transformer模型應用

    Microsoft 的目標是,通過結合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件,率先將一系列強大的 AI Transformer 模型投入生產用途。
    的頭像 發表于 04-02 13:04 ?1809次閱讀

    Transformer結構及其應用詳解

    本文首先詳細介紹Transformer的基本結構,然后再通過GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應用工作的介紹并附上GitHub鏈接,看看Transformer是如何在各個著名的
    的頭像 發表于 06-08 09:56 ?2147次閱讀
    <b class='flag-5'>Transformer</b>結構及其應用<b class='flag-5'>詳解</b>

    基于Transformer的大型語言模型(LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內部
    的頭像 發表于 06-25 15:08 ?1557次閱讀
    基于<b class='flag-5'>Transformer</b>的大型語言<b class='flag-5'>模型</b>(LLM)的內部機制

    基于 Transformer 的分割與檢測方法

    ,并能做出屬于自己的 SAM 模型,那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯過!近期,南洋理工大學和上海人工智能實驗室幾位研究人員寫了一篇
    的頭像 發表于 07-05 10:18 ?1076次閱讀
    基于 <b class='flag-5'>Transformer</b> 的分割與檢測<b class='flag-5'>方法</b>

    基于Transformer模型壓縮方法

    基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發表于 02-22 16:27 ?715次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的<b class='flag-5'>壓縮</b><b class='flag-5'>方法</b>

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發表于 07-02 11:41 ?1844次閱讀

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出,并首次應用于
    的頭像 發表于 07-10 11:48 ?2076次閱讀
    主站蜘蛛池模板: 天堂资源在线8 | 午夜免费观看 | 最新看片网址 | 色偷偷91综合久久噜噜 | 天堂影院jav成人天堂免费观看 | free性欧美video69 | 久久久精品2021免费观看 | 中国一级做a爰片久久毛片 中韩日欧美电影免费看 | 色在线视频网站 | 第四色成人网 | 激情九月| 国产午夜精品一区二区理论影院 | 色综合网天天综合色中文男男 | 色中文字幕在线 | 午夜两性网 | 日本动漫免费看 | 五月婷婷丁香综合 | 四虎影库在线播放 | hs网站免费 | ts国产| 日本欧洲亚洲一区在线观看 | 日本不卡一 | 香蕉黄色网| 亚洲高清在线视频 | 美女扒开尿口给男人爽免费视频 | 婷婷开心六月久久综合丁香 | 免费成人毛片 | 婷婷六月综合网 | 国产亚洲精品自在久久77 | 亚欧美视频 | 成人亚洲欧美在线电影www色 | 日本亚洲天堂网 | 激情婷婷在线 | 人人干在线 | 天堂网在线www最新版在线 | 亚洲jizzjizz在线播放久 | 清纯唯美亚洲综合欧美色 | 在线一级毛片 | 性久久久久久 | 天天操夜夜噜 | 亚洲成a人片在线观看中 |