在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

transformer模型詳解:Transformer 模型的壓縮方法

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2023-07-17 10:50 ? 次閱讀

動(dòng)機(jī)&背景

Transformer 模型在各種自然語(yǔ)言任務(wù)中取得了顯著的成果,但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而,作者通過(guò)分析發(fā)現(xiàn),結(jié)構(gòu)化剪枝在高稀疏率時(shí)往往不可避免地刪除表達(dá)神經(jīng)元,這將導(dǎo)致模型性能?chē)?yán)重降低。低秩近似則旨在壓縮表達(dá)神經(jīng)元,它對(duì)于壓縮神經(jīng)元中的相干部分十分有效,其本質(zhì)就是提取神經(jīng)元共享相干子空間的公共基,該方法在 Transformer 結(jié)構(gòu)上也遇到了困難,不同于 CNN,Transformer 模型的權(quán)重矩陣往往是滿秩的,這導(dǎo)致低秩近似會(huì)破壞神經(jīng)元的多樣性,從而影響模型的表達(dá)能力。

為了解決結(jié)構(gòu)化剪枝和低秩近似的局限性和困難,本文提出了一種新的模型壓縮技術(shù) LoSparse(Low-Rank and Sparse approximation),該技術(shù)通過(guò)低秩矩陣和稀疏矩陣的和來(lái)近似權(quán)重矩陣。這種復(fù)合近似將相干部分與神經(jīng)元的非相干部分解耦。低秩近似壓縮神經(jīng)元中的連貫和表達(dá)部分,而修剪去除神經(jīng)元中的不連貫和非表達(dá)部分。從這個(gè)意義上說(shuō),低秩近似可以防止剪枝過(guò)度去除表達(dá)神經(jīng)元,而稀疏近似增強(qiáng)了低秩近似的多樣性。

3. 方法:LoSparse

本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來(lái)說(shuō),LoSparse 通過(guò)低秩矩陣和稀疏矩陣的和來(lái)近似權(quán)重矩陣(如圖 1 所示)。這兩個(gè)近似的組合使得壓縮方法更有效和穩(wěn)定。

4a564b1a-23c8-11ee-962d-dac502259ad0.png圖 1. LoSparse 在單個(gè)線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)

圖 1. LoSparse 在單個(gè)線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)

3.1 低秩矩陣和稀疏矩陣的近似

給定一個(gè)權(quán)重矩陣 ,通常采用結(jié)構(gòu)化剪枝稀疏矩陣 來(lái)近似 以進(jìn)行壓縮。然而,稀疏矩陣近似導(dǎo)致性能不佳,尤其是當(dāng)壓縮比率較高時(shí)。因此,本文引入了一個(gè)低秩矩陣來(lái)改進(jìn)近似。具體來(lái)說(shuō),權(quán)重矩陣可以表示為:

其中 和 的乘積表示秩為 的低秩矩陣。

4a7a9e66-23c8-11ee-962d-dac502259ad0.png圖 2. 語(yǔ)言模型的奇異值

圖 2. 語(yǔ)言模型的奇異值

為什么需要低秩矩陣?首先,它可以有效地逼近神經(jīng)元的相干部分。如圖 2 所示,我們可以看到語(yǔ)言模型中權(quán)重矩陣的頻譜在開(kāi)始時(shí)迅速下降。這表明權(quán)重矩陣中的神經(jīng)元有一個(gè)共同的子空間,可以看作是這些神經(jīng)元的連貫部分。此外,公共子空間可以通過(guò)頂部奇異值的奇異向量來(lái)恢復(fù)。其次,低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個(gè)神經(jīng)元跨越它們的單個(gè)子空間,可以表示這些神經(jīng)元的非相干部分。由于這些子空間不共享,因此低秩近似無(wú)法捕獲非相干部分。幸運(yùn)的是,低秩矩陣能夠?qū)⑾喔刹糠峙c神經(jīng)元的非相干部分解耦。這使我們能夠通過(guò)添加一個(gè)新的矩陣 來(lái)近似剩余的不連貫部分,然后修剪非表達(dá)不連貫的部分。圖 3 表明,大多數(shù)不連貫的部分在解耦后具有較低的重要性分?jǐn)?shù),這有助于剪枝刪除這些冗余參數(shù)。

4ab4dde2-23c8-11ee-962d-dac502259ad0.png圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)

圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)

3.2 算法

給定一個(gè)預(yù)訓(xùn)練的權(quán)重矩陣 ,我們首先基于 的奇異值分解(SVD)初始化秩 的低秩矩陣。具體來(lái)說(shuō),本文選擇:

在此基礎(chǔ)上,我們可以初始化 為:

原始的前向傳遞()可替換為更高效的形式:

LoSparse 對(duì)模型的每個(gè)權(quán)重矩陣應(yīng)用這樣的分解,并將 表示為所有稀疏矩陣的集合。初始化后,本文對(duì) 進(jìn)行迭代結(jié)構(gòu)化剪枝。具體來(lái)說(shuō),在第 次迭代時(shí),我們首先采用隨機(jī)梯度下降更新 、 和 。重要性得分和迭代更新策略均采用標(biāo)準(zhǔn)設(shè)置(一階泰勒評(píng)估重要性+三次時(shí)間表的迭代衰減策略)。具體算法見(jiàn)算法 1。

4aca28e6-23c8-11ee-962d-dac502259ad0.pngUntitled

4. 實(shí)驗(yàn)

自然語(yǔ)言理解:表 1 和 表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個(gè)壓縮方法在 GLUE 上的表現(xiàn)。LoSparse 表現(xiàn)出了遠(yuǎn)超其他方法的性能,與此同時(shí),它還比其他方法更穩(wěn)定,這是因?yàn)?LoSparse 方法中每個(gè)權(quán)重矩陣至少有一個(gè)低秩矩陣來(lái)保證連貫和表達(dá)神經(jīng)元信息的不過(guò)分丟失。

4ae445a0-23c8-11ee-962d-dac502259ad0.png表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

4af61d48-23c8-11ee-962d-dac502259ad0.png表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

問(wèn)答任務(wù):表 3 對(duì)比了 LoSparse 方法在 SQuAD v1.1 上的表現(xiàn)。在所有壓縮比率下,LoSparse 都優(yōu)于其他壓縮方法,尤其是在更高壓縮比的情況下。

4b087560-23c8-11ee-962d-dac502259ad0.png表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

自然語(yǔ)言生成:表 4 說(shuō)明在自然語(yǔ)言生成任務(wù)上,LoSparse 仍然表現(xiàn)優(yōu)異,在各個(gè)壓縮比下優(yōu)于現(xiàn)有方法。值得注意的是,LoSparse 在更困難的摘要任務(wù)上表現(xiàn)更好。

4b2485d4-23c8-11ee-962d-dac502259ad0.png表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)

表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)

消融實(shí)驗(yàn):論文分析了稀疏近似的有效性和稀疏分配的影響(低秩矩陣和稀疏矩陣的權(quán)重占比),實(shí)驗(yàn)表明本文提出的稀疏近似對(duì)于性能有很大正貢獻(xiàn),且 LoSparse 對(duì)稀疏分配策略相對(duì)魯棒,具體細(xì)節(jié)可見(jiàn)原文。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3487

    瀏覽量

    49995
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    18755
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    148

    瀏覽量

    6395

原文標(biāo)題:標(biāo)題:ICML 2023 | LoSparse:低秩近似和結(jié)構(gòu)化剪枝的有機(jī)組合

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動(dòng)的過(guò)程中,通過(guò)試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)的行為策略。
    發(fā)表于 02-20 09:55 ?2.3w次閱讀
    一文<b class='flag-5'>詳解</b><b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?3442次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近年來(lái),隨著大語(yǔ)言模型的不斷出圈,Transformer這一概念也走進(jìn)了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)模型,最早于2017年
    的頭像 發(fā)表于 12-25 08:36 ?5218次閱讀
    大語(yǔ)言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然語(yǔ)言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Transformer,以及其工作原理,為構(gòu)建大語(yǔ)言
    發(fā)表于 05-05 12:17

    詳解ABBYY PDF Transformer+從文件創(chuàng)建PDF文檔

    可使用ABBYY PDF Transformer+從Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft
    發(fā)表于 10-17 14:13

    你了解在單GPU上就可以運(yùn)行的Transformer模型

    最近,谷歌推出了Reformer架構(gòu),Transformer模型旨在有效地處理處理很長(zhǎng)的時(shí)間序列的數(shù)據(jù)(例如,在語(yǔ)言處理多達(dá)100萬(wàn)個(gè)單詞)。Reformer的執(zhí)行只需要更少的內(nèi)存消耗,并且即使在
    發(fā)表于 11-02 15:19

    Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer在視覺(jué)中的崛起,Transformer在多模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會(huì)有更多的類(lèi)似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1.1w次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的多模態(tài)學(xué)習(xí)應(yīng)用

    使用跨界模型Transformer來(lái)做物體檢測(cè)!

    用了Transformer 架構(gòu)開(kāi)發(fā)的一個(gè)目標(biāo)檢測(cè)模型。在這篇文章中,我將通過(guò)分析DETR架構(gòu)的內(nèi)部工作方式來(lái)幫助提供一些關(guān)于它的直覺(jué)。 下面,我將解釋一些結(jié)構(gòu),但是如果你只是想了解如何使用模型,可以直接跳到代碼部分
    的頭像 發(fā)表于 06-10 16:04 ?2448次閱讀
    使用跨界<b class='flag-5'>模型</b><b class='flag-5'>Transformer</b>來(lái)做物體檢測(cè)!

    Microsoft使用NVIDIA Triton加速AI Transformer模型應(yīng)用

    Microsoft 的目標(biāo)是,通過(guò)結(jié)合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件,率先將一系列強(qiáng)大的 AI Transformer 模型投入生產(chǎn)用途。
    的頭像 發(fā)表于 04-02 13:04 ?1991次閱讀

    Transformer結(jié)構(gòu)及其應(yīng)用詳解

    本文首先詳細(xì)介紹Transformer的基本結(jié)構(gòu),然后再通過(guò)GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應(yīng)用工作的介紹并附上GitHub鏈接,看看Transformer是如何在各個(gè)著名的
    的頭像 發(fā)表于 06-08 09:56 ?2573次閱讀
    <b class='flag-5'>Transformer</b>結(jié)構(gòu)及其應(yīng)用<b class='flag-5'>詳解</b>

    基于Transformer的大型語(yǔ)言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語(yǔ)言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語(yǔ)言模型(LLM)在使用和部署方面的不斷增加,打開(kāi)黑箱并了解它們的內(nèi)部
    的頭像 發(fā)表于 06-25 15:08 ?1825次閱讀
    基于<b class='flag-5'>Transformer</b>的大型語(yǔ)言<b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    基于 Transformer 的分割與檢測(cè)方法

    ,并能做出屬于自己的 SAM 模型,那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯(cuò)過(guò)!近期,南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室?guī)孜谎芯咳藛T寫(xiě)了一篇
    的頭像 發(fā)表于 07-05 10:18 ?1404次閱讀
    基于 <b class='flag-5'>Transformer</b> 的分割與檢測(cè)<b class='flag-5'>方法</b>

    基于Transformer模型壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?992次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的<b class='flag-5'>壓縮</b><b class='flag-5'>方法</b>

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發(fā)表于 07-02 11:41 ?2454次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?2828次閱讀
    主站蜘蛛池模板: 国模私拍在线观看 | 最近2018中文字幕免费看手机 | 亚洲日本久久久午夜精品 | 欧美爽爽网 | 一级伦奸视频 | 波多野结衣的毛片 | 成年人看的毛片 | 在线免费看高清视频大全 | 久久香蕉国产视频 | 欧美性色xo影院在线观看 | 丁香六月色婷婷 | 亚洲国产丝袜精品一区杨幂 | 俄罗斯美女69xxxxxx | 日欧毛片 | 久久毛片视频 | 久久国产高清视频 | 男人j桶进女人j的视频 | 久久免费视频精品 | 亚洲第一精品夜夜躁人人爽 | 亚洲国产一区二区三区在线观看 | 乱j伦小说在线阅读 | 深夜一级毛片 | 色视频国产 | 天堂资源8中文最新版在线 天堂资源地址在线 | 高清成年美女黄网站色大 | 能直接看黄的网站 | 久久久久免费观看 | 国产女人水多白浆 | 国产午夜毛片v一区二区三区 | 欧美专区在线播放 | 色吧欧美| 神马午夜在线观看 | 国产视频黄 | 九色视频网站 | 欧美色网在线 | 性夜影院爽黄a免费视频 | 色综合天天综合网国产成人 | 一级全免费视频播放 | 国产婷婷一区二区三区 | 黄 色 录像成 人播放免费 | 国产99久久九九精品免费 |