完结小说排行榜,天蚕土豆,完美世界辰东

動(dòng)機(jī)&背景

Transformer 模型在各種自然語(yǔ)言任務(wù)中取得了顯著的成果，但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而，作者通過(guò)分析發(fā)現(xiàn)，結(jié)構(gòu)化剪枝在高稀疏率時(shí)往往不可避免地刪除表達(dá)神經(jīng)元，這將導(dǎo)致模型性能?chē)?yán)重降低。低秩近似則旨在壓縮表達(dá)神經(jīng)元，它對(duì)于壓縮神經(jīng)元中的相干部分十分有效，其本質(zhì)就是提取神經(jīng)元共享相干子空間的公共基，該方法在 Transformer 結(jié)構(gòu)上也遇到了困難，不同于 CNN，Transformer 模型的權(quán)重矩陣往往是滿秩的，這導(dǎo)致低秩近似會(huì)破壞神經(jīng)元的多樣性，從而影響模型的表達(dá)能力。

為了解決結(jié)構(gòu)化剪枝和低秩近似的局限性和困難，本文提出了一種新的模型壓縮技術(shù) LoSparse（Low-Rank and Sparse approximation），該技術(shù)通過(guò)低秩矩陣和稀疏矩陣的和來(lái)近似權(quán)重矩陣。這種復(fù)合近似將相干部分與神經(jīng)元的非相干部分解耦。低秩近似壓縮神經(jīng)元中的連貫和表達(dá)部分，而修剪去除神經(jīng)元中的不連貫和非表達(dá)部分。從這個(gè)意義上說(shuō)，低秩近似可以防止剪枝過(guò)度去除表達(dá)神經(jīng)元，而稀疏近似增強(qiáng)了低秩近似的多樣性。

3. 方法：LoSparse

本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來(lái)說(shuō)，LoSparse 通過(guò)低秩矩陣和稀疏矩陣的和來(lái)近似權(quán)重矩陣（如圖 1 所示）。這兩個(gè)近似的組合使得壓縮方法更有效和穩(wěn)定。

圖 1. LoSparse 在單個(gè)線性投影矩陣的示意圖（兩部分并行進(jìn)行前向傳遞）

3.1 低秩矩陣和稀疏矩陣的近似

給定一個(gè)權(quán)重矩陣，通常采用結(jié)構(gòu)化剪枝稀疏矩陣來(lái)近似以進(jìn)行壓縮。然而，稀疏矩陣近似導(dǎo)致性能不佳，尤其是當(dāng)壓縮比率較高時(shí)。因此，本文引入了一個(gè)低秩矩陣來(lái)改進(jìn)近似。具體來(lái)說(shuō)，權(quán)重矩陣可以表示為：

其中和的乘積表示秩為的低秩矩陣。

圖 2. 語(yǔ)言模型的奇異值

為什么需要低秩矩陣？首先，它可以有效地逼近神經(jīng)元的相干部分。如圖 2 所示，我們可以看到語(yǔ)言模型中權(quán)重矩陣的頻譜在開(kāi)始時(shí)迅速下降。這表明權(quán)重矩陣中的神經(jīng)元有一個(gè)共同的子空間，可以看作是這些神經(jīng)元的連貫部分。此外，公共子空間可以通過(guò)頂部奇異值的奇異向量來(lái)恢復(fù)。其次，低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個(gè)神經(jīng)元跨越它們的單個(gè)子空間，可以表示這些神經(jīng)元的非相干部分。由于這些子空間不共享，因此低秩近似無(wú)法捕獲非相干部分。幸運(yùn)的是，低秩矩陣能夠?qū)⑾喔刹糠峙c神經(jīng)元的非相干部分解耦。這使我們能夠通過(guò)添加一個(gè)新的矩陣來(lái)近似剩余的不連貫部分，然后修剪非表達(dá)不連貫的部分。圖 3 表明，大多數(shù)不連貫的部分在解耦后具有較低的重要性分?jǐn)?shù)，這有助于剪枝刪除這些冗余參數(shù)。

圖3. 線性投影的神經(jīng)元的重要性得分分布情況（ITP vs LoSparse）

3.2 算法

給定一個(gè)預(yù)訓(xùn)練的權(quán)重矩陣，我們首先基于的奇異值分解（SVD）初始化秩的低秩矩陣。具體來(lái)說(shuō)，本文選擇：

在此基礎(chǔ)上，我們可以初始化為：

原始的前向傳遞（）可替換為更高效的形式：

LoSparse 對(duì)模型的每個(gè)權(quán)重矩陣應(yīng)用這樣的分解，并將表示為所有稀疏矩陣的集合。初始化后，本文對(duì) 進(jìn)行迭代結(jié)構(gòu)化剪枝。具體來(lái)說(shuō)，在第次迭代時(shí)，我們首先采用隨機(jī)梯度下降更新、和。重要性得分和迭代更新策略均采用標(biāo)準(zhǔn)設(shè)置（一階泰勒評(píng)估重要性+三次時(shí)間表的迭代衰減策略）。具體算法見(jiàn)算法 1。

Untitled

4. 實(shí)驗(yàn)

自然語(yǔ)言理解：表 1 和表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個(gè)壓縮方法在 GLUE 上的表現(xiàn)。LoSparse 表現(xiàn)出了遠(yuǎn)超其他方法的性能，與此同時(shí)，它還比其他方法更穩(wěn)定，這是因?yàn)?LoSparse 方法中每個(gè)權(quán)重矩陣至少有一個(gè)低秩矩陣來(lái)保證連貫和表達(dá)神經(jīng)元信息的不過(guò)分丟失。

表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

問(wèn)答任務(wù)：表 3 對(duì)比了 LoSparse 方法在 SQuAD v1.1 上的表現(xiàn)。在所有壓縮比率下，LoSparse 都優(yōu)于其他壓縮方法，尤其是在更高壓縮比的情況下。

表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

自然語(yǔ)言生成：表 4 說(shuō)明在自然語(yǔ)言生成任務(wù)上，LoSparse 仍然表現(xiàn)優(yōu)異，在各個(gè)壓縮比下優(yōu)于現(xiàn)有方法。值得注意的是，LoSparse 在更困難的摘要任務(wù)上表現(xiàn)更好。

表 4. XSum 上 BART-Large 的壓縮結(jié)果（Ratio表示剩余權(quán)重比例，最佳結(jié)果以粗體顯示）

消融實(shí)驗(yàn)：論文分析了稀疏近似的有效性和稀疏分配的影響（低秩矩陣和稀疏矩陣的權(quán)重占比），實(shí)驗(yàn)表明本文提出的稀疏近似對(duì)于性能有很大正貢獻(xiàn)，且 LoSparse 對(duì)稀疏分配策略相對(duì)魯棒，具體細(xì)節(jié)可見(jiàn)原文。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴