動機&背景
Transformer 模型在各種自然語言任務中取得了顯著的成果,但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發現,結構化剪枝在高稀疏率時往往不可避免地刪除表達神經元,這將導致模型性能嚴重降低。低秩近似則旨在壓縮表達神經元,它對于壓縮神經元中的相干部分十分有效,其本質就是提取神經元共享相干子空間的公共基,該方法在 Transformer 結構上也遇到了困難,不同于 CNN,Transformer 模型的權重矩陣往往是滿秩的,這導致低秩近似會破壞神經元的多樣性,從而影響模型的表達能力。
為了解決結構化剪枝和低秩近似的局限性和困難,本文提出了一種新的模型壓縮技術 LoSparse(Low-Rank and Sparse approximation),該技術通過低秩矩陣和稀疏矩陣的和來近似權重矩陣。這種復合近似將相干部分與神經元的非相干部分解耦。低秩近似壓縮神經元中的連貫和表達部分,而修剪去除神經元中的不連貫和非表達部分。從這個意義上說,低秩近似可以防止剪枝過度去除表達神經元,而稀疏近似增強了低秩近似的多樣性。
3. 方法:LoSparse
本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來說,LoSparse 通過低秩矩陣和稀疏矩陣的和來近似權重矩陣(如圖 1 所示)。這兩個近似的組合使得壓縮方法更有效和穩定。
圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進行前向傳遞)
圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進行前向傳遞)
3.1 低秩矩陣和稀疏矩陣的近似
給定一個權重矩陣 ,通常采用結構化剪枝稀疏矩陣 來近似 以進行壓縮。然而,稀疏矩陣近似導致性能不佳,尤其是當壓縮比率較高時。因此,本文引入了一個低秩矩陣來改進近似。具體來說,權重矩陣可以表示為:
其中 和 的乘積表示秩為 的低秩矩陣。
圖 2. 語言模型的奇異值
圖 2. 語言模型的奇異值
為什么需要低秩矩陣?首先,它可以有效地逼近神經元的相干部分。如圖 2 所示,我們可以看到語言模型中權重矩陣的頻譜在開始時迅速下降。這表明權重矩陣中的神經元有一個共同的子空間,可以看作是這些神經元的連貫部分。此外,公共子空間可以通過頂部奇異值的奇異向量來恢復。其次,低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個神經元跨越它們的單個子空間,可以表示這些神經元的非相干部分。由于這些子空間不共享,因此低秩近似無法捕獲非相干部分。幸運的是,低秩矩陣能夠將相干部分與神經元的非相干部分解耦。這使我們能夠通過添加一個新的矩陣 來近似剩余的不連貫部分,然后修剪非表達不連貫的部分。圖 3 表明,大多數不連貫的部分在解耦后具有較低的重要性分數,這有助于剪枝刪除這些冗余參數。
圖3. 線性投影的神經元的重要性得分分布情況(ITP vs LoSparse)
圖3. 線性投影的神經元的重要性得分分布情況(ITP vs LoSparse)
3.2 算法
給定一個預訓練的權重矩陣 ,我們首先基于 的奇異值分解(SVD)初始化秩 的低秩矩陣。具體來說,本文選擇:
在此基礎上,我們可以初始化 為:
原始的前向傳遞()可替換為更高效的形式:
LoSparse 對模型的每個權重矩陣應用這樣的分解,并將 表示為所有稀疏矩陣的集合。初始化后,本文對 進行迭代結構化剪枝。具體來說,在第 次迭代時,我們首先采用隨機梯度下降更新 、 和 。重要性得分和迭代更新策略均采用標準設置(一階泰勒評估重要性+三次時間表的迭代衰減策略)。具體算法見算法 1。
Untitled
4. 實驗
自然語言理解:表 1 和 表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個壓縮方法在 GLUE 上的表現。LoSparse 表現出了遠超其他方法的性能,與此同時,它還比其他方法更穩定,這是因為 LoSparse 方法中每個權重矩陣至少有一個低秩矩陣來保證連貫和表達神經元信息的不過分丟失。
表 1. GLUE 驗證集上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
表 1. GLUE 驗證集上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
表 2. GLUE 驗證集上 BERT-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
表 2. GLUE 驗證集上 BERT-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
問答任務:表 3 對比了 LoSparse 方法在 SQuAD v1.1 上的表現。在所有壓縮比率下,LoSparse 都優于其他壓縮方法,尤其是在更高壓縮比的情況下。
表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結果(Ratio 表示剩余權重比例,N.A.表示模型不收斂,最佳結果以粗體顯示)
自然語言生成:表 4 說明在自然語言生成任務上,LoSparse 仍然表現優異,在各個壓縮比下優于現有方法。值得注意的是,LoSparse 在更困難的摘要任務上表現更好。
表 4. XSum 上 BART-Large 的壓縮結果(Ratio表示剩余權重比例,最佳結果以粗體顯示)
表 4. XSum 上 BART-Large 的壓縮結果(Ratio表示剩余權重比例,最佳結果以粗體顯示)
消融實驗:論文分析了稀疏近似的有效性和稀疏分配的影響(低秩矩陣和稀疏矩陣的權重占比),實驗表明本文提出的稀疏近似對于性能有很大正貢獻,且 LoSparse 對稀疏分配策略相對魯棒,具體細節可見原文。
-
模型
+關注
關注
1文章
3313瀏覽量
49227 -
神經元
+關注
關注
1文章
363瀏覽量
18511 -
Transformer
+關注
關注
0文章
146瀏覽量
6047
原文標題:標題:ICML 2023 | LoSparse:低秩近似和結構化剪枝的有機組合
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論