本次文章介紹我們于 TPAMI-2023 發表的一項用于視覺識別的相互對比學習在線知識蒸餾(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,該工作是我們發表在 AAAI-2022 論文 Mutual contrastive learning for visual representation learning [1] 的擴展版本,論文講解鏈接為:
https://zhuanlan.zhihu.com/p/574701719
摘要:無需教師的在線知識蒸餾聯合地訓練多個學生模型并且相互地蒸餾知識。雖然現有的在線知識蒸餾方法獲得了很好的性能,但是這些方法通常關注類別概率作為核心知識類型,忽略了有價值的特征表達信息。
本文展示了一個相互對比學習(Mutual Contrastive Learning,MCL)框架用于在線知識蒸餾。MCL 的核心思想是在一個網絡群體中利用在線的方式進行對比分布的交互和遷移。MCL 可以聚合跨網絡的嵌入向量信息,同時最大化兩個網絡互信息的下界。這種做法可以使得每一個網絡可以從其他網絡中學習到額外的對比知識,從而有利于學習到更好的特征表達,提升視覺識別任務的性能。
相比于會議版本,期刊版本將 MCL 擴展到中間特征層并且使用元優化來訓練自適應的層匹配機制。除了最后一層,MCL 也在中間層進行特征對比學習,因此新方法命名為 Layer-wise MCL(L-MCL)。在圖像分類和其他視覺識別任務上展示了 L-MCL 相比于先進在線知識蒸餾方法獲得了一致的提升。此優勢表明了 L-MCL 引導網絡產生了更好的特征表達。![wKgZomUKAUeABfUfAAJfiDQnJmM755.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUeABfUfAAJfiDQnJmM755.png)
論文地址:
https://arxiv.org/pdf/2207.11518.pdf
代碼地址:
https://github.com/winycg/L-MCL
![wKgZomUKAUeAboOzAAAl6LOgh3c565.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUeAboOzAAAl6LOgh3c565.png)
引言
傳統的離線知識蒸餾需要預訓練的教師模型對學生模型進行監督。在線知識蒸餾在無需教師的情況下同時聯合訓練兩個以上的學生模型。深度相互學習(Deep Mutual Learning,DML)[2]表明了模型群體可以從相互學習類別概率分布(圖像分類任務最后的輸出預測)中獲益。每一個模型在同伴教授的模式下相比傳統的單獨訓練效果更好。
現有的在線知識蒸餾方法通常僅僅關注結果驅動的蒸餾,但是忽略了在線蒸餾特征方面的應用。雖然先前的 AFD [3]嘗試通過在線的方式在多個網絡間對齊中間特征圖,Zhang 等人[2]指出這種做法會減少群體多樣性,降低相互學習能力。為了學習更有意義的特征嵌入,我們認為一個更好的方式是從視覺表征學習角度的對比學習。
![wKgaomUOseuAHCKqAAM2USl54_8152.png](https://file1.elecfans.com/web2/M00/A5/DC/wKgaomUOseuAHCKqAAM2USl54_8152.png)
▲ 圖1. 相互對比學習基本思想示意圖
圖中, 和 分別表示兩個不同的網絡, 是推理來自網絡 和輸入樣本 產生的特征向量。虛線和箭頭代表要逼近或者遠離的方向。從圖中可以看出,MCL 包含了樸素對比學習(Vanilla Contrastive Learning,VCL)和交互式對比學習(Interactive Contrastive Learning,ICL)。
相比于傳統的 VCL,提出的 ICL 從兩個不同網絡間建模對比相似度分布。本文證明 ICL 的誤差函數等價于最大化兩個網絡互信息的下界,這可以被理解為一個網絡可以學習到另外網絡額外的知識。
MCL 主要是發表于 AAAI-2022 的方法,期刊版本將 MCL 從卷積網絡的最后一層擴展到多個模型的中間特征層,命名為 Layer-wise MCL。此外,傳統的中間特征層蒸餾使用手工的匹配,本文則提出一個自適應的層匹配機制,然后通過元優化來訓練該機制。
![wKgZomUKAUiAUx54AAAuhh9-KLM583.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUiAUx54AAAuhh9-KLM583.png)
方法
2.1. 相互對比學習MCL(AAAI-2022)
![wKgaomUOsneANvyiAANja2j-FVo357.png](https://file1.elecfans.com/web2/M00/A5/DC/wKgaomUOsneANvyiAANja2j-FVo357.png)
▲ 圖2. 相互對比學習整體示意圖
2.1.1 傳統對比學習(Vanilla Contrastive Learning,VCL)
為了便于描述,本方法將 anchor 樣本向量表示為 , 正樣本向量表示為 和 個負樣本向量表達為。 表示向量產生自網絡 。這里,特征向量通過 標準化進行預處理。使用基于 InfoNCE 的交叉熵作為對比誤差:![wKgZomUKAUiAfLcVAABApOxJsHE674.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUiAfLcVAABApOxJsHE674.png)
?
對于總共 個網絡來說,所有的對比誤差表示為:
![wKgZomUKAUiAKCIQAAArDByt5ss241.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUiAKCIQAAArDByt5ss241.png)
2.1.2 交互式對比學習(Interactive Contrastive Learning,ICL)
VCL 不能建模跨網絡的關系來進行聯合學習,因為對比分布來自于網絡自身的嵌入空間。ICL 的 anchor 樣本與對比樣本產生自不同的網絡,但在誤差形式上依舊與傳統的對比學習誤差相同:
![wKgZomUKAUmAeXmWAABDzUNsmsE873.png](https://file1.elecfans.com//web2/M00/A3/D5/wKgZomUKAUmAeXmWAABDzUNsmsE873.png)
對于總共 個網絡來說,所有的對比誤差表示為:
理論分析:
相比于誤差 ,最小化 等價于最大化網絡 互信息 的下界:
![wKgZomUKAUmAJPTeAAAyml4f5m0589.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUmAJPTeAAAyml4f5m0589.png)
直覺上,當來自 的 anchor 特征向量已知時,互信息 衡量了來自 對比特征向量的不確定性,這可以理解為每一個網絡可以從其他網絡中學習到對比知識,從而更有利于表征學習。
2.1.3 基于在線相互遷移的軟對比學習
收到深度相互學習(Deep Mutual Learning,DML)[1] 的啟發,本方法利用 KL 散度來對齊網絡間的對比分布,根據本文提出的兩種對比學習方法 VCL 和 ICL 來進行對比分布的雙向遷移:
2.1.3.1 Soft VCL:
對于產生 的分布 來說,其監督信號是其他網絡產生的分布,利用 KL 散度使得 與其他分布接近:
![wKgZomUKAUmATx-zAAA3kjsNkMY187.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUmATx-zAAA3kjsNkMY187.png)
2.1.3.2 Soft ICL
給定兩個網絡 和 ,可以得到兩個ICL對應的對比分布 和 ,使用 KL 散度的形式使得兩個分布盡可能接近。對于 個網絡來說,每兩個網絡進行對比分布的遷移:
![wKgZomUKAUmARWnNAAA9miXxmxg021.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUmARWnNAAA9miXxmxg021.png)
2.1.4 MCL的整體誤差
為了盡可能利用聯合學習的優勢,本方法將所有的對比誤差項作為一個整體的誤差訓練 個網絡:
![wKgZomUKAUmAUCrKAABBz-kLkaA478.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUmAUCrKAABBz-kLkaA478.png)
2.2 逐層的相互對比學習(Layer-wise MCL)
![wKgZomUOspuAVn9JAAFqZvww3EU238.png](https://file1.elecfans.com/web2/M00/A7/A2/wKgZomUOspuAVn9JAAFqZvww3EU238.png)
▲ 圖3. 一對一匹配和加權的多對多匹配示意圖
2.2.1 基礎框架
給定網絡群體,每一個網絡具有 個階段,原始的 MCL 在最后的特征嵌入上進行學習。Layer-wise MCL(L-MCL)進一步擴展相互對比學習到中間特征層和最后特征層,并且采用跨層的方式。
下一個章節,本文展示如何利用元網絡 來優化匹配權重 。
2.2.2 訓練元網絡
2.2.2.1 交叉熵任務誤差
使用交叉熵誤差訓練 個網絡:![wKgZomUKAUqAcww5AABCUHA4NyM973.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUqAcww5AABCUHA4NyM973.png)
?
將基礎的任務誤差和 L-MCL 誤差相加作為總誤差來進行特征層面的在線蒸餾誤差:
![wKgZomUKAUqAcLFWAABDIeiIkp4346.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUqAcLFWAABDIeiIkp4346.png)
2.2.2.2 元優化
受到元學習的啟發,本文采用交替優化的方式來訓練學生網絡和元網絡:
(1)更新 來 次最小化 。
(2)更新 來一次最小化 。
(3)衡量 并且更新 來最小化它。
2.2.2.3 元網絡 結構元網絡包含了兩個線性轉換層 和 ,來對輸入的特征向量 進行轉換。轉換之后,特征向量通過 正則化 來進行標準化。受到自注意力機制的啟發,本文利用點乘得到匹配特征的相似性,從而衡量匹配層的相關性,然后引入 sigmoid 激活函數 來將輸出值縮放到 作為層匹配權重 。整體的過程被規則化為:
![wKgZomUKAUqAdFh7AABLnhROiyo613.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUqAdFh7AABLnhROiyo613.png)
![wKgZomUKAUuAAB5HAAAtJ0fTuoM713.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUuAAB5HAAAtJ0fTuoM713.png)
實驗
在 ImageNet 上的實驗結果如下所示,表 1 和表 2 分別展示了兩個同構和異構網絡利用相互對比學習的實驗結果。
![wKgZomUKAUuAIbuWAAUoQv-V7W8394.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUuAIbuWAAUoQv-V7W8394.png)
▲ 表1. 兩個同構網絡利用相互對比學習的實驗結果
▲表2. 兩個異構網絡利用相互對比學習的實驗結果
實驗結果表明本文提出的 L-MCL 相比于 baseline 以及先前流行的在線知識蒸餾方法都獲得了顯著的性能提升,表明在多個網絡之間使用特征層面的對比學習蒸餾相比概率分布效果更好。在下游的目標檢測和實例分割實驗上表明了該方法相比先前的蒸餾方法引導網絡學習到了更好的視覺表征,從而提升了視覺識別效果。
![wKgZomUKAUyABytXAAD3uYhd4hI895.png](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUyABytXAAD3uYhd4hI895.png)
▲ 表3. 通過在線蒸餾的預訓練網絡遷移到下游的目標檢測和與實例分割的實驗
![wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg)
參考文獻
![wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg](https://file1.elecfans.com//web2/M00/A3/D6/wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg)
?
[1] Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.[2] Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4320-4328.[3] Chung I, Park S U, Kim J, et al. Feature-map-level online adversarial knowledge distillation[C]//International Conference on Machine Learning. PMLR, 2020: 2006-2015.
·
原文標題:TPAMI 2023 | 用于視覺識別的相互對比學習在線知識蒸餾
文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
原文標題:TPAMI 2023 | 用于視覺識別的相互對比學習在線知識蒸餾
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
相關推薦
的機制,應用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結構。 為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾
發表于 01-21 09:45
?154次閱讀
擴展地構建這些系統。
邊緣計算平臺應運而生 —— 它是實現超快速、低延遲視覺識別的秘訣所在。通過在本地處理數據,邊緣計算大幅削減了傳輸延遲,實現了實時響應,并提高了計算效率。對于那些分秒必爭的應用場
發表于 12-16 16:31
ASR(Automatic Speech Recognition,自動語音識別)與傳統語音識別在多個方面存在顯著的區別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習算
發表于 11-18 15:22
?676次閱讀
,幫助從業者積累行業知識,推動工業視覺應用的快速落地。本期亮點預告本期將以“深度學習與機器視覺的融合探索”為主題,通過講解深度學習定義、傳統
發表于 10-29 08:04
?290次閱讀
電子發燒友網站提供《使用 TMP1826 嵌入式 EEPROM 替換用于模塊識別的外部存儲器.pdf》資料免費下載
發表于 09-09 09:44
?0次下載
離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯網。在線語音識別功能更廣泛、識別準確率高,但依賴穩定網絡。
發表于 07-22 11:33
?510次閱讀
目標檢測識別是計算機視覺領域的一個重要研究方向,它主要關注于從圖像或視頻中識別和定位目標物體。隨著計算機視覺技術的不斷發展,目標檢測識別已經
發表于 07-17 09:34
?1282次閱讀
傳統方法和基于深度學習的方法。 傳統圖像識別算法 1.1 邊緣檢測 邊緣檢測是圖像識別的基礎,它用于檢測圖像中的邊緣信息。邊緣是圖像中亮度變化最明顯的區域,通常表示物體的邊界。常用的邊
發表于 07-16 11:14
?6155次閱讀
人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監控、身份認證、智能門禁等領域。神經網絡是實現人臉識別的關鍵技術之一,本文將介紹如何設計人臉
發表于 07-04 09:20
?775次閱讀
人臉檢測和人臉識別是計算機視覺領域的兩個重要技術,它們在許多應用場景中都有廣泛的應用,如安全監控、身份驗證、社交媒體等。盡管它們在某些方面有相似之處,但它們之間存在一些關鍵的區別。本文將詳細介紹人
發表于 07-03 14:49
?1462次閱讀
人臉檢測與識別是計算機視覺領域中的一個重要研究方向,具有廣泛的應用前景,如安全監控、身份認證、智能視頻分析等。本文將詳細介紹人臉檢測與識別的方法。 引言 人臉檢測與識別技術在現代社會中
發表于 07-03 14:45
?868次閱讀
詳細的比較和分析。 定義和概念 圖像檢測(Image Detection)是指利用計算機視覺技術對圖像中的特定目標進行定位和識別的過程。它通常包括目標的檢測、分類和定位三個步驟。圖像檢測的目標可以是人、車、動物等任何具有特定特征
發表于 07-03 14:41
?1281次閱讀
AIDI是一款基于深度學習的智能工業視覺平臺應用于多種工業應用場景,有效解決復雜缺陷的定位識別、分類定級及字符識別等問題,具有強大的兼容性。
發表于 03-25 21:52
語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
發表于 03-22 16:58
?4023次閱讀
機器視覺代替傳統的人工視覺,能夠更好的滿足危險作業基本需求。機器視覺的圖像目標識別的重要性圖像目標識別是機器
發表于 02-23 08:26
?796次閱讀
評論