本次文章介紹我們于 TPAMI-2023 發(fā)表的一項(xiàng)用于視覺識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,該工作是我們發(fā)表在 AAAI-2022 論文 Mutual contrastive learning for visual representation learning [1] 的擴(kuò)展版本,論文講解鏈接為:
https://zhuanlan.zhihu.com/p/574701719 摘要:無需教師的在線知識(shí)蒸餾聯(lián)合地訓(xùn)練多個(gè)學(xué)生模型并且相互地蒸餾知識(shí)。雖然現(xiàn)有的在線知識(shí)蒸餾方法獲得了很好的性能,但是這些方法通常關(guān)注類別概率作為核心知識(shí)類型,忽略了有價(jià)值的特征表達(dá)信息。 本文展示了一個(gè)相互對(duì)比學(xué)習(xí)(Mutual Contrastive Learning,MCL)框架用于在線知識(shí)蒸餾。MCL 的核心思想是在一個(gè)網(wǎng)絡(luò)群體中利用在線的方式進(jìn)行對(duì)比分布的交互和遷移。MCL 可以聚合跨網(wǎng)絡(luò)的嵌入向量信息,同時(shí)最大化兩個(gè)網(wǎng)絡(luò)互信息的下界。這種做法可以使得每一個(gè)網(wǎng)絡(luò)可以從其他網(wǎng)絡(luò)中學(xué)習(xí)到額外的對(duì)比知識(shí),從而有利于學(xué)習(xí)到更好的特征表達(dá),提升視覺識(shí)別任務(wù)的性能。 相比于會(huì)議版本,期刊版本將 MCL 擴(kuò)展到中間特征層并且使用元優(yōu)化來訓(xùn)練自適應(yīng)的層匹配機(jī)制。除了最后一層,MCL 也在中間層進(jìn)行特征對(duì)比學(xué)習(xí),因此新方法命名為 Layer-wise MCL(L-MCL)。在圖像分類和其他視覺識(shí)別任務(wù)上展示了 L-MCL 相比于先進(jìn)在線知識(shí)蒸餾方法獲得了一致的提升。此優(yōu)勢表明了 L-MCL 引導(dǎo)網(wǎng)絡(luò)產(chǎn)生了更好的特征表達(dá)。
論文地址:
https://arxiv.org/pdf/2207.11518.pdf
代碼地址:https://github.com/winycg/L-MCL
引言
傳統(tǒng)的離線知識(shí)蒸餾需要預(yù)訓(xùn)練的教師模型對(duì)學(xué)生模型進(jìn)行監(jiān)督。在線知識(shí)蒸餾在無需教師的情況下同時(shí)聯(lián)合訓(xùn)練兩個(gè)以上的學(xué)生模型。深度相互學(xué)習(xí)(Deep Mutual Learning,DML)[2]表明了模型群體可以從相互學(xué)習(xí)類別概率分布(圖像分類任務(wù)最后的輸出預(yù)測)中獲益。每一個(gè)模型在同伴教授的模式下相比傳統(tǒng)的單獨(dú)訓(xùn)練效果更好。 現(xiàn)有的在線知識(shí)蒸餾方法通常僅僅關(guān)注結(jié)果驅(qū)動(dòng)的蒸餾,但是忽略了在線蒸餾特征方面的應(yīng)用。雖然先前的 AFD [3]嘗試通過在線的方式在多個(gè)網(wǎng)絡(luò)間對(duì)齊中間特征圖,Zhang 等人[2]指出這種做法會(huì)減少群體多樣性,降低相互學(xué)習(xí)能力。為了學(xué)習(xí)更有意義的特征嵌入,我們認(rèn)為一個(gè)更好的方式是從視覺表征學(xué)習(xí)角度的對(duì)比學(xué)習(xí)。
方法
2.1. 相互對(duì)比學(xué)習(xí)MCL(AAAI-2022)

▲ 圖2. 相互對(duì)比學(xué)習(xí)整體示意圖
2.1.1 傳統(tǒng)對(duì)比學(xué)習(xí)(Vanilla Contrastive Learning,VCL) 為了便于描述,本方法將 anchor 樣本向量表示為 , 正樣本向量表示為 和 個(gè)負(fù)樣本向量表達(dá)為。 表示向量產(chǎn)生自網(wǎng)絡(luò) 。這里,特征向量通過 標(biāo)準(zhǔn)化進(jìn)行預(yù)處理。使用基于 InfoNCE 的交叉熵作為對(duì)比誤差:


2.1.3 基于在線相互遷移的軟對(duì)比學(xué)習(xí) 收到深度相互學(xué)習(xí)(Deep Mutual Learning,DML)[1] 的啟發(fā),本方法利用 KL 散度來對(duì)齊網(wǎng)絡(luò)間的對(duì)比分布,根據(jù)本文提出的兩種對(duì)比學(xué)習(xí)方法 VCL 和 ICL 來進(jìn)行對(duì)比分布的雙向遷移:
2.1.3.1 Soft VCL: 對(duì)于產(chǎn)生 的分布 來說,其監(jiān)督信號(hào)是其他網(wǎng)絡(luò)產(chǎn)生的分布,利用 KL 散度使得 與其他分布接近:

2.2.2 訓(xùn)練元網(wǎng)絡(luò) 2.2.2.1 交叉熵任務(wù)誤差 使用交叉熵誤差訓(xùn)練 個(gè)網(wǎng)絡(luò):

2.2.2.3 元網(wǎng)絡(luò) 結(jié)構(gòu)元網(wǎng)絡(luò)包含了兩個(gè)線性轉(zhuǎn)換層 和 ,來對(duì)輸入的特征向量 進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換之后,特征向量通過 正則化 來進(jìn)行標(biāo)準(zhǔn)化。受到自注意力機(jī)制的啟發(fā),本文利用點(diǎn)乘得到匹配特征的相似性,從而衡量匹配層的相關(guān)性,然后引入 sigmoid 激活函數(shù) 來將輸出值縮放到 作為層匹配權(quán)重 。整體的過程被規(guī)則化為:

實(shí)驗(yàn)
在 ImageNet 上的實(shí)驗(yàn)結(jié)果如下所示,表 1 和表 2 分別展示了兩個(gè)同構(gòu)和異構(gòu)網(wǎng)絡(luò)利用相互對(duì)比學(xué)習(xí)的實(shí)驗(yàn)結(jié)果。

▲ 表3. 通過在線蒸餾的預(yù)訓(xùn)練網(wǎng)絡(luò)遷移到下游的目標(biāo)檢測和與實(shí)例分割的實(shí)驗(yàn)

參考文獻(xiàn)

原文標(biāo)題:TPAMI 2023 | 用于視覺識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2922文章
45692瀏覽量
385713
原文標(biāo)題:TPAMI 2023 | 用于視覺識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于LockAI視覺識(shí)別模塊:C++圖像采集例程

大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法
開源項(xiàng)目 ! 利用邊緣計(jì)算打造便攜式視覺識(shí)別系統(tǒng)
ASR與傳統(tǒng)語音識(shí)別的區(qū)別
AI干貨補(bǔ)給站 | 深度學(xué)習(xí)與機(jī)器視覺的融合探索

使用 TMP1826 嵌入式 EEPROM 替換用于模塊識(shí)別的外部存儲(chǔ)器

評(píng)論