最好看的小说排行,兽性总裁的爱奴,君子以泽

自知識蒸餾方法在2014年被首次提出以來，其開始廣泛被應用于模型壓縮領域。在更強大教師模型輔助監督信息的幫助下，學生模型往往能夠實現比直接訓練更高的精度。然而，現有的知識蒸餾相關研究只考慮了同架構模型的蒸餾方法，而忽略了教師模型與學生模型異構的情形。例如，最先進的MLP模型在ImageNet上僅能達到83%的精度，無法獲取精度更高的同架構教師模型以使用知識蒸餾方法進一步提高MLP模型的精度。因此，對異構模型知識蒸餾的研究具有實際應用意義。

本文的研究者們分析了針對異構模型（CNN，ViT，MLP）特征的差異性，指出特征中模型架構相關的信息會阻礙知識蒸餾的過程。基于此觀察，研究者們提出了名為OFAKD異構模型知識蒸餾方法：該方法將特征映射到架構無關的統一空間進行異構模型蒸餾，并使用一種能夠自適應增強目標類別信息的損失函數。在CIFAR-100和ImageNet數據集上，該方法實現了對現有同架構知識蒸餾方法的超越。

異構模型間的特征差異

圖1 異構模型學習到的特征對比

相比于僅使用logits的蒸餾方法，同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構模型的情況下，由于不同架構模型對特征的不同學習偏好，它們的中間層特征往往具有較大的差異，直接將針對同架構模型涉及的蒸餾方法遷移到異構模型會導致性能下降。

通用的異構模型蒸餾方法

圖2 異構模型的知識蒸餾方法

為了在異構模型蒸餾過程中利用中間層特征，需要排除特征中模型架構相關信息的干擾，僅保留任務相關信息。基于此，研究者們提出通過將學生模型的中間層特征映射到logits空間，實現對模型架構相關信息的過濾。此外通過在原始基于KL散度的蒸餾損失函數中引入一項額外的調節系數，修正后的損失函數能夠實現對目標類別信息的自適應增強，進一步減緩異構模型蒸餾時無關信息的干擾。