在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

任意模型都能蒸餾!華為諾亞提出異構模型的知識蒸餾方法

CVer ? 來源:CVer ? 2023-11-01 16:18 ? 次閱讀

自知識蒸餾方法在2014年被首次提出以來,其開始廣泛被應用于模型壓縮領域。在更強大教師模型輔助監督信息的幫助下,學生模型往往能夠實現比直接訓練更高的精度。然而,現有的知識蒸餾相關研究只考慮了同架構模型的蒸餾方法,而忽略了教師模型與學生模型異構的情形。例如,最先進的MLP模型在ImageNet上僅能達到83%的精度,無法獲取精度更高的同架構教師模型以使用知識蒸餾方法進一步提高MLP模型的精度。因此,對異構模型知識蒸餾的研究具有實際應用意義。

本文的研究者們分析了針對異構模型(CNN,ViT,MLP)特征的差異性,指出特征中模型架構相關的信息會阻礙知識蒸餾的過程。基于此觀察,研究者們提出了名為OFAKD異構模型知識蒸餾方法:該方法將特征映射到架構無關的統一空間進行異構模型蒸餾,并使用一種能夠自適應增強目標類別信息的損失函數。在CIFAR-100和ImageNet數據集上,該方法實現了對現有同架構知識蒸餾方法的超越。

異構模型間的特征差異

018b8992-785d-11ee-939d-92fbcf53809c.jpg

圖1 異構模型學習到的特征對比

相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構模型的情況下,由于不同架構模型對特征的不同學習偏好,它們的中間層特征往往具有較大的差異,直接將針對同架構模型涉及的蒸餾方法遷移到異構模型會導致性能下降。

通用的異構模型蒸餾方法

019747dc-785d-11ee-939d-92fbcf53809c.jpg

圖2 異構模型的知識蒸餾方法

為了在異構模型蒸餾過程中利用中間層特征,需要排除特征中模型架構相關信息的干擾,僅保留任務相關信息。基于此,研究者們提出通過將學生模型的中間層特征映射到logits空間,實現對模型架構相關信息的過濾。此外通過在原始基于KL散度的蒸餾損失函數中引入一項額外的調節系數,修正后的損失函數能夠實現對目標類別信息的自適應增強,進一步減緩異構模型蒸餾時無關信息的干擾。

01a4a6ac-785d-11ee-939d-92fbcf53809c.jpg

圖3 原始蒸餾損失與改進后蒸餾損失的對比

實驗結果

01aeca88-785d-11ee-939d-92fbcf53809c.jpg

圖4 在ImageNet上的異構模型蒸餾結果

上表展示了在ImageNet上的異構蒸餾結果。在所有架構的六種可能異構組合中,本文OFAKD方法都得到了超越現有方法結果。

01c946ec-785d-11ee-939d-92fbcf53809c.jpg

圖5 不同值對結果的影響

上表在ImageNet上比較了不同的值設置對結果的影響。可以看出,通過選取合適的值設置,改進后的蒸餾損失函數能得到超越原始蒸餾損失函數的結果。

01d7e062-785d-11ee-939d-92fbcf53809c.png

圖6 在ImageNet上的同構模型蒸餾結果

本文在ImageNet上與傳統同構模型蒸餾方法進行了對比。在常見的ResNet34和ResNet18同構教師學生模型組合上,OFAKD也具有與現有SOTA方法相當的表現。

01e2a902-785d-11ee-939d-92fbcf53809c.jpg

圖7 MLP學生模型的蒸餾結果

最后,本文比較了文首提到的MLP作為學生模型時的蒸餾結果。通過選用ViT架構的BEiT v2-base作為教師模型,僅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳結果。

結論

本文研究了異構模型之間的知識蒸餾方法,通過將學生模型中間層特征映射到logits空間來擬合教師模型最終輸出,并使用在原始知識蒸餾損失函數基礎上改進而來的自適應目標信息增強損失,提出的OFAKD方法在多種數據集和教師學生模型組合上實現了對現有方法的超越,擴展了知識蒸餾的應用范圍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3500

    瀏覽量

    50137
  • 架構
    +關注

    關注

    1

    文章

    528

    瀏覽量

    25893

原文標題:NeurIPS 2023 | 任意模型都能蒸餾!華為諾亞提出異構模型的知識蒸餾方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    異構模型的配電網信息交互

    為消除模型異構、跟進系統更新和提高信息交互能力,實現智能配電網異構系統間的信息集成,從模型提出異構
    發表于 01-23 10:48 ?4次下載
    <b class='flag-5'>異構模型</b>的配電網信息交互

    微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

    近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數來最小化教師模型與學生模型距離的知識
    的頭像 發表于 11-24 09:48 ?1886次閱讀

    深度學習:知識蒸餾的全過程

    知識蒸餾的核心思想是通過遷移知識,從而通過訓練好的大模型得到更加適合推理的小模型。本文作者介紹了知識
    的頭像 發表于 01-07 14:36 ?6466次閱讀

    針對遙感圖像場景分類的多粒度特征蒸餾方法

    嵌入式設備上的應用。提出一種針對遙感圖像場景分類的多粒度特征蒸餾方法,將深度網絡不同階段的特征與最終的類別概率同時作為淺層模型的監督信號,使得淺層
    發表于 03-11 17:18 ?20次下載
    針對遙感圖像場景分類的多粒度特征<b class='flag-5'>蒸餾</b><b class='flag-5'>方法</b>

    基于知識蒸餾的惡意代碼家族檢測方法研究綜述

    近年來,惡意代碼變種層出不窮,惡意軟件更具隱蔽性和持久性,亟需快速有效的檢測方法來識別惡意樣本。針對現文中提出了一種基于知識蒸餾的惡意代碼家族檢測
    發表于 04-20 14:49 ?9次下載
    基于<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>的惡意代碼家族檢測<b class='flag-5'>方法</b>研究綜述

    若干蒸餾方法之間的細節以及差異

    以往的知識蒸餾雖然可以有效的壓縮模型尺寸,但很難將teacher模型的能力蒸餾到一個更小詞表的student
    的頭像 發表于 05-12 11:39 ?1736次閱讀

    關于快速知識蒸餾的視覺框架

    知識蒸餾框架包含了一個預訓練好的 teacher 模型蒸餾過程權重固定),和一個待學習的 student 模型, teacher 用來產生
    的頭像 發表于 08-31 10:13 ?1132次閱讀

    南開/南理工/曠視提出CTKD:動態溫度超參蒸餾方法

    一直保持靜態固定的溫度超參對學生模型來說不是最優的。基于課程學習的思想,人類在學習過程中都是由簡單到困難的學習知識。那么在蒸餾的過程中,我們也會希望模型一開始
    的頭像 發表于 01-04 14:49 ?1135次閱讀

    如何度量知識蒸餾中不同數據增強方法的好壞?

    知識蒸餾(knowledge distillation,KD)是一種通用神經網絡訓練方法,它使用大的teacher模型來 “教” student模型
    的頭像 發表于 02-25 15:41 ?1236次閱讀

    蒸餾也能Step-by-Step:新方法讓小模型也能媲美2000倍體量大模型

    為了解決大型模型的這個問題,部署者往往采用小一些的特定模型來替代。這些小一點的模型用常見范式 —— 微調或是蒸餾來進行訓練。微調使用下游的人類注釋數據升級一個預訓練過的小
    的頭像 發表于 05-15 09:35 ?871次閱讀
    <b class='flag-5'>蒸餾</b>也能Step-by-Step:新<b class='flag-5'>方法</b>讓小<b class='flag-5'>模型</b>也能媲美2000倍體量大<b class='flag-5'>模型</b>

    如何將ChatGPT的能力蒸餾到另一個大模型

    Language Model》 提出了一個將知識從一個復雜的、閉源的大型語言模型(LLM)轉移到一個緊湊的、開源的LLM的做法,其中加入了數據反饋的
    的頭像 發表于 06-12 15:06 ?1852次閱讀
    如何將ChatGPT的能力<b class='flag-5'>蒸餾</b>到另一個大<b class='flag-5'>模型</b>

    TPAMI 2023 | 用于視覺識別的相互對比學習在線知識蒸餾

    representation learning [1] 的擴展版本,論文講解鏈接為: https://zhuanlan.zhihu.com/p/574701719 摘要: 無需教師的在線知識蒸餾聯合地訓練多個學生模型并且相互地
    的頭像 發表于 09-19 10:00 ?1228次閱讀
    TPAMI 2023 | 用于視覺識別的相互對比學習在線<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>

    大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

    的機制,應用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結構。 為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾
    的頭像 發表于 01-21 09:45 ?585次閱讀

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    近日,摩爾線程智能科技(北京)有限責任公司在其官方渠道發布了一則重要消息,宣布公司已經成功實現了對DeepSeek蒸餾模型推理服務的部署。這一技術突破,標志著摩爾線程在人工智能領域邁出了堅實的一步
    的頭像 發表于 02-06 13:49 ?748次閱讀

    IBM在watsonx.ai平臺推出DeepSeek R1蒸餾模型

    ,進一步增強企業在安全、治理以及規模化部署方面的能力。 DeepSeek R1是IBM在AI領域的一項重要創新,它采用了蒸餾模型技術,能夠在保持模型性能的同時,顯著減小模型體積,提高運
    的頭像 發表于 02-14 10:21 ?480次閱讀
    主站蜘蛛池模板: 欧美成人伊人久久综合网 | 黄色v片| 国产精品9999 | 女人张开腿让男人做爽爽 | 欧美成人3d动漫在线播放网站 | 国产农村一级特黄α真人毛片 | 国产小视频在线播放 | 高清国产亚洲va精品 | 国产女人小便视频 | 亚洲第一福利网站 | 奇米第四777| 欧美大尺度aaa级毛片 | 成 人 在 线 免费 8888 www | 日本不卡视频在线播放 | 日本最黄视频 | 九九久久九九久久 | 五月天婷婷免费观看视频在线 | 激情亚洲婷婷 | 女人张开腿等男人桶免费视频 | 成人三级影院 | 亚洲二区在线观看 | 亚洲国产精品久久久久婷婷软件 | 久久成人亚洲 | 天天天天操 | 天天操天天摸天天射 | 日韩美女奶水喂男人在线观看 | 福利一区二区在线观看 | 成人国产永久福利看片 | 婷婷丁香激情 | 国内自拍露脸普通话对白在线 | 国产免费高清视频在线观看不卡 | 快色视频免费观看 | 永久黄网站色视频免费观看99 | 中国三级视频 | 两性色午夜视频免费国产 | 一区二区免费在线观看 | 色天使色婷婷丁香久久综合 | h视频免费 | 在线观看免费午夜大片 | 狠狠操亚洲 | 小雪被老外黑人撑破了视频 |