在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新的輕量級視覺Transformer

CVer ? 來源:CVHub ? 作者:CVHub ? 2022-12-19 14:00 ? 次閱讀

Introduction

隨著 ViT 的出現,Transformer 模型在計算機視覺領域遍地開花,一層激起一層浪。雖然精度很高,但被人廣為詬病的依舊是它的效率問題,說人話就是這東西壓根不好部署在移動端。

隨后,有許多研究人員提出了很多解決方案來加速注意力機制,例如早先蘋果提出的 Mobile-Former 以及前段時間的 EdgeNeXt,均是針對移動端設計的。

本文的思路也很簡單,就是仿造 CNNs 圈子中的移動端之王—— MobileNet 來進行一系列的設計和優(yōu)化。對于端側部署來講,模型的參數量(例如 Flash 大小)和延遲對資源受限型的硬件來說至關重要。因此,作者結合了細粒度聯合搜索策略,提出了一種具備低延遲和大小的高效網絡——EfficientFormerV2 ,該網絡在同等量級參數量和延遲下比 MobileNetV2 可以高出4個百分點(ImageNet驗證集)。

28605084-7f5c-11ed-8abf-dac502259ad0.pngComparison of model size, speed, and performance

上圖所示模型是在 ImageNet-1K 上進行訓練所獲得的 Top-1 精度。延遲是在 iPhone 12(iOS 16)上進行測量的。每個圓圈的面積與參數數量(模型大?。┏烧???梢钥闯?,EfficientFormerV2 在模型更小和推理速度更快的情況下獲得了更高的性能。

Framework

先來看下整體的網絡長什么樣子:

288aa5a0-7f5c-11ed-8abf-dac502259ad0.pngOverall

既然都叫 EfficientFormerV2,那必然是在上一版的基礎上改進了,如圖(a)所示。沒什么特別新奇的,一個很常規(guī)的 ViT 型架構。下面的圖表是作者統計的實驗改進結果:

29266526-7f5c-11ed-8abf-dac502259ad0.pngNumber of parameters, latency, and performance for various design choices

基于整體架構圖和上述表格,讓我們逐步拆解看看究竟做了哪些改進。

Token Mixers vs. Feed Forward Network

通常來說,結合局部信息可以有效提高性能,同時使 ViTs 對明確的位置嵌入缺失表現得更加穩(wěn)健。PoolFormerEfficientFormer 中都使用了 3×3 的平均池化層(如圖 2(a)所示)作為局部的Token Mixers。采用相同卷積核大小的深度可分離卷積(DWCONV)替換這些層不會帶來延遲開銷,同時性能也能提高 **0.6%**,參數量僅微漲 0.02M。此外,同 NASVit,作者也在 ViTs 的前饋網絡(FFN)中注入了局部信息建模層,這也有益于提高性能。

這里,作者直接將原來的 Pooling 層刪掉了(下采樣越大,理論感受野越大),而是直接替換成 BottleNeck 的形式,先用 1×1 卷積降維壓縮,再嵌入 3×3 的深度可分離卷積提取局部信息,最后再通過 1×1 的卷積升維。這樣做的一個好處是,這種修改有利于后續(xù)直接才用超參搜索技術搜索出具體模塊數量的網絡深度,以便在網絡的后期階段中提取局部和全局信息。

Search Space Refinement

通過調整網絡的深度即每個階段中的塊數和寬度即通道數,可以發(fā)現,更深和更窄的網絡可以帶來:

  • 更好的準確性(0.2% 的性能提升)
  • 更少的參數(0.13M 的參數壓縮)
  • 更低的延遲(0.1ms 的推理加速)

同時將這個修改的網絡設置為后續(xù) NAS 搜素的 Baseline.

MHSA Improvements

一般的 Transformer 模塊都會包含兩個組件,即多頭注意力 MHSA 和全連接層 FFN. 作者隨后便研究了如何在不增加模型大小和延遲的情況下提高注意模塊性能的技術。

首先,通過 3×3 的卷積將局部信息融入到 Value 矩陣中,這一步跟 NASVitInception transformer 一樣。

其次,在 Head 維度之間添加 FC 層(就圖中標識的Talking Head),增強不同頭之間的信息交互。

通過這些修改,可以發(fā)現性能進一步提高了,與基線模型相比,準確度達到了 80.8%,同時參數和延遲也基本保持一致。

Attention on Higher Resolution

加入注意力機制普遍都是能夠提升性能的。然而,將它應用于高分辨率特征會降低端側的推理效率,因為它具有與空間分辨率成平方關系的時間復雜度。因此,作者僅在最后的 1/32 的空間分辨率下使用,而對于倒數的第二階段即 4 倍下采樣提出了另外一種 MHSA,這有助于將準確率提高了 0.9% 同時加快推理效率。

先前的解決方案,例如 Cswin transformerSwin transformer 都是采用基于滑動窗口的方式去壓縮特征維度,又或者像 Next-vit 一樣直接將 KeysValues 矩陣進行下采樣壓縮,這些方法對于移動端部署并不是一個最佳的選擇。這里也不難理解,以 Swin transformer 為例,它在每個 stage 都需要進行復雜的窗口劃分和重新排序,所以這種基于 windows 的注意力是很難在移動設備上加速優(yōu)化的。而對于 Next-vit 來說表面上看雖然進行了壓縮,但整個 KeyValue 矩陣依舊需要全分辨率查詢矩陣(Query)來保持注意力矩陣乘法后的輸出分辨率。

本文方法的解決方案可以參考圖(d)和(e),整體思路是采用一個帶步長的注意力,實現上就是將所有的 QKV 均下采樣到固定的空間分辨率(這里是 1/32),并將注意力的輸出復原到原始分辨率以喂入下一層。(⊙o⊙)…,有點類似于把瓶頸層的思路又搬過來套。

Attention Downsampling

以往的下采樣方式大都是采用帶步長的卷積或者池化層直接進行的。不過最近也有一部分工作在探討 Transformer 模塊內部的下采樣方式,如 LeViTUniNet 提出通過注意力機制將特征分辨率減半,從而更好的整合全局上下文來進感知下采樣。具體的做法也就是將 Query 中的 Token 數量減半,從而對注意力模塊的輸出進行壓縮。

說到這里不經意間有個疑問,Token 數量減少多少才是合適?況且,如果我們直接就對所有的查詢矩陣進行降采樣的話,這對于較前的 stage 的特征提取是不利的,因為網絡的淺層更多的是提取諸如紋理、顏色、邊緣等 low-level 的信息,因此從經驗上來看是需要保持更高分辨率的。

作者的方法是提出一種結合局部和全局上下文融合的組合策略,如上圖(f)所示。為了得到下采樣的查詢,采用池化層作為靜態(tài)局部下采樣,而 3×3 DWCONV 則作為可學習的局部下采樣,并將結果拼接起來并投影到查詢矩陣中。此外,注意力下采樣模塊殘差連接到一個帶步長的卷積以形成局部-全局方式,類似于下采樣瓶頸 或倒置瓶頸層。

Super-Network-Search

上面定義完基礎的網絡架構后,作者又進一步的應用了一種細粒度聯合搜索策略,具體算法步驟如下所示:

2946b952-7f5c-11ed-8abf-dac502259ad0.pngNAS

整體架構沿用的是超網的結構。

Conclusion

在這項工作中,作者全面研究混合視覺主干并驗證對于端側更加友好的網絡結構設計。此外,基于確定的網絡結構,進一步提出了在大小和速度上的細粒度聯合搜索,并獲得了輕量級和推理速度超快的 EfficientFormerV2 模型。


		
			

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    9

    文章

    1706

    瀏覽量

    46612
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6424

原文標題:更快更強!EfficientFormerV2來了!一種新的輕量級視覺Transformer

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一種新型激光雷達慣性視覺里程計系統介紹

    針對具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級且穩(wěn)健的激光雷達-慣性-視覺里程計系統。通過采用諸如利用深度與激光雷達點云關聯實現特征的均勻深度分布等先進技術,以及利用
    的頭像 發(fā)表于 04-28 11:18 ?276次閱讀
    <b class='flag-5'>一種</b>新型激光雷達慣性<b class='flag-5'>視覺</b>里程計系統介紹

    一種新的通用視覺主干模型Vision Mamba

    CNN和Transformer常作為深度學習模型的首選基礎模塊,被應用于各種場景,如文本、視覺、語音信號處理及其各種下游應用。然而這兩個基礎模塊都有著其固有而互補的缺陷:CNN具有固定大小窗口的卷積
    的頭像 發(fā)表于 01-06 09:55 ?1087次閱讀
    <b class='flag-5'>一種</b>新的通用<b class='flag-5'>視覺</b>主干模型Vision Mamba

    華為Flexus云服務器搭建SamWaf開源輕量級網站防火墻

    在當今數字化高速發(fā)展的時代,網絡安全問題日益凸顯。為了保障網站的穩(wěn)定運行和數據安全,我們可以借助華為 Flexus 云服務器搭建 SamWaf 開源輕量級網站防火墻。這不僅是次技術的挑戰(zhàn),更是為網站筑牢安全防線的重要舉措。
    的頭像 發(fā)表于 12-29 16:59 ?666次閱讀
    華為Flexus云服務器搭建SamWaf開源<b class='flag-5'>輕量級</b>網站防火墻

    EEPROM輕量級的簡易類文件的數據讀寫庫:EEPROMFS

    小。 這里就給大家分享款EEPROM輕量級的簡易類文件的數據讀寫庫:EEPROMFS 1 關于EEPROMFS EEPROMFS,基于EEPROM的簡易類文件的數據讀寫庫,方便做動態(tài)功能增減時參數管理
    的頭像 發(fā)表于 11-15 16:31 ?1094次閱讀
    EEPROM<b class='flag-5'>輕量級</b>的簡易類文件的數據讀寫庫:EEPROMFS

    自動駕駛中直說的BEV+Transformer到底是個啥?

    (Bird’s Eye View)+Transformer”是兩個方向的技術,BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經網絡模型,BEV+
    的頭像 發(fā)表于 11-07 11:19 ?1272次閱讀
    自動駕駛中<b class='flag-5'>一</b>直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    輕量級多級菜單控制框架

    輕量級菜單框架(C語言) 作為嵌入式軟件開發(fā),可能經常會使用命令行或者顯示屏等設備實現人機交互的功能,功能中通常情況都包含 UI 菜單設計;很多開發(fā)人員都會有自己的菜單框架模塊,防止重復造輪子,網上
    發(fā)表于 10-12 09:36

    為了學習內核開發(fā),大佬手搓了輕量級操作系統YiYiYa OS

    RISC-V內核芯片,所有移植教程及方法都在Github上公開。 gmenu2x:輕量級菜單桌面 gnuboy模擬器 系統架構 架構從上而下分層設計,同層從左到右為模塊。越下層與用戶離得遠,就會變得越
    發(fā)表于 08-30 14:57

    電裝與京瓷合作開展輕量級太陽能發(fā)電系統實證實驗

    株式會社電裝(以下簡稱電裝)與京瓷株式會社(以下簡稱京瓷)共同宣布,為提高現有工廠自發(fā)電率,將從2024年10月到2025年9月在電裝的西尾工廠進行輕量級太陽能發(fā)電系統的實證實驗。
    的頭像 發(fā)表于 08-16 16:36 ?807次閱讀

    國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    本篇測評由優(yōu)秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于芯馳D9360國產開發(fā)板)的TinyMaxi輕量級的神經網絡推理庫方案測試。 算力測試TinyMaix
    發(fā)表于 08-09 18:26

    國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    D9360國產開發(fā)板)的TinyMaxi輕量級的神經網絡推理庫方案測試。 算力測試 TinyMaix 是面向單片機的超輕量級的神經網絡推理庫,即 TinyML 推理庫,可以讓你在任意單片機上運行輕量級深度
    發(fā)表于 08-07 18:06

    基于Openharmony輕量級操作系統的分布式數據管理開發(fā)案例

    實驗內容本例程演示如何在小凌派-RK2206開發(fā)板上使用OpenHarmony輕量級操作系統進行KvStore(即分布式數據管理)數據讀寫。例程:(1)創(chuàng)建兩個線程,個負責寫入KvStore存儲
    的頭像 發(fā)表于 08-07 08:23 ?1548次閱讀
    基于Openharmony<b class='flag-5'>輕量級</b>操作系統的分布式數據管理開發(fā)案例

    鴻蒙語言基礎類庫:ohos.data.storage 輕量級存儲

    輕量級存儲為應用提供key-value鍵值型的文件數據處理能力,支持應用對數據進行輕量級存儲及查詢。數據存儲形式為鍵值對,鍵的類型為字符串型,值的存儲數據類型包括數字型、字符型、布爾型。
    的頭像 發(fā)表于 07-15 18:21 ?1312次閱讀

    國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    本篇測評由與非網的優(yōu)秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于芯馳D9360國產開發(fā)板)的TinyMaxi輕量級的神經網絡推理庫方案測試。算力測試
    的頭像 發(fā)表于 07-05 08:02 ?2232次閱讀
    國產芯上運行TinyMaxi<b class='flag-5'>輕量級</b>的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    蘋果輕量級AR眼鏡研發(fā)持續(xù)進行,發(fā)布日期仍成謎

    在科技界的風云變幻中,蘋果公司始終以其獨特的創(chuàng)新力和對細節(jié)的極致追求,引領著行業(yè)的潮流。而最近,這家全球知名的科技公司又傳來了新的消息,那就是它正在研發(fā)款名為“Apple Glass”的輕量級增強
    的頭像 發(fā)表于 06-24 16:07 ?1023次閱讀

    消息稱蘋果正在研發(fā)輕量級AR眼鏡

    在科技巨頭們競相探索未來穿戴設備的浪潮中,蘋果公司的則消息引起了業(yè)界的廣泛關注。據多家媒體報道,蘋果正在秘密研發(fā)款名為“Apple Glass”的輕量級增強現實(AR)眼鏡,這款眼鏡旨在為用戶
    的頭像 發(fā)表于 06-24 11:34 ?1002次閱讀
    主站蜘蛛池模板: 天天干天天射天天舔 | 色综合天天网 | 欧美日韩中文字幕在线 | 26uuu欧美性色 | 午夜性刺激免费视频观看不卡专区 | 天天操天天艹 | 午夜色网站 | 嫩草影院播放地址一二三 | 丁香六月婷婷精品免费观看 | 五月婷婷综合激情 | 亚洲成人在线电影 | 久久国产精品免费网站 | 欧美色惰| 日本黄色网址免费 | 一级毛片aaa片免费观看 | 一区二区三区四区视频在线观看 | 性国产精品 | 日本特级黄色大片 | 99精品视频在线播放2 | 一级毛片女人喷潮 | 久久精品视频9 | 国产在线a不卡免费视频 | 午夜看片网| 22eee在线播放成人免费视频 | 中文天堂在线视频 | 五月婷婷七月丁香 | 婷婷色九月 | 日韩在线视频www色 日韩在线视频免费观看 | 国产区一区二区三 | 午夜视频在线观看免费观看在线观看 | 久久毛片视频 | 日本黄色免费在线观看 | 婷婷的五月 | 4虎最新地址| 色avav| 奇米色影院 | 黄视频网站免费观看 | 亚洲入口| 天天拍天天射 | 一区二区不卡视频 | 四虎永久在线精品国产 |