在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-07-10 10:05 ? 次閱讀

本文提出了 SAN 框架,用于開放詞匯語義分割。該框架成功地利用了凍結的 CLIP 模型的特征以及端到端的流程,并最大化地采用凍結的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

簡介本文介紹了一種名為Side Adapter Network (SAN)的新框架,用于基于預訓練的視覺語言模型進行開放式語義分割。該方法將語義分割任務建模為區域識別問題,并通過附加一個側面的可學習網絡來實現。該網絡可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,從而使其非常輕便。整個網絡可以進行端到端的訓練,使側面網絡適應凍結的CLIP模型,從而使預測的掩碼提案具有CLIP感知能力。作者在多個語義分割基準測試上評估了該方法,并表明其速度快、準確度高,只增加了少量可訓練參數,在一系列數據集上相較于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望該方法能夠成為一個baseline,并幫助未來的開放式語義分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

論文鏈接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png ?cc5b99ca-1ec4-11ee-962d-dac502259ad0.png ?

Introduction

作者首先討論了語義分割的概念和現代語義分割方法的限制,以及如何將大規模視覺語言模型應用于開放式語義分割。現代語義分割方法通常依賴于大量標記數據,但數據集通常只包含數十到數百個類別,昂貴的數據收集和注釋限制了我們進一步擴展類別的可能性。最近,大規模視覺語言模型(如CLIP)的出現促進了零樣本學習的發展,這也鼓勵我們探索其在語義分割中的應用。然而,將CLIP模型應用于開放式語義分割十分困難,因為CLIP模型是通過圖像級對比學習訓練的,其學習到的表示缺乏像素級別的識別能力,而這種能力在語義分割中是必需的。解決這個問題的一個方法是在分割數據集上微調模型,但是分割數據集的數據規模遠遠小于視覺語言預訓練數據集,因此微調模型在開放式識別方面的能力通常會受到影響。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

為了充分發揮視覺-語言預訓練模型在開放詞匯語義分割中的能力。作者提出了一種名為Side Adapter Network(SAN)的新框架。由于端到端訓練,SAN的掩膜預測和分類是基于CLIP輔助的。整個模型十分輕量化。SAN有兩個分支:一個用于預測掩膜,另一個用于預測應用于CLIP的注意力偏好,以進行掩膜類別識別。作者表明,這種分離的設計可以提高分割性能。此外,作者還提出了一種單向前設計,以最小化CLIP的成本:將淺層CLIP塊的特征融合到SAN中,將其他更深層次的塊與注意偏置結合以進行掩膜識別。由于訓練是端到端的,SAN可以最大程度地適應凍結的CLIP模型。作者的研究基于官方發布的ViT CLIP模型,采用Visual Transformer實現。準確的語義分割需要高分辨率圖像,但發布的ViT CLIP模型設計用于低分辨率圖像(如),直接應用于高分辨率圖像會導致性能下降。為了緩解輸入分辨率的沖突,作者在CLIP模型中使用低分辨率圖像,在SAN中使用高分辨率圖像。作者表明,這種不對稱的輸入分辨率非常有效。此外,作者還探討了僅微調ViT模型的位置嵌入,并取得了改進。作者在各種基準測試中評估了他們的方法。與之前的方法相比,作者的方法在所有基準測試中都取得了最好的性能。作者的方法只有8.4M可訓練參數和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png ?Method

3.1 基礎架構

SAN的詳細架構如下圖所示。輸入圖像被分成個patch。首先通過一個線性層將圖片轉化為Visual Tokens。這些Visual Tokens會與個可學習的Query Tokens拼接起來,并送到后續的Transformer Layer中。每個Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例圖片SAN的輸出由兩部分構成:掩膜提議(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提議中,Query Tokens和Visual Tokens首先通過兩個單獨的3層MLP,投影成256維,我們將投影的Query Tokens表示其中是Query Tokens的數量,投影的Visual Tokens表示為,其中和是輸入圖像的高度和寬度。然后,通過和的內積生成掩膜: 生成注意力偏好的過程類似于掩膜提議。Query Tokens和Visual Tokens也通過3層MLP進行投影,表示,其中是CLIP模型的注意頭數。通過對和進行內積,我們得到注意力偏好: 此外,如果需要,注意力偏好還將進一步調整其中和是CLIP中注意力映射的高度和寬度。在實踐中,和可以共享,并且注意力偏好將應用于CLIP的多個自注意層,即偏好將在不同的自注意層中使用。這樣的雙輸出設計的動機很直觀:作者認為用于在CLIP中識別掩模的感興趣區域可能與掩模區域本身不同。作者在后文的對比實驗中也證實了這個想法。

3.2掩膜預測

原始的CLIP模型只能通過標記進行圖像級別的識別。作者工作在不改變CLIP模型參數的情況下,嘗試通過指導標記的注意力圖在感興趣區域上實現精確的掩膜識別。為了實現這個目標,作者創建了一組名為標記(仿照Maskclip,如下圖)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png這些標記單向地通過Visual Tokens進行更新,但是Visual Tokens和標記都不受的影響。在更新標記時,預測的注意力偏差被添加到注意力矩陣中: 其中表示層編號,表示第個注意力頭的Query 和Key,Visual Tokens 的Key。,和分別是Query、Key和Value的編碼權重。通過注意力偏好,標記的特征逐漸演變以適應掩膜預測,并且可以通過比較標記和類名CLIP文本編碼之間的距離/相似性來輕松獲得掩膜的類別預測,表示為,其中是類別數。

3.3分割結果生成

使用上文提到的掩膜和類別預測,我們可以計算語義分割圖: 其中。這是標準的語義分割輸出,因此與主流的語義分割評估兼容。在訓練,我們通過Dice Loss 和binary cross-entropy loss 來監督掩膜生成,通過cross-entropy loss 來監督掩膜識別。總損失為: 其中作者使用的損失權重,,分別為5.0,5.0和2.0。通過端到端的訓練,SAN可以最大程度地適應凍結的CLIP模型,并得到很好的結果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png ?

討論

具體來說,作者提出了一種全新的端到端架構,以極小的參數量在多個數據集上取得了SOTA效果。SAN的主要特點如下:

  • SAN中沿用了MaskCLIP得出的結論:在下游數據集上微調會破壞CLIP優秀的特征空間。因此在SAN的設計中,無需微調(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的開放詞匯能力。

  • 在凍結CLIP模型的同時,引入了額外的可編碼網絡,能夠根據下游任務數據集學習分割所需要的特征,彌補了CLIP模型對于位置信息的缺失。

  • 將語義分割任務分解為掩膜預測與類別預測兩個子任務。CLIP模型的開放識別能力不僅僅依賴于物體區域本身,也依賴于物體的上下文信息(Context Information)。這促使作者提出掩膜預測與類別預測解耦的雙輸出設計,下表顯示該設計可以進一步提升模型的預測精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png ?
  • 充分復用了CLIP模型的特征,大幅度降低所需的額外參數量的同時獲得最佳性能。下表展示了復用CLIP特征帶來的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png ? ?cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png ?結論作者在這項工作中提出了SAN框架,用于開放詞匯語義分割。該框架成功地利用了凍結的CLIP模型的特征以及端到端的流程,并最大化地采用凍結的CLIP模型。所提出的框架在五個語義分割基準測試中顯著優于以往的最先進方法,而且具有更少的可訓練參數和更少的計算成本。 ·


原文標題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2923

    文章

    45695

    瀏覽量

    385779

原文標題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    瑞芯微RK3568正式開放RISC-V核心啦,也支持非對稱AMP雙系統!

    在嵌入式系統的發展進程中,多核異構架構的出現為滿足復雜應用場景的需求提供了新的可能。其中,瑞芯微RK3568J國產平臺的非對稱AMP(Asymmetric Multi-Processing)架構
    的頭像 發表于 02-27 10:36 ?464次閱讀
    瑞芯微RK3568正式<b class='flag-5'>開放</b>RISC-V核心啦,也支持非對稱<b class='flag-5'>AMP</b>雙系統!

    電氣YU系列工業級連接器登場,解鎖USB&amp;amp;Type-C多模塊新體驗!

    近日,凌全新推出YU系列USB&amp;amp;Type-C多模塊工業級連接器,在功能上實現了全面升級。
    的頭像 發表于 12-18 09:46 ?371次閱讀

    北美運營商AT&amp;amp;amp;T認證中的VoLTE測試項

    北美運營商AT&amp;T的認證測試內容涵蓋了多個方面,以確保設備和服務的質量、兼容性以及用戶體驗。在AT&amp;T的認證測試中,VoLTE(VoiceoverLTE)測試項是一個重要的組成部分
    的頭像 發表于 12-06 16:52 ?450次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證中的VoLTE測試項

    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp;amp; 創意固定套件CLIP-A/CLIP-B

    本月的第三波新品上線了3款全新產品,涵蓋了多種需求和應用領域。從激發興趣和創意的PuzzleUnit,到多功能創意套件CLIP-A&;CLIP-B,每一款都為不同場景提供了創新解決方案。快來
    的頭像 發表于 11-16 01:07 ?290次閱讀
    新品 | 可拼接燈板矩陣 Puzzle Unit &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 創意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    北美運營商AT&amp;amp;amp;T認證的費用受哪些因素影響

    申請北美運營商AT&amp;T認證的價格因多種因素而異,包括產品類型、認證范圍、測試難度等。一般來說,申請AT&amp;T認證的費用可能相對較高,因為AT&amp;T作為北美地區的主要電信運營商,其
    的頭像 發表于 10-16 17:10 ?503次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證的費用受哪些因素影響

    onsemi LV/MV MOSFET 產品介紹 &amp;amp;amp; 行業應用

    01直播介紹直播時間2024/10/281430直播內容1.onsemiLV/MVMOSFET產品優勢&amp;市場地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發表于 10-13 08:06 ?764次閱讀
    onsemi LV/MV MOSFET 產品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業應用

    輕量級多級菜單控制框架

    輕量級菜單框架(C語言) 作為嵌入式軟件開發,可能經常會使用命令行或者顯示屏等設備實現人機交互的功能,功能中通常情況都包含 UI 菜單設計;很多開發人員都會有自己的菜單框架模塊,防止重復造輪子,網上
    發表于 10-12 09:36

    國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    本篇測評由優秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于芯馳D9360國產開發板)的TinyMaxi輕量級的神經網絡推理庫方案測試。 算力測試TinyMaix
    發表于 08-09 18:26

    國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板

    D9360國產開發板)的TinyMaxi輕量級的神經網絡推理庫方案測試。 算力測試 TinyMaix 是面向單片機的超輕量級的神經網絡推理庫,即 TinyML 推理庫,可以讓你在任意單片機上運行輕量級深度
    發表于 08-07 18:06

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫學圖像分析、機器人導航等。 一、圖像語義
    的頭像 發表于 07-17 09:56 ?748次閱讀

    圖像分割語義分割的區別與聯系

    圖像分割語義分割是計算機視覺領域中兩個重要的概念,它們在圖像處理和分析中發揮著關鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區
    的頭像 發表于 07-17 09:55 ?1605次閱讀

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發燒友網站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費下載
    發表于 07-16 11:24 ?2次下載

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像
    的頭像 發表于 07-09 11:51 ?1588次閱讀

    北美運營商AT&amp;amp;amp;T認證入庫產品范圍名單相關

    AT&amp;T作為全球領先的通信服務運營商之一,通過AT&amp;T認證不僅是對產品質量的認可,更是產品打開北美市場大門的重要憑證。然而,或許您還不清楚AT&amp;T認證入庫的產品范圍,接下來
    的頭像 發表于 06-28 16:58 ?707次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證入庫產品范圍名單相關

    解讀北美運營商,AT&amp;amp;amp;T的認證分類與認證內容分享

    在數字化日益深入的今天,通信技術的穩定與安全對于個人、企業乃至整個國家都至關重要。作為北美通信領域的領軍者,AT&amp;T一直致力于為用戶提供高效、可靠的通信服務。而在這背后,AT&amp;T
    的頭像 發表于 06-05 17:27 ?934次閱讀
    解讀北美運營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認證分類與認證內容分享
    主站蜘蛛池模板: 四虎影院永久免费 | 天堂资源在线最新版 | 国产精品片| 婷婷久久综合九色综合98 | 免费高清一级欧美片在线观看 | 美女张开腿露出尿口让男人桶 | 免费能直接在线观看黄的视频 | 波多野结衣在线一区 | 四虎新网址 | 国模精品视频 | 国产女同视频 | 午夜视频日本 | 免费大片黄日本在线观看 | 亚洲一级毛片在线观播放 | 国产精品一区二区三区四区五区 | 天天干天天天天 | 国产图片综合 | 午夜影院亚洲 | 毛片一级黄色 | 亚洲欧美高清 | 亚洲一区亚洲二区 | 婷婷综合激情 | 黄色免费在线网址 | 在线观看成人网 | 欧美性猛交xxxx | 老湿司午夜爽爽影院榴莲视频 | 日日夜夜天天干 | 特级做a爰片毛片免费看 | 国模视频一区二区 | 国产午夜影院 | 女人张开腿等男人桶免费视频 | 亚洲色图狠狠干 | 久久久久久夜精品精品免费 | 四虎影院www | 黄色香蕉网站 | 1024 在线观看视频免费 | 欧美一区二区三区免费高 | 天天视频入口 | 国内精品久久影视免费 | 日韩午夜精品 | 天天做夜夜做久久做狠狠 |