在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級(jí)開放詞匯語義分割架構(gòu)

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-10 10:05 ? 次閱讀

本文提出了 SAN 框架,用于開放詞匯語義分割。該框架成功地利用了凍結(jié)的 CLIP 模型的特征以及端到端的流程,并最大化地采用凍結(jié)的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

簡(jiǎn)介本文介紹了一種名為Side Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺語言模型進(jìn)行開放式語義分割。該方法將語義分割任務(wù)建模為區(qū)域識(shí)別問題,并通過附加一個(gè)側(cè)面的可學(xué)習(xí)網(wǎng)絡(luò)來實(shí)現(xiàn)。該網(wǎng)絡(luò)可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,從而使其非常輕便。整個(gè)網(wǎng)絡(luò)可以進(jìn)行端到端的訓(xùn)練,使側(cè)面網(wǎng)絡(luò)適應(yīng)凍結(jié)的CLIP模型,從而使預(yù)測(cè)的掩碼提案具有CLIP感知能力。作者在多個(gè)語義分割基準(zhǔn)測(cè)試上評(píng)估了該方法,并表明其速度快、準(zhǔn)確度高,只增加了少量可訓(xùn)練參數(shù),在一系列數(shù)據(jù)集上相較于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望該方法能夠成為一個(gè)baseline,并幫助未來的開放式語義分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

論文鏈接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png ?cc5b99ca-1ec4-11ee-962d-dac502259ad0.png ?

Introduction

作者首先討論了語義分割的概念和現(xiàn)代語義分割方法的限制,以及如何將大規(guī)模視覺語言模型應(yīng)用于開放式語義分割。現(xiàn)代語義分割方法通常依賴于大量標(biāo)記數(shù)據(jù),但數(shù)據(jù)集通常只包含數(shù)十到數(shù)百個(gè)類別,昂貴的數(shù)據(jù)收集和注釋限制了我們進(jìn)一步擴(kuò)展類別的可能性。最近,大規(guī)模視覺語言模型(如CLIP)的出現(xiàn)促進(jìn)了零樣本學(xué)習(xí)的發(fā)展,這也鼓勵(lì)我們探索其在語義分割中的應(yīng)用。然而,將CLIP模型應(yīng)用于開放式語義分割十分困難,因?yàn)镃LIP模型是通過圖像級(jí)對(duì)比學(xué)習(xí)訓(xùn)練的,其學(xué)習(xí)到的表示缺乏像素級(jí)別的識(shí)別能力,而這種能力在語義分割中是必需的。解決這個(gè)問題的一個(gè)方法是在分割數(shù)據(jù)集上微調(diào)模型,但是分割數(shù)據(jù)集的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)小于視覺語言預(yù)訓(xùn)練數(shù)據(jù)集,因此微調(diào)模型在開放式識(shí)別方面的能力通常會(huì)受到影響。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

為了充分發(fā)揮視覺-語言預(yù)訓(xùn)練模型在開放詞匯語義分割中的能力。作者提出了一種名為Side Adapter Network(SAN)的新框架。由于端到端訓(xùn)練,SAN的掩膜預(yù)測(cè)和分類是基于CLIP輔助的。整個(gè)模型十分輕量化。SAN有兩個(gè)分支:一個(gè)用于預(yù)測(cè)掩膜,另一個(gè)用于預(yù)測(cè)應(yīng)用于CLIP的注意力偏好,以進(jìn)行掩膜類別識(shí)別。作者表明,這種分離的設(shè)計(jì)可以提高分割性能。此外,作者還提出了一種單向前設(shè)計(jì),以最小化CLIP的成本:將淺層CLIP塊的特征融合到SAN中,將其他更深層次的塊與注意偏置結(jié)合以進(jìn)行掩膜識(shí)別。由于訓(xùn)練是端到端的,SAN可以最大程度地適應(yīng)凍結(jié)的CLIP模型。作者的研究基于官方發(fā)布的ViT CLIP模型,采用Visual Transformer實(shí)現(xiàn)。準(zhǔn)確的語義分割需要高分辨率圖像,但發(fā)布的ViT CLIP模型設(shè)計(jì)用于低分辨率圖像(如),直接應(yīng)用于高分辨率圖像會(huì)導(dǎo)致性能下降。為了緩解輸入分辨率的沖突,作者在CLIP模型中使用低分辨率圖像,在SAN中使用高分辨率圖像。作者表明,這種不對(duì)稱的輸入分辨率非常有效。此外,作者還探討了僅微調(diào)ViT模型的位置嵌入,并取得了改進(jìn)。作者在各種基準(zhǔn)測(cè)試中評(píng)估了他們的方法。與之前的方法相比,作者的方法在所有基準(zhǔn)測(cè)試中都取得了最好的性能。作者的方法只有8.4M可訓(xùn)練參數(shù)和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png ?Method

3.1 基礎(chǔ)架構(gòu)

SAN的詳細(xì)架構(gòu)如下圖所示。輸入圖像被分成個(gè)patch。首先通過一個(gè)線性層將圖片轉(zhuǎn)化為Visual Tokens。這些Visual Tokens會(huì)與個(gè)可學(xué)習(xí)的Query Tokens拼接起來,并送到后續(xù)的Transformer Layer中。每個(gè)Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例圖片SAN的輸出由兩部分構(gòu)成:掩膜提議(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提議中,Query Tokens和Visual Tokens首先通過兩個(gè)單獨(dú)的3層MLP,投影成256維,我們將投影的Query Tokens表示其中是Query Tokens的數(shù)量,投影的Visual Tokens表示為,其中和是輸入圖像的高度和寬度。然后,通過和的內(nèi)積生成掩膜: 生成注意力偏好的過程類似于掩膜提議。Query Tokens和Visual Tokens也通過3層MLP進(jìn)行投影,表示,其中是CLIP模型的注意頭數(shù)。通過對(duì)和進(jìn)行內(nèi)積,我們得到注意力偏好: 此外,如果需要,注意力偏好還將進(jìn)一步調(diào)整其中和是CLIP中注意力映射的高度和寬度。在實(shí)踐中,和可以共享,并且注意力偏好將應(yīng)用于CLIP的多個(gè)自注意層,即偏好將在不同的自注意層中使用。這樣的雙輸出設(shè)計(jì)的動(dòng)機(jī)很直觀:作者認(rèn)為用于在CLIP中識(shí)別掩模的感興趣區(qū)域可能與掩模區(qū)域本身不同。作者在后文的對(duì)比實(shí)驗(yàn)中也證實(shí)了這個(gè)想法。

3.2掩膜預(yù)測(cè)

原始的CLIP模型只能通過標(biāo)記進(jìn)行圖像級(jí)別的識(shí)別。作者工作在不改變CLIP模型參數(shù)的情況下,嘗試通過指導(dǎo)標(biāo)記的注意力圖在感興趣區(qū)域上實(shí)現(xiàn)精確的掩膜識(shí)別。為了實(shí)現(xiàn)這個(gè)目標(biāo),作者創(chuàng)建了一組名為標(biāo)記(仿照Maskclip,如下圖)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png這些標(biāo)記單向地通過Visual Tokens進(jìn)行更新,但是Visual Tokens和標(biāo)記都不受的影響。在更新標(biāo)記時(shí),預(yù)測(cè)的注意力偏差被添加到注意力矩陣中: 其中表示層編號(hào),表示第個(gè)注意力頭的Query 和Key,Visual Tokens 的Key。,和分別是Query、Key和Value的編碼權(quán)重。通過注意力偏好,標(biāo)記的特征逐漸演變以適應(yīng)掩膜預(yù)測(cè),并且可以通過比較標(biāo)記和類名CLIP文本編碼之間的距離/相似性來輕松獲得掩膜的類別預(yù)測(cè),表示為,其中是類別數(shù)。

3.3分割結(jié)果生成

使用上文提到的掩膜和類別預(yù)測(cè),我們可以計(jì)算語義分割圖: 其中。這是標(biāo)準(zhǔn)的語義分割輸出,因此與主流的語義分割評(píng)估兼容。在訓(xùn)練,我們通過Dice Loss 和binary cross-entropy loss 來監(jiān)督掩膜生成,通過cross-entropy loss 來監(jiān)督掩膜識(shí)別。總損失為: 其中作者使用的損失權(quán)重,,分別為5.0,5.0和2.0。通過端到端的訓(xùn)練,SAN可以最大程度地適應(yīng)凍結(jié)的CLIP模型,并得到很好的結(jié)果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png ?

討論

具體來說,作者提出了一種全新的端到端架構(gòu),以極小的參數(shù)量在多個(gè)數(shù)據(jù)集上取得了SOTA效果。SAN的主要特點(diǎn)如下:

  • SAN中沿用了MaskCLIP得出的結(jié)論:在下游數(shù)據(jù)集上微調(diào)會(huì)破壞CLIP優(yōu)秀的特征空間。因此在SAN的設(shè)計(jì)中,無需微調(diào)(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的開放詞匯能力。

  • 在凍結(jié)CLIP模型的同時(shí),引入了額外的可編碼網(wǎng)絡(luò),能夠根據(jù)下游任務(wù)數(shù)據(jù)集學(xué)習(xí)分割所需要的特征,彌補(bǔ)了CLIP模型對(duì)于位置信息的缺失。

  • 將語義分割任務(wù)分解為掩膜預(yù)測(cè)與類別預(yù)測(cè)兩個(gè)子任務(wù)。CLIP模型的開放識(shí)別能力不僅僅依賴于物體區(qū)域本身,也依賴于物體的上下文信息(Context Information)。這促使作者提出掩膜預(yù)測(cè)與類別預(yù)測(cè)解耦的雙輸出設(shè)計(jì),下表顯示該設(shè)計(jì)可以進(jìn)一步提升模型的預(yù)測(cè)精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png ?
  • 充分復(fù)用了CLIP模型的特征,大幅度降低所需的額外參數(shù)量的同時(shí)獲得最佳性能。下表展示了復(fù)用CLIP特征帶來的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png ? ?cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png ?結(jié)論作者在這項(xiàng)工作中提出了SAN框架,用于開放詞匯語義分割。該框架成功地利用了凍結(jié)的CLIP模型的特征以及端到端的流程,并最大化地采用凍結(jié)的CLIP模型。所提出的框架在五個(gè)語義分割基準(zhǔn)測(cè)試中顯著優(yōu)于以往的最先進(jìn)方法,而且具有更少的可訓(xùn)練參數(shù)和更少的計(jì)算成本。 ·


原文標(biāo)題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級(jí)開放詞匯語義分割架構(gòu)

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級(jí)開放詞匯語義分割架構(gòu)

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新知|Verizon與AT&T也可以手機(jī)直接連接衛(wèi)星了

    與Starlink星鏈合作的反擊。早些時(shí)候,T-Mobile宣布其手機(jī)直連衛(wèi)星服務(wù)開放測(cè)試,任何用戶都可以申請(qǐng)測(cè)試,并在第一階段提供衛(wèi)星消息服務(wù)。AT&T通過手機(jī)直連衛(wèi)星視頻通話早前,星鏈
    的頭像 發(fā)表于 06-19 07:07 ?272次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    【重磅】企業(yè)版秋DFM&amp;amp;秋CAM正式發(fā)布!離線審查+定制開發(fā)+專屬護(hù)航

    ,打造的輕量級(jí)國(guó)產(chǎn)CAM利器 1、操作極簡(jiǎn) ◆ 自動(dòng)識(shí)別層名/層序,智能調(diào)整鉆孔格式 2、功能精專 ◆ 支持Gerber/ODB++查看/分析/編輯,裸板參數(shù)(線路/鉆孔/阻焊/絲印)分析 3
    發(fā)表于 06-11 16:02

    電氣YU系列工業(yè)級(jí)連接器登場(chǎng),解鎖USB&amp;amp;Type-C多模塊新體驗(yàn)!

    近日,凌全新推出YU系列USB&amp;amp;Type-C多模塊工業(yè)級(jí)連接器,在功能上實(shí)現(xiàn)了全面升級(jí)。
    的頭像 發(fā)表于 12-18 09:46 ?463次閱讀

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    北美運(yùn)營(yíng)商AT&amp;T的認(rèn)證測(cè)試內(nèi)容涵蓋了多個(gè)方面,以確保設(shè)備和服務(wù)的質(zhì)量、兼容性以及用戶體驗(yàn)。在AT&amp;T的認(rèn)證測(cè)試中,VoLTE(VoiceoverLTE)測(cè)試項(xiàng)是一個(gè)重要的組成部分
    的頭像 發(fā)表于 12-06 16:52 ?565次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp;amp; 創(chuàng)意固定套件CLIP-A/CLIP-B

    本月的第三波新品上線了3款全新產(chǎn)品,涵蓋了多種需求和應(yīng)用領(lǐng)域。從激發(fā)興趣和創(chuàng)意的PuzzleUnit,到多功能創(chuàng)意套件CLIP-A&;CLIP-B,每一款都為不同場(chǎng)景提供了創(chuàng)新解決方案。快來
    的頭像 發(fā)表于 11-16 01:07 ?364次閱讀
    新品 | 可拼接燈板矩陣 Puzzle Unit &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 創(chuàng)意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證的費(fèi)用受哪些因素影響

    申請(qǐng)北美運(yùn)營(yíng)商AT&amp;T認(rèn)證的價(jià)格因多種因素而異,包括產(chǎn)品類型、認(rèn)證范圍、測(cè)試難度等。一般來說,申請(qǐng)AT&amp;T認(rèn)證的費(fèi)用可能相對(duì)較高,因?yàn)锳T&amp;T作為北美地區(qū)的主要電信運(yùn)營(yíng)商,其
    的頭像 發(fā)表于 10-16 17:10 ?598次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的費(fèi)用受哪些因素影響

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    01直播介紹直播時(shí)間2024/10/281430直播內(nèi)容1.onsemiLV/MVMOSFET產(chǎn)品優(yōu)勢(shì)&amp;市場(chǎng)地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發(fā)表于 10-13 08:06 ?862次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

    輕量級(jí)多級(jí)菜單控制框架

    輕量級(jí)菜單框架(C語言) 作為嵌入式軟件開發(fā),可能經(jīng)常會(huì)使用命令行或者顯示屏等設(shè)備實(shí)現(xiàn)人機(jī)交互的功能,功能中通常情況都包含 UI 菜單設(shè)計(jì);很多開發(fā)人員都會(huì)有自己的菜單框架模塊,防止重復(fù)造輪子,網(wǎng)上
    發(fā)表于 10-12 09:36

    國(guó)產(chǎn)芯上運(yùn)行TinyMaxi輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù)-米爾基于芯馳D9國(guó)產(chǎn)商顯板

    本篇測(cè)評(píng)由優(yōu)秀測(cè)評(píng)者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于芯馳D9360國(guó)產(chǎn)開發(fā)板)的TinyMaxi輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù)方案測(cè)試。 算力測(cè)試TinyMaix
    發(fā)表于 08-09 18:26

    國(guó)產(chǎn)芯上運(yùn)行TinyMaxi輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù)-米爾基于芯馳D9國(guó)產(chǎn)商顯板

    D9360國(guó)產(chǎn)開發(fā)板)的TinyMaxi輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù)方案測(cè)試。 算力測(cè)試 TinyMaix 是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù),即 TinyML 推理庫(kù),可以讓你在任意單片機(jī)上運(yùn)行輕量級(jí)深度
    發(fā)表于 08-07 18:06

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語義
    的頭像 發(fā)表于 07-17 09:56 ?850次閱讀

    圖像分割語義分割的區(qū)別與聯(lián)系

    圖像分割語義分割是計(jì)算機(jī)視覺領(lǐng)域中兩個(gè)重要的概念,它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介 圖像分割是將圖像劃分為多個(gè)區(qū)
    的頭像 發(fā)表于 07-17 09:55 ?1808次閱讀

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?2次下載

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像
    的頭像 發(fā)表于 07-09 11:51 ?1843次閱讀

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)

    AT&amp;T作為全球領(lǐng)先的通信服務(wù)運(yùn)營(yíng)商之一,通過AT&amp;T認(rèn)證不僅是對(duì)產(chǎn)品質(zhì)量的認(rèn)可,更是產(chǎn)品打開北美市場(chǎng)大門的重要憑證。然而,或許您還不清楚AT&amp;T認(rèn)證入庫(kù)的產(chǎn)品范圍,接下來
    的頭像 發(fā)表于 06-28 16:58 ?826次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)
    主站蜘蛛池模板: 色婷婷综合激情 | a级毛片毛片免费很很综合 a级男女性高爱潮高清试 | 国产欧美高清 | 白丝丝袜高跟国产在线视频 | 乱好看的的激情伦小说 | 制服丝袜在线一区 | 午夜久久久久久亚洲国产精品 | 日本最黄视频 | 免费又爽又黄禁片视频在线播放 | 欧美疯狂爱爱xxxxbbbb | 亚洲成a人片在线观看中 | 夜色福利久久久久久777777 | 免费在线播放毛片 | 四虎永久免费观看 | 都市激情亚洲综合 | 日韩一区二区视频 | 男啪女色黄无遮挡免费观看 | 国产欧美日韩综合精品无毒 | 伊人久久影视 | 天天夜天干天天爽 | 456亚洲人成影院在线观 | 亚洲欧洲综合网 | 九九黄色网 | 国产亚洲欧美视频 | 日干夜操 | 天堂网在线新版www 天堂网在线资源 | 午夜欧美性视频在线播放 | 国内自拍网红在综合图区 | 在线视频亚洲 | 国产又大又黄又粗又爽 | 在线观看的黄网 | 全国男人的天堂天堂网 | 三级精品在线观看 | 特级aaaaaaaaa毛片免费视频 | 久操视频免费观看 | 婷婷午夜天 | 日韩美女奶水喂男人在线观看 | 中文字幕一区在线播放 | 国产人成午夜免视频网站 | 色多多高清在线观看视频www | 午夜性福利 |