在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)言模型的弱監(jiān)督視頻異常檢測(cè)方法

CVer ? 來(lái)源:另半夏@知乎 ? 2024-01-02 15:20 ? 次閱讀

引言

近年來(lái),弱監(jiān)督視頻異常檢測(cè)(WSVAD,VAD)因其廣闊的應(yīng)用前景而受到越來(lái)越多的關(guān)注,在WSVAD任務(wù)中,期望異常檢測(cè)器在僅提供視頻級(jí)注釋的情況下生成的精細(xì)化幀級(jí)異常置信度。然而當(dāng)前該領(lǐng)域的大多數(shù)研究遵循一個(gè)系統(tǒng)性的框架,即,首先是使用預(yù)先訓(xùn)練的視覺模型來(lái)提取幀級(jí)特征,例如C3D、I3D和ViT等,然后將這些特征輸入到基于多實(shí)例學(xué)習(xí)(MIL)的二分類器中進(jìn)行訓(xùn)練,最后一步是用預(yù)測(cè)的異常置信度檢測(cè)異常事件。盡管這類方案很簡(jiǎn)單,分類效果也很有效,但這種基于分類的范式未能充分利用跨模態(tài)關(guān)系,例如視覺語(yǔ)言關(guān)聯(lián)。

wKgaomWTuaaAGHKaAAYHej3eaXQ260.png

在過(guò)去的兩年里,我們見證了視覺語(yǔ)言預(yù)訓(xùn)練(VLP)模型取得了巨大進(jìn)展,例如CLIP,用于學(xué)習(xí)具有語(yǔ)義概念的廣義視覺表示。CLIP的主要思想是通過(guò)對(duì)比學(xué)習(xí)來(lái)對(duì)齊圖像和文本,即將圖像和匹配的文本描述在聯(lián)合特征空間拉近,同時(shí)分離不匹配的圖文對(duì)。鑒于CLIP的突破性的潛力,在CLIP之上構(gòu)建任務(wù)專用模型正成為新興的研究課題,并應(yīng)用于廣泛的視覺任務(wù),這些模型取得了前所未有的性能。最近,越來(lái)越多的視頻理解領(lǐng)域的工作利用CLIP構(gòu)建專用模型并解決各種視頻理解任務(wù)。基于此,我們認(rèn)為CLIP對(duì)于WSVAD任務(wù)同樣有巨大的潛力。

為了有效利用廣義知識(shí),使CLIP在WSVAD任務(wù)中充分發(fā)揮其潛力,基于WSVAD的特點(diǎn),有幾個(gè)關(guān)鍵的挑戰(zhàn)需要解決。(1)首先,如何進(jìn)行時(shí)序關(guān)系建模,捕獲上下文的依賴關(guān)系;(2)其次,如何利用視覺信息和文本信息聯(lián)系;(3)第三,如何在弱監(jiān)督下優(yōu)化基于CLIP的模型。

針對(duì)上述的問(wèn)題,我們提出了一種基于CLIP的WSVAD新范式,稱為VadCLIP。VadCLIP由幾個(gè)組件組成,包括一個(gè)局部-全局時(shí)序關(guān)系適配器(LGT Adapter),一個(gè)由視覺分類器和視覺語(yǔ)言對(duì)齊模塊組成的雙分支異常檢測(cè)器(Dual Branch)。我們的方法既可以利用傳統(tǒng)WSVAD的分類范式,又可以利用CLIP提供的視覺語(yǔ)言對(duì)齊功能,從而基于CLIP語(yǔ)義信息和兩個(gè)分支共同優(yōu)化以獲得更高的異常檢測(cè)性能。

總的來(lái)說(shuō),我們工作的主要貢獻(xiàn)是:

(1)我們提出了一個(gè)新的WSVAD檢測(cè)方法,即VadCLIP,它涉及雙分支網(wǎng)絡(luò),分別以視覺分類和語(yǔ)言-視覺對(duì)齊的方式檢測(cè)視頻異常。借助雙分支的優(yōu)勢(shì),VadCLIP實(shí)現(xiàn)了粗粒度(二分類)和細(xì)粒度(異常類別多分類)的WSVAD。據(jù)我們所知,VadCLIP是第一個(gè)將預(yù)先訓(xùn)練的語(yǔ)言視覺知識(shí)有效地轉(zhuǎn)移到WSVAD的工作。

(2) 我們提出的方法包括三個(gè)重要的組成部分,以應(yīng)對(duì)新范式帶來(lái)的新挑戰(zhàn)。LGT適配器用于從不同的角度捕獲時(shí)間依賴關(guān)系;設(shè)計(jì)了兩種提示機(jī)制來(lái)有效地使凍結(jié)的預(yù)訓(xùn)練模型適應(yīng)WSVAD任務(wù);MIL對(duì)齊實(shí)現(xiàn)了在弱監(jiān)督下對(duì)視覺文本對(duì)齊范式的優(yōu)化,從而盡可能地保留預(yù)先訓(xùn)練好的知識(shí)。

(3) 我們?cè)趦蓚€(gè)大規(guī)模公共基準(zhǔn)上展示了VadCLIP的性能和有效性,VadCLIP均實(shí)現(xiàn)了最先進(jìn)的性能。例如,它在XD Violence和UCFCrime上分別獲得了84.51%的AP和88.02%的AUC分?jǐn)?shù),大大超過(guò)了當(dāng)前基于分類的方法。

方法

wKgZomWTucWAWkleAAcn7jhXWXM973.png

VadCLIP的模型結(jié)構(gòu)如圖所示,主要包括了三個(gè)部分,分別為局部全局時(shí)序關(guān)系適配器(LGT Adapter)、視覺二分類分支和視覺文本對(duì)齊細(xì)粒度分類分支。

LGT Adapter

LGT Adapter由局部關(guān)系Transformer和全局關(guān)系圖卷積串聯(lián)組成。考慮到常規(guī)的Transformer在長(zhǎng)時(shí)視頻時(shí)序關(guān)系建模時(shí)冗余信息較多、計(jì)算復(fù)雜度較高,我們改進(jìn)了局部Transformer的mask,從時(shí)序上將輸入視頻幀特征分割為多個(gè)等長(zhǎng)塊,令自注意力計(jì)算局限于塊內(nèi),減少了冗余信息建模,降低計(jì)算復(fù)雜度。

為了進(jìn)一步捕獲全局時(shí)間依賴性,我們?cè)诰植磕K之后引入了一個(gè)輕量級(jí)的圖卷積模塊,由于其在WSVAD任務(wù)中得到廣泛采用,性能已經(jīng)被證明,我們采用GCN來(lái)捕獲全局時(shí)間依賴關(guān)系。根據(jù)之前的工作,我們使用GCN從特征相似性和相對(duì)距離的角度對(duì)全局時(shí)間依賴性進(jìn)行建模,可以總結(jié)如下:

特征相似性分支通過(guò)計(jì)算兩幀之間的特征的余弦相似度生成GCN鄰接矩陣:

96545dcc-a08c-11ee-8b88-92fbcf53809c.png

雙分支結(jié)構(gòu)

與之前的其他WSVAD工作不同,我們的VadCLIP包含雙分支,除了傳統(tǒng)的異常二分類分支之外,我們還引入了一種新穎的視覺-文本對(duì)齊分支。二分類分支和傳統(tǒng)的WSVAD工作類似,使用一個(gè)帶有殘差連接的FFN和二分類器,直接計(jì)算經(jīng)過(guò)時(shí)序關(guān)系建模的視覺特征的幀級(jí)別異常置信度。

965e72ee-a08c-11ee-8b88-92fbcf53809c.png

而在視覺文本對(duì)齊分支中,文本標(biāo)簽,例如虐待、暴亂、打架等,不再被編碼為一個(gè)one-hot向量,相反,它們被凍結(jié)參數(shù)的CLIP文本編碼器編碼為一個(gè)類嵌入向量,因?yàn)槲谋揪幋a器可以為視頻異常檢測(cè)提供語(yǔ)言知識(shí)。然后,我們計(jì)算類嵌入和幀級(jí)視覺特征之間的匹配余弦相似度,這類似于CLIP。在視覺文本對(duì)齊分支中,每個(gè)輸入文本標(biāo)簽代表一類異常事件,從而自然地實(shí)現(xiàn)了細(xì)粒度的WSVAD。

9666f37e-a08c-11ee-8b88-92fbcf53809c.png

損失函數(shù)

966aabf4-a08c-11ee-8b88-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

對(duì)比結(jié)果

表1和表2展示了在兩個(gè)常用的WSVAD數(shù)據(jù)集UCF-Crime和XD-Violence中,我們的方法和之前的工作的對(duì)比結(jié)果,為了保證公平,上述列出結(jié)果的工作均使用CLIP特征進(jìn)行重新訓(xùn)練,可以看出我們的方法在兩個(gè)數(shù)據(jù)集中相較之前的工作有較大的提升。

96882436-a08c-11ee-8b88-92fbcf53809c.png

表3和表4展示了使用了細(xì)粒度多類別標(biāo)簽進(jìn)行異常檢測(cè),且計(jì)算幀mAP@IOU結(jié)果的情況,可以看出我們的方法在進(jìn)行細(xì)粒度多分類異常檢測(cè)時(shí)也有明顯的提升。

96a4cf0a-a08c-11ee-8b88-92fbcf53809c.jpg

上圖分別展示了幀級(jí)別粗粒度異常檢測(cè)可視化結(jié)果和細(xì)粒度多分類異常檢測(cè)結(jié)果。

總結(jié)

在這項(xiàng)工作中,我們提出了一種新的范式VadCLIP,用于弱監(jiān)督視頻異常檢測(cè)。為了有效地將預(yù)訓(xùn)練的知識(shí)和視覺語(yǔ)言關(guān)聯(lián)從凍結(jié)的CLIP遷移到WSVAD任務(wù),我們首先設(shè)計(jì)了一個(gè)LGT適配器來(lái)增強(qiáng)時(shí)間建模的能力,然后設(shè)計(jì)了一系列提示機(jī)制來(lái)提高通用知識(shí)對(duì)特定任務(wù)的適應(yīng)能力。最后,我們?cè)O(shè)計(jì)了MIL對(duì)齊操作,以便于在弱監(jiān)督下優(yōu)化視覺語(yǔ)言對(duì)齊。我們通過(guò)和最先進(jìn)的工作對(duì)比和在兩個(gè)WSVAD基準(zhǔn)數(shù)據(jù)集上的充分消融,驗(yàn)證了VadCLIP的有效性。未來(lái),我們將繼續(xù)探索視覺語(yǔ)言預(yù)訓(xùn)練知識(shí),并進(jìn)一步致力于開放集VAD任務(wù)。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 適配器
    +關(guān)注

    關(guān)注

    9

    文章

    2043

    瀏覽量

    69424
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10709
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    6997

原文標(biāo)題:AAAI 2024 | VadCLIP: 首個(gè)基于視覺-語(yǔ)言模型的弱監(jiān)督視頻異常檢測(cè)方法

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

    鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域
    的頭像 發(fā)表于 12-06 14:57 ?2302次閱讀
    基于transformer和自<b class='flag-5'>監(jiān)督</b>學(xué)習(xí)的路面<b class='flag-5'>異常</b><b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>分享

    基于隱馬爾可夫模型視頻異常檢測(cè)模型

    視頻技術(shù)的廣泛應(yīng)用帶來(lái)海量的視頻數(shù)據(jù),僅依靠人力對(duì)監(jiān)控視頻中的異常進(jìn)行檢測(cè)是不太可能的。異常行為
    發(fā)表于 11-20 09:37 ?8次下載
    基于隱馬爾可夫<b class='flag-5'>模型</b>的<b class='flag-5'>視頻</b><b class='flag-5'>異常</b><b class='flag-5'>檢測(cè)</b><b class='flag-5'>模型</b>

    基于稀疏隨機(jī)森林模型的用電側(cè)異常行為檢測(cè)

    異常行為模式檢測(cè)方法。該方法首先利用時(shí)間窗函數(shù)與Bootstrap重采樣,建立用電側(cè)行為模式信息簇。其次,利用基于隨機(jī)權(quán)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)得到
    發(fā)表于 12-26 10:19 ?5次下載
    基于稀疏隨機(jī)森林<b class='flag-5'>模型</b>的用電側(cè)<b class='flag-5'>異常</b>行為<b class='flag-5'>檢測(cè)</b>

    基于健壯多元概率校準(zhǔn)模型的全網(wǎng)絡(luò)異常檢測(cè)

    的。同時(shí),由于網(wǎng)絡(luò)異常種類繁多、變化快速,且常常隱藏在復(fù)雜龐大的背景流量中,給網(wǎng)絡(luò)異常檢測(cè)帶來(lái)極大的困難。 提出了一種基于健壯多元概率校準(zhǔn)模型
    發(fā)表于 03-06 10:02 ?0次下載

    模型的網(wǎng)絡(luò)異常流量檢測(cè)

    網(wǎng)絡(luò)流量的復(fù)雜性、難以預(yù)測(cè)性以及人們主觀評(píng)測(cè)的差異性等不確定因素,使得網(wǎng)絡(luò)流量的異常檢測(cè)成為網(wǎng)絡(luò)安全防護(hù)領(lǐng)域研究的難點(diǎn)問(wèn)題。通過(guò)對(duì)流量安全特征的分析提取和范圍限定,引入云模型理論,提出一種基于云
    發(fā)表于 03-06 16:44 ?1次下載
    云<b class='flag-5'>模型</b>的網(wǎng)絡(luò)<b class='flag-5'>異常</b>流量<b class='flag-5'>檢測(cè)</b>

    智能監(jiān)控視頻異常事件檢測(cè)

    的形狀、顏色和幀間變化度等特征編碼,生成特征向量。訓(xùn)練時(shí)將特征向量送入HMM訓(xùn)練得到隱馬爾可夫模型需要的參數(shù)A和B,檢測(cè)時(shí)將特征向量送入HMM檢測(cè)系統(tǒng)檢測(cè)是否有
    發(fā)表于 03-07 13:35 ?2次下載
    智能監(jiān)控<b class='flag-5'>視頻</b><b class='flag-5'>異常</b>事件<b class='flag-5'>檢測(cè)</b>

    實(shí)現(xiàn)強(qiáng)監(jiān)督監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的協(xié)同增強(qiáng)學(xué)習(xí)

    同時(shí),我們可以從互聯(lián)網(wǎng)輕松獲取海量粗標(biāo)注的圖片,如利用Flickr的標(biāo)簽。因此,研究如何在監(jiān)督條件下,即僅提供粗略圖片類別標(biāo)注,訓(xùn)練目標(biāo)檢測(cè)模型,具有重要的意義。已有學(xué)者探索了基于多
    的頭像 發(fā)表于 05-15 16:51 ?1.2w次閱讀
    實(shí)現(xiàn)強(qiáng)<b class='flag-5'>監(jiān)督</b>和<b class='flag-5'>弱</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)網(wǎng)絡(luò)的協(xié)同增強(qiáng)學(xué)習(xí)

    如何使用獨(dú)立子空間分析實(shí)現(xiàn)不良視頻檢測(cè)方法

    為了檢測(cè)網(wǎng)絡(luò)中含有不良內(nèi)容的視頻,提出一種基于非監(jiān)督學(xué)習(xí)特征的不良視頻檢測(cè)方法。該
    發(fā)表于 01-13 11:20 ?5次下載
    如何使用獨(dú)立子空間分析實(shí)現(xiàn)不良<b class='flag-5'>視頻</b>的<b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>

    集成流挖掘和圖挖掘的內(nèi)網(wǎng)異常檢測(cè)方法

    發(fā)揮圖挖掘的無(wú)監(jiān)督優(yōu)勢(shì)的冋時(shí),融入了流挖掘的良好自適應(yīng)能力。采用集成的方法,通過(guò)集成分類和更新,當(dāng)出現(xiàn)概念漂移時(shí),保證集成適應(yīng)當(dāng)前概念,使之可以檢測(cè)到內(nèi)網(wǎng)惡意行為。實(shí)驗(yàn)證明基于集成的方法
    發(fā)表于 04-12 11:29 ?7次下載
    集成流挖掘和圖挖掘的內(nèi)網(wǎng)<b class='flag-5'>異常</b><b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的監(jiān)督學(xué)習(xí)方法綜述

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的監(jiān)督學(xué)習(xí)方法綜述 來(lái)源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘 要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù),使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對(duì)數(shù)據(jù)缺乏
    發(fā)表于 02-09 11:22 ?2657次閱讀
    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的<b class='flag-5'>弱</b><b class='flag-5'>監(jiān)督學(xué)習(xí)方法</b>綜述

    如何縮小監(jiān)督信號(hào)與密集預(yù)測(cè)之間的差距

    導(dǎo)讀本文圍繞非完全監(jiān)督下的圖像分割方法最新綜述,講述用于解決“如何縮小監(jiān)督信號(hào)與密集預(yù)測(cè)之間的差距”的四種通用的啟發(fā)式先驗(yàn)。
    的頭像 發(fā)表于 07-13 10:51 ?1377次閱讀

    基于視覺Transformer的監(jiān)督視頻異常檢測(cè)架構(gòu)進(jìn)行腸息肉檢測(cè)的研究

    本文提出一種有效的基于視覺Transformer的監(jiān)督視頻異常檢測(cè)架構(gòu)來(lái)實(shí)現(xiàn)精準(zhǔn)檢測(cè)結(jié)直腸息肉
    的頭像 發(fā)表于 09-27 11:15 ?2020次閱讀

    監(jiān)督學(xué)習(xí)解鎖醫(yī)學(xué)影像洞察力

    人工智能 (AI) 通過(guò)比人類專家更快、更準(zhǔn)確地檢測(cè)和測(cè)量異常情況,從圖像中進(jìn)行先進(jìn)的醫(yī)學(xué)診斷。構(gòu)建適用于人群的高質(zhì)量 AI 模型對(duì)于改善患者預(yù)后和個(gè)性化治療至關(guān)重要。然而,人工智能模型
    的頭像 發(fā)表于 09-30 18:04 ?1779次閱讀
    <b class='flag-5'>弱</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)解鎖醫(yī)學(xué)影像洞察力

    使用MATLAB進(jìn)行異常檢測(cè)(下)

    在使用 MATLAB 進(jìn)行異常檢測(cè)(上)中,我們探討了什么是異常值,簡(jiǎn)單的一維數(shù)據(jù)異常檢測(cè)問(wèn)題,針對(duì)高維數(shù)據(jù)的有
    的頭像 發(fā)表于 11-24 10:46 ?2716次閱讀

    基于視頻語(yǔ)言模型LiteVL的無(wú)參的特征池化方法

    我們提出了LiteVL,這是一種視頻語(yǔ)言模型,它無(wú)需大量的視頻語(yǔ)言預(yù)訓(xùn)練或目標(biāo)檢測(cè)器。LiteV
    的頭像 發(fā)表于 12-05 10:54 ?892次閱讀
    主站蜘蛛池模板: 国产资源免费观看 | 日本欧美一区二区免费视 | 一级片视频在线观看 | 性做久久久久久久免费观看 | 3344在线| 天堂资源在线播放 | 婷婷丁香视频 | 欧美天堂在线观看 | 99综合久久 | 888米奇在线视频四色 | 五月婷婷一区 | 午夜免费福利在线观看 | 爽好舒服快给老师 | 国产中日韩一区二区三区 | 成人精品视频在线观看播放 | 日韩亚洲欧洲在线rrrr片 | 好深好爽视频 | 婷婷色九月 | 国产精品丝袜在线观看 | 激情 婷婷 | 色在线视频网站 | 操爽视频 | 亚洲视频在线不卡 | 天天热天天干 | 色综合97天天综合网 | 国产免费小视频 | 中文字幕佐山爱一区二区免费 | 酒色激情网 | 黄色网址视频在线观看 | 午夜特片网 | 久久都是精品 | 中文字幕佐山爱一区二区免费 | 亚洲码欧美码一区二区三区 | 国产精品大全 | 爱爱视频天天看 | 在线免费观看毛片网站 | 国产美女主播在线观看 | 午夜影视啪啪免费体验区入口 | 亚洲色图欧美视频 | 日本美女视频网站 | 久久久久久国产精品免费 |