在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視覺(jué)transformer的高效時(shí)空特征學(xué)習(xí)算法

CVer ? 來(lái)源:ECCV 2022 ? 作者:ECCV 2022 ? 2022-12-12 15:01 ? 次閱讀

二、背景

高效的時(shí)空建模(Spatiotemporal modeling)是視頻理解和動(dòng)作識(shí)別的核心問(wèn)題。相較于圖像的Transformer網(wǎng)絡(luò),視頻由于增加了時(shí)間維度,如果將Transformer中的自注意力機(jī)制(Self-Attention)簡(jiǎn)單擴(kuò)展到時(shí)空維度,將會(huì)導(dǎo)致時(shí)空自注意力高昂的計(jì)算復(fù)雜度和空間復(fù)雜度。許多工作嘗試對(duì)時(shí)空自注意力進(jìn)行分解,例如ViViT和Timesformer。這些方法雖然減小了計(jì)算復(fù)雜度,但會(huì)引入額外的參數(shù)量。本文提出了一種簡(jiǎn)單高效的時(shí)空自注意力Transformer,在對(duì)比2D Transformer網(wǎng)絡(luò)不增加計(jì)算量和參數(shù)量情況下,實(shí)現(xiàn)了時(shí)空自注意力機(jī)制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

視覺(jué)Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過(guò)自注意力機(jī)制(Self-Attention)進(jìn)行特征聚合,patch內(nèi)部通過(guò)全連接層(FFN)進(jìn)行特征映射。每個(gè)Transformer block中,包含Self-Attention和FFN,通過(guò)堆疊Transformer block的方式達(dá)到學(xué)習(xí)圖像特征的目的。

在視頻動(dòng)作識(shí)別領(lǐng)域,輸入的數(shù)據(jù)是連續(xù)采樣的多幀圖像(常用8幀、16幀、32幀等)學(xué)習(xí)視頻的時(shí)空特征,不僅要學(xué)習(xí)單幀圖像的空間視覺(jué)特征,更要建模幀之間的時(shí)域特征。本文提出一種基于視覺(jué)transformer的高效時(shí)空特征學(xué)習(xí)算法,具體來(lái)說(shuō),我們通過(guò)將patch按照一定的規(guī)則進(jìn)行移動(dòng)(patch shift),把當(dāng)前幀中的一部分patch移動(dòng)到其他幀,同時(shí)其他幀也會(huì)有一部分patch移動(dòng)到當(dāng)前幀。經(jīng)過(guò)patch移動(dòng)之后,對(duì)每一幀圖像的patch分別做Self-Attention,這一步學(xué)習(xí)的特征就同時(shí)包含了時(shí)空特征。具體思想可以由下圖所示:

9564e2d0-7944-11ed-8abf-dac502259ad0.png

在常用的2D圖像視覺(jué)Transformer網(wǎng)絡(luò)結(jié)構(gòu)上,將上述patch shift操作插入到self-attention操作之前即可,無(wú)需額外操作,下圖是patch shift transformer block,相比其他視頻transformer的結(jié)構(gòu),我們的操作不增加額外的計(jì)算量,僅需進(jìn)行內(nèi)存數(shù)據(jù)移動(dòng)操作即可。對(duì)于patch shift的移動(dòng)規(guī)則,我們提出幾種設(shè)計(jì)原則:1. 不同幀的塊盡可能均勻地分布。2.合適的時(shí)域感受野。3.保持一定的移動(dòng)塊比例。具體的分析,讀者可以參考正文。

我們對(duì)通道移動(dòng)(Channel shift) 與 塊移動(dòng)(patch shift)進(jìn)行了詳盡的分析和討論,這兩種方法的可視化如下:

95ab73a8-7944-11ed-8abf-dac502259ad0.png

通道移動(dòng)(Channel shift) 與 塊移動(dòng)(patch shift)都使用了shift操作,但channel shift是通過(guò)移動(dòng)所有patch的部分channel的特征來(lái)實(shí)現(xiàn)時(shí)域特征的建模,而patch shift是通過(guò)移動(dòng)部分patch的全部channel與Self-attention來(lái)實(shí)現(xiàn)時(shí)域特征的學(xué)習(xí)。可以認(rèn)為channel shift的時(shí)空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此兩種方法具有一定的互補(bǔ)性。基于此,我們提出交替循環(huán)使用 patchshift和channel shift。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

95c20c4e-7944-11ed-8abf-dac502259ad0.png

四、實(shí)驗(yàn)結(jié)果

1. 消融實(shí)驗(yàn)

95eafd70-7944-11ed-8abf-dac502259ad0.png

2. 與SOTA方法進(jìn)行對(duì)比

961daf2c-7944-11ed-8abf-dac502259ad0.png

969a1bf2-7944-11ed-8abf-dac502259ad0.png

9761b4dc-7944-11ed-8abf-dac502259ad0.png

3. 運(yùn)行速度

可以看到,PST的實(shí)際推理速度和2D的Swin網(wǎng)絡(luò)接近,但具有時(shí)空建模能力,性能顯著優(yōu)于2D Swin。和Video-Swin網(wǎng)絡(luò)相比,則具有明顯的速度和顯存優(yōu)勢(shì)。

9789f1a4-7944-11ed-8abf-dac502259ad0.png

4. 可視化結(jié)果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的可視化效果。PST通過(guò)學(xué)習(xí)關(guān)聯(lián)區(qū)域的相關(guān)性,并且特征圖能夠反映出視頻當(dāng)中動(dòng)作的軌跡。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    3102

    瀏覽量

    74906

原文標(biāo)題:ECCV 2022 | 阿里提出:快速動(dòng)作識(shí)別的時(shí)空自注意力模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會(huì):ROS2機(jī)器人視覺(jué)與地圖構(gòu)建技術(shù) 通過(guò)對(duì)本書(shū)第7章(ROS2視覺(jué)應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對(duì)機(jī)器人視覺(jué)感知和自主導(dǎo)航的核心技術(shù)有了更深入的理解。以下是我
    發(fā)表于 05-03 19:41

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    集成于同一硬件平臺(tái)。內(nèi)置RISC-V AI核,接入ONNXRuntime加速框架,可快速部署Transformer、CNN等主流算法,實(shí)現(xiàn)視覺(jué)跟蹤、語(yǔ)音交互與自主決策的一體化應(yīng)用。 低門(mén)檻開(kāi)發(fā) 提供
    發(fā)表于 04-25 17:59

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)Transformer(ViT)。 語(yǔ)言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?1723次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型)?詳細(xì)解析

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過(guò)引入自注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?2855次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺(jué)Mamba的通用視覺(jué)主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺(jué)表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺(jué)
    的頭像 發(fā)表于 01-08 09:33 ?457次閱讀
    地平線ViG基于<b class='flag-5'>視覺(jué)</b>Mamba的通用<b class='flag-5'>視覺(jué)</b>主干網(wǎng)絡(luò)

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為一種專門(mén)為深度學(xué)習(xí)等機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?1010次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    語(yǔ)言的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言模型通常基于Transformer架構(gòu),這是一種能夠處理序列數(shù)據(jù)
    發(fā)表于 08-02 11:03

    圖像識(shí)別算法都有哪些方法

    圖像識(shí)別算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一,它涉及到從圖像中提取特征并進(jìn)行分類、識(shí)別和分析的過(guò)程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,圖像識(shí)別算法
    的頭像 發(fā)表于 07-16 11:14 ?6891次閱讀

    opencv圖像識(shí)別有什么算法

    OpenCV(Open Source Computer Vision Library)是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)軟件庫(kù),提供了大量的圖像處理和計(jì)算機(jī)視覺(jué)相關(guān)的算法。以下是一些常見(jiàn)
    的頭像 發(fā)表于 07-16 10:40 ?1589次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問(wèn)題,需
    的頭像 發(fā)表于 07-12 14:07 ?754次閱讀

    計(jì)算機(jī)視覺(jué)怎么給圖像分類

    圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)核心任務(wù),其目標(biāo)是將輸入的圖像自動(dòng)分配到預(yù)定義的類別集合中。這一過(guò)程涉及圖像的特征提取、特征表示以及分類器的設(shè)計(jì)與訓(xùn)練。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,圖像
    的頭像 發(fā)表于 07-08 17:06 ?1359次閱讀

    深度學(xué)習(xí)在工業(yè)機(jī)器視覺(jué)檢測(cè)中的應(yīng)用

    識(shí)別等任務(wù)。傳統(tǒng)的機(jī)器視覺(jué)檢測(cè)方法通常依賴于手工設(shè)計(jì)的特征和固定的算法,難以應(yīng)對(duì)復(fù)雜多變的工業(yè)環(huán)境。而深度學(xué)習(xí)的引入,為工業(yè)機(jī)器視覺(jué)檢測(cè)帶來(lái)
    的頭像 發(fā)表于 07-08 10:40 ?1590次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的機(jī)器學(xué)習(xí)算法原理,包括線性回歸、邏輯回歸、支持向量機(jī)
    的頭像 發(fā)表于 07-02 11:25 ?2014次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被
    的頭像 發(fā)表于 06-27 08:27 ?1890次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典<b class='flag-5'>算法</b>與應(yīng)用

    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    來(lái)源:DeepHubIMBA特征選擇是構(gòu)建機(jī)器學(xué)習(xí)模型過(guò)程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的特征,可以提高性能。如果我們處理的是高維數(shù)據(jù)集,那么選擇特征就顯得尤為重要。
    的頭像 發(fā)表于 06-05 08:27 ?549次閱讀
    通過(guò)強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>策略進(jìn)行<b class='flag-5'>特征</b>選擇
    主站蜘蛛池模板: 日韩免费一级 | 欧美美女一区二区三区 | h网站在线播放 | 久久国产精品自在自线 | 免费看日本大片免费 | 亚洲午夜精品久久久久久人妖 | 久久久久久天天夜夜天天 | 一本大道高清在线视频 视频 | 国产精品igao在线观看樱花日本 | 最近国语视频免费观看在线播放 | 国产三级 在线播放 | 三级在线网站 | 日韩亚射吧 | 美女一级毛片毛片在线播放 | 中文天堂| 国产成人精品亚洲77美色 | 五月天婷婷社区 | 欧美在线视频播放 | 日韩性插| 欧美一级视频在线观看 | 大胆国模一区二区三区伊人 | 免费四虎永久在线精品 | 狠狠狠狠狠狠狠狠 | 黄色毛片免费进入 | 国内精品久久久久影院免费 | 国产自在自线午夜精品视频在 | 亚洲精品资源在线 | 一区二区不卡视频在线观看 | 丁香综合在线 | 四虎传媒 | 免费看啪 | 国产亚洲精品仙踪林在线播放 | 一级特一级特色生活片 | 国内真实实拍伦视频在线观看 | 中文字幕在线观看一区二区三区 | www.亚洲黄色 | 欧美在线视频二区 | 亚洲最新在线观看 | 亚洲日本欧美日韩高观看 | 欧美激情亚洲精品日韩1区2区 | 国产欧美视频在线 |