本文對最近被 TPAMI 接收的一篇綜述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同數據模態的人類動作識別綜述)進行解讀。
1 概述
人類動作識別(Human Action Recognition, HAR)旨在理解人類的行為,并為每個行為分配一個標簽。多種不同的數據形態都可以用來表示人類的動作和行為。這些模態可以分為 2 類:視覺模態和非視覺模態,視覺模態和非視覺模態的主要區別在于:視覺模態的數據對人類行為的表示相對直觀,但是非視覺模態的數據則不是。視覺模態主要包括:如 RGB,骨架,深度,紅外,點云,事件流(event stream)等數據模態,而非視覺模態則主要包括音頻,加速度,雷達,wifi 信號等數據模態,如圖 1 所示。這些數據模態是對不同的信息來源進行編碼,根據應用場景的不同,不同模態的數據有著不同的獨特優勢。
圖 1 HAR 任務中使用到的數據模態 該綜述對基于不同數據模態的深度學習 HAR 方法的最新進展做了一個綜合調研。介紹調研的主要內容分為三部分(1)當前主流的單模態深度學習方法。(2)當前主流的多模態深度學習方法,包括基于融合(fusion)和協同學習(co-learning)的學習框架。(3)當前 HAR 任務的主流數據集。
2 單模態學習方法
前文中已經提到,不同模態具有著獨特的優勢,在這些模態中,單獨使用 RGB / 光流模態和骨架模態的 HAR 工作相對較多。而其他模態由于其大多存在一些固有的缺陷,所以單獨使用的情況較少,大部分情況下都是與其他模態結合使用。
2.1 RGB 和光流模態
RGB 模態指的是由 RGB 相機捕獲的圖像或序列。而光流則是視頻圖像中同一對象(物體)像素點移動到下一幀的移動量,由于通常是由 RGB 模態數據所進一步生成,所以下文中把 RGB 和光流模態統稱為 RGB 模態。RGB 模態的優點和缺點都非常明顯,優點主要有:(1)RGB 數據容易收集,通常是最常用的數據模態。(2)RGB 模態包含所捕獲的場景上下文的信息。(3)基于 RGB 的 HAR 方法也可以用來做 pretrained model。缺點主要有:(1)由于 RGB 數據中存在背景、視點、尺度和光照條件的變化,所以在 RGB 模態中進行識別通常具有挑戰性。(2)RGB 視頻數據量較大,計算成本較高。圖 2 展示了基于 RGB 模態數據的 HAR 方法的主要分類,下面分別對這些方法進行介紹。
圖 2 基于 RGB / 光流模態的 HAR 方法分類
基于 2D 雙流網絡的方法。
這類方法的核心思想是,通過兩個或多個 backbone 學習不同的視頻特征,[1]和 [2] 是這類方法中最具代表性的工作,[1]的兩個 stream 分別輸入 RGB 幀和多幀的光流,以分別學習外觀特征和運動特征, RGB + 光流的模態組合也被很多后續的工作所效仿。[2]則對低分辨率 RGB 幀和高分辨率 RGB 幀的中心裁剪輸入兩個 stream 中,以降低計算量。 精確的光流獲取通常需要很高的計算成本,所以如何在較低的計算成本下獲取光流的近似或代替也是此類方法一個研究重點。如 [3] 提出了一個基于知識蒸餾的框架實現從使用光流訓練的 teacher network 到使用 motion vector 作為輸入的 student 網絡的知識遷移。motion vector 可以直接從 compressed videos 中獲得,而不再需要額外的計算。
基于 RNN 的方法
2D 雙流網絡的一個缺點是對時序上的長期依賴關系的建模不足,那么使用時序建模的網絡如 LSTM,則可以彌補這一點。這類基于 RNN 的方法依據其核心貢獻又可以分為 4 小類:(1)2D CNN 與 RNN 的組合:如 [4] 使用 2D CNN 提取每個 frame 的特征,然后再使用 LSTM 生成動作標簽。(2)attention 機制的引入,attention 機制主要包括空間的 attention 和時序的 attention,或兩者的組合。比如 [5] 設計了一個多層的 LSTM 模型,可以遞歸地輸出對下一幀的輸入 feature map 的 attention map。(3)使用 GRU 等模型來代替 RNN,相比于 RNN,GRU 的參數更少,但在 HAR 任務上通??梢蕴峁┡c LSTM 相近的性能。(4)2D 雙流網絡和 RNN 的結合,比如 [6] 中利用 2D 雙流網絡分別提取 spatial 和短期的運動特征,然后再分別輸入 2 個 LSTM 來提取長時的運動信息。
基于 3D CNN 的方法。
基于 RNN 的方法通常是對 CNN 已經提取出的 feature 進行操作,而不是對原始的圖像序列進行操作。基于 3D CNN 的方法則可以做到這一點?;?3D CNN 的方法依據其核心貢獻同樣分為 4 小類:(1)2D CNN 到 3D CNN 的擴展,[7]使用 3D conv 從原始的視頻中直接學習時空特征。(2)對長時序依賴關系的建模,3D CNN 有著 CNN 共同的特點,側重于對 local 信息的提取,而對 global 信息的提取能力不足。[8]中提出了一個長時時間卷積框架,以降低空間分辨率為代價,增加了 3D 卷積在 temporal 維度上的感受野。(3)3D conv 的分解:3D 卷積通常包含大量的參數,也需要大量的訓練數據,因此其計算量較大。[9]提出將 3D conv 分解成了空間上的 2d conv 和時間維度上的 1d conv。(4) 對 3D conv 中其他問題的討論,比如 [10] 從概率的角度分析了 3d conv 中的時空融合,[11]提出了一個隨機均值縮放的正則化方法來解決過擬合問題。
基于 transformer 的方法。
transformer 是一種以 attention 機制為核心的模型,其在長時序建模、多模態融合和多任務處理等方面具有良好的性能,由于 transformer 在 NLP 領域的成功應用,目前也有很多將 transformer 應用到 HAR 任務中的方法,如 [12] 通過把 video 分解成 frame-level 的 patches,將 VIT 應用到了視頻中,并且在模型的每個 block 中分別應用了 spatial 和 temporal 的 attention。 但是,transformer 的通病是其所需的顯存和計算開銷一般較大,所以也有很多工作,研究了如何降低基于 transformer 的視頻理解模型的復雜度,比如 [13] 將 3d 的視頻幀轉換成 2d 的 super image 作為 transformer 的輸入。[14]使用了在 spatial 維度進行特征處理的 backbone(例如 2D CNN)和基于 temporal attention 的 encoder 來達到精度和速度之間的權衡。
2.2 骨架數據模態
骨架序列表人體關節的軌跡,這些軌跡可以用來表征人體的運動,因此骨架數據是比較適配于 HAR 任務的一種數據模態,骨架數據提供的是身體結構與姿態信息,其具有兩個明顯的優點:(1)具有比例不變性。(2)對服裝紋理和背景是魯棒的。但同時也有兩個缺點:(1)骨架信息的表示比較稀疏,存在噪聲。(2)骨架數據缺少人 - 物交互時可能存在的形狀信息。圖 3 展示了基于骨架模態數據的 HAR 方法的主要分類,下面分別對這些方法進行介紹。
圖 3 基于骨架數據模態的 HAR 方法分類
基于 RNN 的方法。
使用 RNN 的核心原因是希望能夠學習時序數據中的動態依賴性。這類基于 RNN 和骨架數據的 HAR 方法,大多聚焦于 RNN 或 LSTM 等模型在 HAR 任務上的改進和應用。如 [15] 將人體骨骼分為 5 個部分,這 5 部分分別輸入到多個雙向 RNN 中,然后再將其輸出進行分層融合,以生成動作的高級表示。[16]提出了一個部分感知 LSTM,并模擬了 LSTM 單元中不同身體部分之間的關系。
基于 CNN 的方法。
CNN 以其在空間維度上卓越的特征提取和學習能力,在 2D 圖像識別任務中取得了巨大的成功。把 CNN 應用到基于骨架數據的 HAR 任務中時,一個研究重點是對時空信息的建模。如 [17] 和[18]的思路是將骨架序列數據編碼成圖像,然后送入 CNN 中進行動作識別,它們分別給出了骨骼光譜圖和關節軌跡圖。此外也有一些工作專注于解決某些特定的問題,比如視點變化問題和計算成本過高的問題。
基于 GNN/GCN 的方法。
將人體的骨架數據表示為一個序列或 2d/3d 的 image,并不能對身體關節作出完全準確的模擬。而人體的骨架天然地就可以表示為一個 graph,因此基于 GNN 或 GCN 的 HAR 方法成為了近兩年一個熱門的研究方向。[19]將人體的骨架表示為了一個有向無環圖以有效地合并骨骼和關節信息。[20]設計了一個時空 GCN(Spatial-temporal GCN)以從骨架數據中分別學習 spatial 和 temporal 的 feature。
基于 transformer 的方法。
將 transformer 應用于骨骼序列的 HAR 任務時,研究的重點仍然是時空維度的建模。比如 [21] 中提出 Spatial-Temporal Specialized Transformer (STST),其由一個 spatial transformer 模塊和一個 temporal transformer 模塊組成。spatial transformer 模塊用于捕捉 frame-level 的姿態信息,temporal transformer 用于在 temporal 維度上捕捉長動作。
2.3 深度模態
深度圖中的像素值表示的是從給定視點到場景中的點的距離,所以構建深度圖的本質是將 3D 數據轉換為 2D 的 image。該模態通常對顏色和紋理的變化比較魯棒,隨著技術的發展,現在已經有多種設備可以捕獲場景中的深度圖?,F有的對深度數據學習的方法大多數還是利用 CNN 提取深度圖中的 feature。深度數據可以提供幾何形狀信息,但是對外觀數據的提供是缺失的,所以深度數據通常不單獨使用,而是與其他模態的數據融合使用。
2.4 紅外模態
紅外數據的獲取主要有兩種方式:(1)主動式,發射紅外線,利用目標反射的紅外線感知場景中的物體。(2)被動式,通過感知物體發出的紅外線來感知物體。在目前基于深度學習的方法中,比較多的做法是把紅外圖像作為其中一個 stream 輸入雙流或多流網絡中。紅外數據以其不需要依賴外部環境的可見光的特點,特別適合于夜間的 HAR,但是,紅外圖像也有著對比度低和信噪比低的固有缺點。
2.5 點云模態
點云數據由大量的點組成,這些點可以用來表示物體的空間分布和表面特征。作為一種三維數據形態,點云具有很強的表達物體輪廓和三維幾何形狀的能力,且對視點的變化不敏感。但是點云中通常存在噪聲和高度不均勻的點分布。[22]將原始的點云序列轉換為規則的體素集合,并應用 temporal rank pooling 將 3D 動作信息編碼到一個單獨的 voxel set 中。最后通過 PonitNet++[23]將體素表示應用于 3D HAR 任務中。但是將點云轉換為體素不僅效率較低,而且會帶來量化誤差。[24]提出直接堆疊多幀點云,并通過聚合 temporal 和 spatial 維度上的相鄰點的信息計算局部特征。
2.6 事件流模態
事件照相機(event camera)可以捕捉照明條件的變化并為每個像素獨立產生異步事件。傳統的攝像機通常會捕捉整個圖像陣列,而事件攝像機僅響應視覺場景的變化。事件照相機能夠有效地濾除背景信息,而只保留前景運動信息,這樣可以避免視覺信息中的大量冗余,但是其捕捉到的信息通常在時間和空間維度上是稀疏的,而且是異步的。因此一些現有的方法主要聚焦于設計事件聚合策略,將事件攝像機的異步輸出轉換為同步的視覺幀。
2.7 音頻模態
音頻信號通常與視頻信號一起提供,由于音頻和視頻是同步的,所以音頻數據可以用定位動作。因為音頻信號中的信息量是不足的,所以單獨使用音頻數據執行 HAR 任務相對比較少見。更常見的情況是音頻信號作為 HAR 的補充信息,與其他模態(如 rgb 圖像)一起使用。
2.8 加速度模態
加速度信號通常是從加速度計中獲得,它具有以下的優點:(1)對遮擋、視點、照明、背景等因素的變化具有魯棒性。(2)對某個特定的動作,人們一般都使用相似的方式完成,所以加速度信號對同一個動作的類內方差較小。(3)加速模態可以用于細粒度的 HAR。但同時,該模態也存在一些固有的局限性:(1)志愿者需要隨身佩戴傳感器,而且這些傳感器通常比較笨重。(2)傳感器在人體上的具體位置對性能會有比較明顯的影響。
2.9 雷達模態
雷達的工作原理是發射電磁波并接收來自目標的回波,其優勢是對照明和天氣條件變化魯棒,并且具有穿墻感知的能力,但昂貴的傳感器成本是制約其實際應用的重要因素。現有的方法將多普勒頻譜圖視作時間序列或圖像,并分別送入 RNN 和 CNN 中以預測行為類別,目前也有一些方法,將雷達模態的數據納入到了雙流網絡結構中。
2.10 wifi 模態
wifi 是現在最常見的室內無線信號類型之一,由于人體是無線信號的良好反射體,所以 wifi 信號可以用于 HAR 任務,現有的基于 wifi 的 HAR 方法大多使用信道狀態信息(CSI)來執行 HAR 任務。如何更有效地利用 CSI 的相位和幅度信息,以及如何在處理動態環境時提高魯棒性,是目前基于 wifi 的 HAR 任務所面臨的主要挑戰。
3 多模態學習方法
多模態機器學習是一種建模方法,旨在處理和關聯來自多模態的視覺信息,通過聚合各種數據模態的優勢,多模態學習可以在 HAR 任務上得到更魯棒和準確的結果。多模態學習方法主要有兩種,融合(fusion)和協同學習(co-learning)。其中融合指的是對來自兩個或更多模態的信息進行集成,并將其用于訓練或推理,而協同學習指的則是對不同模態之間的知識進行遷移。圖 4 展示了多模態學習方法的分類,對于每種類型的多模態學習方法,本篇解讀會介紹原綜述文章中提及的一些具有代表性的方法,更多的方法介紹請直接閱讀原綜述文章。
圖 4 多模態 HAR 方法分類
3.1 HAR 任務中的多模態融合
模態融合的目的是利用不同數據模態的互補優勢,以達到更好的識別性能?,F有的多模態融合方案主要有兩種:(1)評分融合(score fusion),即對不同模態輸出的 score 做融合,例如使用加權平均或學習一個分數融合模型。(2)特征融合,即對來自不同模態的特征進行組合。數據融合(在特征提取之前就融合不同模態的輸入數據)可以看成是特征融合,因為某一模態的數據可以被視為該模態的原始特征。依據輸入模態的不同,現有的多模態融合方法大概可以分為視覺模態之間的融合,與視覺 + 非視覺模態之間的融合兩種,下面對這兩類方法分別做一個較為詳細的介紹。
視覺模態之間的融合
(1)RGB + 深度模態:RGB 和深度模態分別能夠捕捉外觀信息和 3D 形狀信息,因此它們具有比較強的互補性。[25]提出了一個 four-stream CNN,其中一個 stream 輸入 RGB 數據,剩下三個 stream 分別輸入三個不同視點下捕捉的深度運動圖,融合策略選擇評分融合。[26]將 RGB 和深度數據看做兩對 RGB 和深度的動態圖像,通過一個協同訓練的 CNN 提取特征,并聯合優化排序損失和 softmax 損失來進行訓練。[27]同樣提出了一個多流混合網絡,該網絡分別使用 CNN 和 3D convLSTM 來提取來自 RGB 和深度圖的特征,然后通過典型關聯分析(Canonical Correlation Analysis)進行模態間的信息融合。
(2)RGB + 骨架模態:骨架模態可以提供身體位置和關節運動信息,同樣和 RGB 模態是互補的。[28]提出了一個雙流深度網絡,兩個 stream 分別是 CNN 和 RNN,用以分別處理 RGB 和骨架數據,融合方式同時嘗試了特征融合和分數融合,并發現應用特征融合策略可以取得更好的效果。[29]設計了一個 three-stream 的 3D CNN 來分別處理人體姿態、運動和 RGB 圖像,通過馬爾科夫鏈來融合三個 stream,并用于動作分類。[30]提出了一種時空 LSTM 網絡,它能夠在 LSTM 單元內有效地融合 RGB 和骨架特征。
(3)深度圖 + 骨架模態:[31]將身體的每個部分與其他部分之間的相對幾何關系作為骨架特征,將不同身體部分周圍的深度圖像塊作為外觀特征,以編碼身體 - 對象和身體部分 - 身體部分之間的關系,進而實現可靠的 HAR。[32]提出了一種 three-stream 的 2D CNN,對深度和骨架序列提取的三種不同的手工特征進行分類,然后采用評分融合模塊得到最終的分類結果。
(4)RGB + 深度圖 + 骨架模態:這類方法大多是前文提到的三類多模態融合方法的擴展。如 [33] 研究了模態之間的相關性,將它們分解成相關和獨立的成分,然后使用一個結構化的基于稀疏性的分類器輸出分類結果。[34]從每個模態提取 temporal feature map,然后再在模態維度對這些 feature map 執行 concat 操作,以獲得跨 RGB、骨架和深度模態的時變信息。[35]提出了一個 five-stream network,歷史運動圖像、深度運動圖、以及三個分別從 RGB, 深度和骨架序列生成的骨架圖像分別是這 5 個 stream 的輸入。
(5)其他視覺模態間的融合:這些方法的思路與前文中所述的基本類似,比如 [36] 中提出了一個基于 TSN[37]的多模態融合模型,RGB、深度圖、紅外和光流序列分別使用 TSN 執行初始分類,然后使用一個融合網絡,以獲取最終的分類分數。
視覺模態 + 非視覺模態的融合
同樣地,視覺與非視覺模態的融合,其目的也是希望能夠利用不同模態之間的互補性,得到更精確的 HAR 模型。
(1)視頻與音頻的融合:前文中已經提到,音頻可以為視頻的外觀和運動信息提供補充信息。所以目前已經有一些基于深度學習的方法來融合這種模態的數據,比如 [38] 引入了一個 three-stream 的 CNN,從音頻信號,RGB 幀和光流中分別提取特征,然后再進行融合(在該文中,特征融合的效果好于評分融合)。[39]是 [37] 的一個改進,其在每個時間綁定窗口內融合多模態輸入序列(也就是說,融合來自不同模態的信息可能是異步的)。[40]利用音頻信號減少了視頻中的時間冗余,其思想是把使用 video clips 訓練的 teacher network 中的知識提取到使用圖像 - 音頻對訓練的 student network 中。
(2)視頻與加速度模態的融合:現有的基于深度學習的視頻與加速度模態融合的方法大多是采用雙流或多流網絡的架構,比如 [41] 將慣性信號表示為圖像,然后使用兩個 CNN 分別處理視頻和慣性信號,最后使用評分融合的方法融合兩個模態的信號。[42]則是將 3D 視頻幀序列和 2D 的慣性圖像分別送入 3D CNN 和 2D CNN 中,然后執行模態間的融合。
(3)其他類型的模態融合:這類方法中,相對比較有代表性的是 [43] 和[44],其中 [43] 的核心思想是將非 RGB 模態的數據,包括骨架、加速度和 wifi 數據都轉換成彩色圖像,然后送入 CNN 中。[44]則提出了一種 video-audio-text transformer(VATT),將視頻,音頻和文本數據的線性投影作為 transformer 的輸入,并提取多模態的特征表示,VATT 還量化了不同模態的粒度,并且采用視頻 - 音頻對和視頻 - 文本對的 NCE Loss 進行訓練。
3.2 HAR 任務中的多模態協同學習
多模態協同學習旨在探索如何利用輔助模態學習到的知識幫助另一個模態的學習,希望通過跨模態的知識傳遞和遷移可以克服單一模態的缺點,提高性能。多模態協同學習與多模態融合的一個關鍵區別在于,在多模態協同學習中,輔助模態的數據僅僅在訓練階段需要,測試階段并不需要。所以多模態協同學習尤其適用于模態缺失的場景。此外對于模態樣本數較小的場景,多模態協同學習也可以起到一定的幫助作用。
視覺模態的協同學習
(1)RGB 和深度模態的協同學習。如 [45] 使用知識蒸餾的方法實現模態間的協同學習,其中 teacher network 輸入深度圖,而 student network 輸入的則是 RGB 圖像。[46]提出了一種基于對抗學習的知識提取策略用來訓練 student network。[47]則提出了一種合作學習策略,即在不同的輸入模態中,使用分類損失最小的模態所生成的預測標簽,作為其他模態訓練的附加監督信息。 (2)RGB 和骨架模態的協同學習。如 [48] 利用 CNN+LSTM 執行基于 RGB 視頻的分類,并利用在骨架數據上訓練的 LSTM 模型充當調節器,強制兩個模型的輸出特征相似。 (3)其他視覺模態的協同學習。除了 RGB、骨架、深度模態的協同學習之外,目前也有一些其他的視覺模態的協同學習的工作,比如 [49] 提出了一種可遷移的生成模型,該模型使用紅外視頻作為輸入,并生成與其對應的 RGB 視頻的虛假特征表達。該方法的生成器由兩個子網絡組成,第一個子網絡用以區分生成的虛假特征和真實的 RGB 特征,第二個子網絡將紅外視頻的特征表達和生成的特征作為輸入,執行動作的分類。
視覺和非視覺模態的協同學習
這類工作可以大致分為兩種類型,第一種類型是在不同模態之間進行知識的遷移,如 [50] 中的 teacher network 使用非視覺模態訓練,而 student network 使用 RGB 模態作為輸入,通過強制 teacher 和 student 的 attention map 相似以彌補模態間的形態差距,并實現知識的提煉。第二種類型是利用不同模態之間的相關性進行自監督學習,比如 [51] 分別利用音頻 / 視頻模態中的無監督聚類結果作為視頻 / 音頻模態的監督信號。[52]使用視頻和音頻的時間同步信息作為自監督信號。
4 現有的數據集
原論文中的 table 6 展示了目前 HAR 任務的各個數據模態的數據集,展示如下:
可以看到,對于絕大部分數據模態,目前都存在對應的數據集,這些數據集也在很大程度上方便了我們對 HAR 任務的研究和探索。 5 總結 作者在原綜述文章的最后一部分展望了 HAR 領域未來的發展方向,作者認為有 6 個方向可能是未來研究和探索的重點,分別是:(1)新的數據集(比如不受控環境下的多模態數據集);(2)多模態學習;(3)高效的行為分析;(4)早期行為識別(即只有一部分動作被執行);(5)大規模訓練;(6)無監督和半監督學習。作者還提到,他們會定期地收集 HAR 領域的最新進展并更新到本綜述文章中。
6 個人思考
該綜述調研了約 500 篇文章,涵蓋了 HAR 任務中可能使用的各個模態,是對這一領域非常全面的總結。從綜述中可以看到,無論是單模態還是多模態的模型,其 backbone 通常都是以下幾種網絡之一(或它們的組合):
(1)2D CNN(空間信息的提?。?/p>
(2)RNN/LSTM/GRU(時序信息的提取);
(3)3D CNN(時間 + 空間維度的信息提?。?;
(4)GNN/GCN(節點之間的關系抽取);
(5)transformer(長時序建模)。
對于 HAR 任務中的多模態融合來說,目前最常見的做法是使用一個雙流或多流網絡,每個 stream 分別提取一個模態的特征,然后再后接一個多模態融合模塊。對于 HAR 任務中的多模態協同學習來說,目前常見的做法則是使用跨模態知識蒸餾或對抗學習的框架完成。這些 backbone 和融合 / 協同學習策略的組合,可以概括目前 HAR 領域的大部分文章。 對不同模態的數據,往往需要不同的模型來提取其特征,這對于 HAR 的模型設計來說是非常不方便的。有時為了適配現有的模型,需要對某些模態的數據做一些特定的預處理(比如目前提取音頻模態特征的一種常用方法是,將一維的音頻信號轉換成二維的頻譜圖,再送入 CNN 中進行特征提取),這些特定的預處理可能存在一定的信息丟失。所以是否可以有一種通用的模型,能夠比較好地處理各種形態不同的多模態數據呢?這是目前整個 AI 界都比較關注的一個問題,而其在 HAR 任務上體現的尤為明顯。transformer 目前在圖像、文本等模態中都取得了非常好的效果,它能否成為我們期待的通用模型呢?以現在 AI 領域日新月異的發展速度,我相信我們很快就可以看到答案。 另外,該綜述的多模態學習部分,按照使用的模態對現有的工作進行了分類總結,而多模態學習的研究核心,很大的一部分在于模態間的融合或協同學習的策略,如果能夠按照具體的融合或協同學習的策略對現有的工作進行分類總結,可能會更好一些。
參考文獻
[1] K. Simonyan and A. Zisserman, "Two-stream convolutional networks for action recognition in videos," in Advances in Neural Information Processing Systems, vol. 27, 2014.
[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei, "Large-scale video classification with convolutional neural networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1725-1732.
[3] B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang, "Real-time action recognition with enhanced motion vector cnns," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2718-2726.
[4] J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, "Long-term recurrent convolutional networks for visual recognition and description," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2625-2624.
[5] S. Sharma, R. Kiros, and R. Salakhutdinov, "Action recognition using visual attention," arXiv preprint arXiv:1511.04119, 2015.
[6] Z. Wu, X. Wang, Y.-G. Jiang, H. Ye, and X. Xue, “Modeling spatial-temporal clues in a hybrid deep learning framework for video classification,” in Proceedings of the 23rd ACM international conference on Multimedia, 2015, pp. 461-470.
[7] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, "Learning spatiotemporal features with 3d convolutional networks," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 4489-4497.
[8] G. Varol, I. Laptev, and C. Schmid, "Long-term temporal convolutions for action recognition," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 6, pp. 1510-1517, 2017.
[9] Z. Qiu, T. Yao, and T. Mei, "Learning spatio-temporal representation with pseudo-3d residual networks," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 4489-4497.
[10] Y. Zhou, X. Sun, C. Luo, Z.-J. Zha, and W. Zeng, "Spatiotemporal fusion in 3d cnns: A probabilistic view," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 1725-1732.
[11] J. Kim, S. Cha, D. Wee, S. Bae, and J. Kim, "Regularization on spatio-temporally smoothed feature for action recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 12103-12112.
[12] ] G. Bertasius, H. Wang, and L. Torresani, "Is space-time attention all you need for video understanding?," in ICML, vol. 2, no. 3, 2021.
[13] Q. Fan, C.-F. Chen, and R. Panda, "Can an image classifier suffice for action recognition?," in International Conference on Learning Representations, 2022.
[14] D. Neimark, O. Bar, M. Zohar, and D. Asselmann, "Video transformer network," in Proceedings of the IEEE International Conference on Computer Vision, 2021, pp. 3163-3172.
[15] Y. Du, W. Wang, and L. Wang, "Hierarchical recurrent neural network for skeleton based action recognition," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1110-1118.
[16] A. Shahroudy, J. Liu, T.-T. Ng, and G. Wang, "Ntu rgb+d: A large scale dataset for 3d human activity analysis," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1010-1019.
[17] Y. Hou, Z. Li, P. Wang, and W. Li, "Skeleton optical spectra-based action recognition using convolutional neural networks," IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 3, 2016.
[18] P. Wang, Z. Li, Y. Hou, and W. Li, "Action recognition based on joint trajectory maps using convolutional neural networks," in Proceedings of the 24th ACM international conference on Multimedia, 2016, pp. 102-106.
[19] L. Shi, Y. Zhang, J. Cheng, and H. Lu, "Skeleton-based action recognition with directed graph neural networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 7912-7921.
[20] S. Yan, Y. Xiong, and D. Lin, "Spatial temporal graph convolutional networks for skeleton-based action recognition," in Thirty-second AAAI conference on artificial intelligence, 2018.
[21] Y. Zhang, B. Wu, W. Li, L. Duan, and C. Gan, "Stst: Spatial-temporal specialized transformer for skeleton-based action recognition," in Proceedings of the 29th ACM international conference on Multimedia, 2021, pp. 3229-3237.
[22] Y. Wang, Y. Xiao, F. Xiong, W. Jiang, Z. Cao, J. T. Zhou, and J. Yuan, "3dv: 3d dynamic voxel for action recognition in depth video," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 511-520.
[23] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, "Pointnet++: Deep hierarchical feature learning on point sets in a metric space," in Advances in Neural Information Processing Systems, vol. 30, 2017.
[24] X. Liu, M. Yan, and J. Bohg, "Meteornet: Deep learning on dynamic 3d point cloud sequences," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9246-9255.
[25] J. Imran and P. Kumar, "Human action recognition using rgb-d sensor and deep convolutional neural networks," in 2016 international conference on advances in computing, communications and informatics (ICACCI), 2016, pp. 144-148.
[26] P. Wang, W. Li, J. Wan, P. Ogunbona, and X. Liu, "Cooperative training of deep aggregation networks for rgb-d action recognition," in Thirty-second AAAI conference on artificial intelligence, 2018.
[27] H. Wang, Z. Song, W. Li, and P. Wang, "A hybrid network for large-scale action recognition from rgb and depth modalities," Sensors, vol. 20, no. 11, 2020.
[28] R. Zhao, H. Ali, and P. Van der Smagt, "Two-stream rnn/cnn for action recognition in 3d videos," in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2017, pp. 4260-4267.
[29] M. Zolfaghari, G. L. Oliveira, N. Sedaghat, and T. Brox, "Chained multi-stream networks exploiting pose, motion, and appearance for action classification and detection," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 2904-2913.
[30] J. Liu, A. Shahroudy, D. Xu, A. C. Kot, and G. Wang, "Skeleton-based action recognition using spatio-temporal lstm network with trust gates," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 12, pp. 3007-3021, 2017.
[31] H. Rahmani and M. Bennamoun, "Learning action recognition model from depth and skeleton videos," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5832-5841.
[32] S. S. Rani, G. A. Naidu, and V. U. Shree, "Kinematic joint descriptor and depth motion descriptor with convolutional neural networks for human action recognition," Materials Today, vol. 37, 3164-3173, 2021.
[33] A. Shahroudy, T.-T. Ng, Y. Gong, and G. Wang, "Deep multimodal feature analysis for action recognition in rgb+d videos," IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 5, pp. 1045-1058, 2017.
[34] J.-F. Hu, W.-S. Zheng, J. Pan, J. Lai, and J. Zhang, "Deep bilinear learning for rgb-d action recognition," in Proceedings of the European Conference on Computer Vision, 2018, pp. 5832-5841.
[35] P. Khaire, P. Kumar, and J. Imran, "Combining cnn streams of rgb-d and skeletal data for human activity recognition," Pattern Recognition Letters, vol. 115, pp. 107-116, 2018.
[36] S. Ardianto and H.-M. Hang, "Multi-view and multi-modal action recognition with learned fusion," in 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 1601-1604, 2018.
[37] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool, "Temporal segment networks: Towards good practices for deep action recognition," in Proceedings of the European Conference on Computer Vision, 2016, pp. 20-36.
[38] C. Wang, H. Yang, and C. Meinel, "Exploring multimodal video representation for action recognition,"in 2016 International Joint Conference on Neural Networks (IJCNN), pp. 1924-1931, 2016.
[39] E. Kazakos, A. Nagrani, A. Zisserman, and D. Damen, "Epic-fusion: Audiovisual temporal binding for egocentric action recognition," in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5492-5501.
[40] R. Gao, T.-H. Oh, K. Grauman, and L. Torresani, "Listen to look: Action recognition by previewing audio," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 10457-10467.
[41] N. Dawar and N. Kehtarnavaz, "A convolutional neural network-based sensor fusion system for monitoring transition movements in healthcare applications," in 2018 IEEE 14th International Conference on Control and Automation (ICCA), pp. 482-485, 2018.
[42] H. Wei, R. Jafari, and N. Kehtarnavaz, "Fusion of video and inertial sensing for deep learning–based human action recognition," Sensors, vol. 19, no. 17, 2019.
[43] A. Gorban, H. Idrees, Y.-G. Jiang, A. Roshan Zamir, I. Laptev, M. Shah, and R. Sukthankar, "THUMOS challenge: Action recognition with a large number of classes." http://www.thumos.info/, 2015.
[44] H. Akbari, L. Yuan, R. Qian, W.-H. Chuang, S.-F. Chang, Y. Cui, and B. Gong, "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text,"in Advances in Neural Information Processing Systems, vol. 27, 2014.
[45] N. C. Garcia, P. Morerio, and V. Murino, "Modality distillation with multiple stream networks for action recognition," in Proceedings of the European Conference on Computer Vision, 2018, pp. 5832-5841.
[46] N. C. Garcia, P. Morerio, and V. Murino, "Learning with privileged information via adversarial discriminative modality distillation," IEEE transactions on pattern analysis and machine intelligence, vol. 42, no. 10, pp. 2581-2593, 2019.
[47] N. C. Garcia, S. A. Bargal, V. Ablavsky, P. Morerio, V. Murino, and S. Sclaroff, "Dmcl: Distillation multiple choice learning for multimodal action recognition," arXiv preprint arXiv:1912.10982, 2019.
[48] B. Mahasseni and S. Todorovic, "Regularizing long short term memory with 3d human-skeleton sequences for action recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3054-3062.
[49] . Wang, C. Gao, L. Yang, Y. Zhao, W. Zuo, and D. Meng, "Pm-gans: Discriminative representation learning for action recognition using partial-modalities," in Proceedings of the European Conference on Computer Vision, 2018, pp. 384-401.
[50] Y. Liu, K. Wang, G. Li, and L. Lin, "Semantics-aware adaptive knowledge distillation for sensor-to-vision action recognition," IEEE Transactions on Image Processing, vol. 30, pp. 5573-5588, 2021.
[51] H. Alwassel, D. Mahajan, L. Torresani, B. Ghanem, and D. Tran, "Self supervised learning by cross-modal audio-video clustering," arXiv preprint arXiv:1911.12667, 2019.
[52] B. Korbar, D. Tran, and L. Torresani, "Cooperative learning of audio and video models from self-supervised synchronization," in Advances in Neural Information Processing Systems, vol. 31, 2018.
編輯:黃飛
評論
查看更多