視頻理解是計算機視覺中的重要任務,近年來隨著深度學習特別是監督學習的應用視頻理解取得了飛速的發展,例如視頻行為分類和視頻片段總結等任務都取得了令人矚目的成果。
不過,現實生活中很多場景的應用視頻片段需要不止一個標簽來提供足夠的信息。舉個例子,機器人往杯子里倒水,一個簡單的“傾倒液體”標簽不足以預測出杯子何時倒滿,機器人需要逐幀追蹤杯中的水量。再比如說,在運動分析領域,棒球教練不僅僅想要看到投球的動作,而是想精確地分析投手投出棒球離手的一瞬間,單一的視頻標簽不足以完成這樣的視頻檢索任務。這意味著視頻理解模型需要逐幀理解視頻的能力。
然而如果使用監督學習的方法將會使學習成本變得非常昂貴,這需要針對視頻里每一幀的動作進行細粒度的標注,訓練不同的動作還需要新的標注來提供監督信號。但從機器人到運動分析等領域,細粒度的視頻理解有著很強的需求,那么如何在不需要大量標簽的情況下對視頻進行學習以理解細粒度的信息呢?
來自谷歌的研究人員們提出了一種稱為時間循環一致性學習(Temporal Cycle-Consistency Learning,TCC)的自監督方法。通過學習不同樣本相似過程的表示來實現細粒度的時域視頻理解,為逐幀視頻檢索、動作分析、視頻同步和多模態遷移提供了新的解決方案。
基于TCC的視頻表示學習
世間的萬事萬物發展的過程都有特定的規律,從嫩芽到參天大樹的植物生長到起床上班回家兩點一線的996工作,再到簡單倒水的動作都在時間上滿足一定的順序。
多個不同實例的相同過程可以從視頻捕捉到的信息中找到對應的聯系。全世界的人往容器中倒水動作都差不多,無論對象是茶壺、酒瓶、水壺都有著相似的過程。其中傾倒液體的關鍵時刻在多個不同的視頻中都有著相同的特性——都需要舉起起一個容器向另一個容器中傾倒,而視頻中的其他特性則與拍攝的視角、光照、環境、尺度、容器以及速度有關。TCC的關鍵在于通過循環一致性的原則,從多個視頻中尋找出對應的相同動作。
算法的目標在于訓練出一個有效的幀編碼器來獲取對應動作的表示編碼。研究人員首先將兩個待配準的視頻傳入編碼器中獲取對應的嵌入信息,而后選擇兩個視頻來進行TCC的訓練,其中video1作為參考視頻,從中取出一幀并利用最鄰近方法在嵌入空間中找到video2中最為近似的一幀;而后以video2中找到的這一幀作為輸入,從新到嵌入空間中尋找video中對應的幀(circle過程)。如果學習出的嵌入空間具有循環一致性的話,這一幀和先前輸入video1的參考幀應該是同一幀。
上圖中可以看到,左邊的嵌入在循環檢索后對應原來的幀,說明循環一致性得到滿足;而右邊的嵌入在循環檢索后獲取的幀與輸入的幀有差異,則表示這一嵌入的循環一致性沒有得到滿足,他們在嵌入空間中的差值就表示為循環一致性損失。模型的訓練過程通過不斷提高對于每個視頻幀的語義理解來減小循環一致性誤差。充分訓練后的TCC可以學習出時域的細粒度理解能力,并能夠有效對齊相關的視頻。
TCC學習到的表達
研究人員隨后驗證了TCC學習到的表達,是否有效理解了多個視頻中的相似動作。實驗在Penn Action數據集上進行,研究人員將多個包含人體深蹲訓練的視頻利用T后發現了空間可視化學習到的隱含特征。
左圖中亮度較高的點是當前幀對應的表示。紫色為輸入的參考視頻,其余為其他視頻中檢索到的最鄰近幀。可以看到雖然各個視頻的角度、場景、主體不同,但對應的嵌入表示和對應的視頻幀卻以相同的趨勢在運動,TCC有效地將深蹲動作的不同過程進行了編碼而無需顯式的人工標注。
TCC的潛在應用
由于這種方法可以有效學習逐幀視頻的遷移表達可廣泛應用于小樣本視頻動作分類、無監督視頻對齊、多模態遷移和逐幀視頻檢索。
小樣本動作階段分類。當只有很少的標注視頻樣本時,TCC方法可以有效地將不同動作階段進行分類。研究人員將基于TCC的方法與監督學習方法進行比較,可以發現只用一個完全標記的視頻樣本訓練就可與監督學習需要五十個標注的視頻樣本訓練獲得同樣的效果。下圖中可以看到TCC方法在兩種動作識別中小樣本學習的良好表現。
對齊或同步視頻。當視頻的數量增加時對齊或同步不同視頻間的動作將會是耗時耗力的工作,但利用TCC多個視頻的同步可以利用參考視頻的幀來在每個目標視頻中尋找最鄰近的幀實現對齊:
視頻標簽/模態遷移。由于TCC可以在嵌入空間中找到每一幀對應的最鄰近幀進行視頻匹配,所以這種方法還可以將視頻對應的元數據進行遷移,包括時域語義標簽或者音頻數據。研究人員展示了一個可以把倒水的聲音遷移到一段沒有聲音的視頻上,倒水的聲音別成功遷移到了倒牛奶的視頻上了,甚至放瓶子的聲音也很逼真!
逐幀視頻檢索。TCC還可以作為關鍵幀在嵌入空間中用于視頻中相似幀的檢索。學習出的嵌入表達具有很強的分辨能力,可以區分出某一個動作前后的相鄰幀。
研究人員還將整個工作的代碼開源,不僅包括了TCC,還包括了多個先進自監督方法的實現,將為會視頻理解的研究以及藝術家利用視頻同步進行創作帶來很大的幫助。
-
谷歌
+關注
關注
27文章
6207瀏覽量
106148 -
視頻
+關注
關注
6文章
1959瀏覽量
73192 -
數據集
+關注
關注
4文章
1210瀏覽量
24861
原文標題:讀懂視頻的每分每秒,谷歌提出自監督方法提升視頻細粒度理解能力
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
一致性測試系統的技術原理和也應用場景
LMK05318的ITU-T G.8262一致性測試結果
![LMK05318的ITU-T G.8262<b class='flag-5'>一致性</b>測試結果](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
電感值和直流電阻的一致性如何提高?
新品發布 | 同星智能正式推出CAN總線一致性測試系統
![新品發布 | 同星智能正式推出CAN總線<b class='flag-5'>一致性</b>測試系統](https://file.elecfans.com/web2/M00/40/07/pYYBAGJrUk2AaMaTAAAQONQtdzo461.jpg)
銅線鍵合焊接一致性:如何突破技術瓶頸?
![銅線鍵合焊接<b class='flag-5'>一致性</b>:如何突破技術瓶頸?](https://file1.elecfans.com/web2/M00/F8/DD/wKgaomaGBROAAiBKAABhS-29J1Y023.png)
為什么主機廠愈來愈重視CAN一致性測試?
![為什么主機廠愈來愈重視CAN<b class='flag-5'>一致性</b>測試?](https://file.elecfans.com/web2/M00/50/DA/pYYBAGLH6TyAB71EAAAPQ7KgtYA038.png)
鋰電池組裝及維修的關鍵:電芯一致性的重要性
![鋰電池組裝及維修的關鍵:電芯<b class='flag-5'>一致性</b>的重要<b class='flag-5'>性</b>](https://file1.elecfans.com//web2/M00/C9/62/wKgaomYcl4GAA56qAALJuy8IGWU845.jpg)
QSFP一致性測試的專業測試設備
![QSFP<b class='flag-5'>一致性</b>測試的專業測試設備](https://file1.elecfans.com/web2/M00/C4/47/wKgZomXyY4qAKEGrAAVGaNn6BMs107.png)
銅線鍵合焊接一致性:微電子封裝的新挑戰
![銅線鍵合焊接<b class='flag-5'>一致性</b>:微電子封裝的新挑戰](https://file1.elecfans.com/web2/M00/C4/15/wKgZomXxCvWASBLdAABcDeZrHFY695.png)
企業數據備份體系化方法論的七大原則:深入理解數據備份的關鍵原則:應用一致性與崩潰一致性的區別
![企業數據備份體系化<b class='flag-5'>方法</b>論的七大原則:深入理解數據備份的關鍵原則:應用<b class='flag-5'>一致性</b>與崩潰<b class='flag-5'>一致性</b>的區別](https://file1.elecfans.com/web2/M00/C4/AA/wKgaomXunvmAVVChAAUqyh3vgLI115.png)
深入理解數據備份的關鍵原則:應用一致性與崩潰一致性的區別
![深入理解數據備份的關鍵原則:應用<b class='flag-5'>一致性</b>與崩潰<b class='flag-5'>一致性</b>的區別](https://file1.elecfans.com/web2/M00/C4/A2/wKgaomXueUOAUC9kAAUkG4ifnAc542.png)
評論