在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于實體和動作時空建模的視頻文本預訓練

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-25 11:29 ? 次閱讀

摘要

盡管常見的大規模視頻-文本預訓練模型已經在很多下游任務取得不錯的效果,現有的模型通常將視頻或者文本視為一個整體建模跨模態的表示,顯示結合并建模細粒度信息的探索并不多,本文提出了STOA-VLP,一種時間和空間維度上同時建模動態的實體和動作信息的video-language預訓練框架,以進一步增強跨模態的細粒度關聯性。

簡介

細粒度的信息對于理解視頻場景并建模跨模態關聯具有很重要的作用。如圖1-a中:基于視頻生成對應的視頻描述,需要關注其中的人、狗兩個實體,隨著時間的推移,兩個實體之間的相對狀態和空間位置發生了變化,模型需要對動態的實體信息和實體之間的交互進行建模,才能正確地生成對應的視頻描述。更進一步地,如圖1-b中:在同一個視頻片段當中,視頻中的實體,如猴子和貓之間的不同交互產生了多個不同的動作狀態,而問題就是針對相關聯的動作提出的,模型不但需要建模視頻片段中的多個動作,感知動作狀態的變化,還需要推理出動作狀態之間的關聯才能得到正確的答案。

0b1b197a-fa2a-11ed-90ce-dac502259ad0.png圖1:例子

在本文中,我們提出了一個視頻-文本預訓練方法——STOA-VLP,通過顯式地建模時序相關的實體軌跡和多個時空動作特征來更好地應對視頻中實體的動態變化和實體交互。此外,我們設計了兩個輔助預訓練任務:實體-文本對齊(object text alignment, OTA)任務和動作集合預測(Action Set Prediction, ASP)任務以在與訓練階段利用文本特征輔助建模前述的實體軌跡和動作特征。

方法

0b284302-fa2a-11ed-90ce-dac502259ad0.png圖2:模型整體架構

模型架構

模型的整體架構如圖2左側所示,模型整體結構包括模態相關編碼器:視頻編碼器(Video Encoder)、文本編碼器(Text Encoder)、和一個模態無關編碼器(Modality-agnostic Fusion Encoder),文本和視頻分別經過視頻和文本編碼器進行特征抽取。為了顯式地建模動態的實體軌跡和時空動作特征,我們引入了兩個新的特征編碼器:實體軌跡編碼器(Object Trajectory Encoder)和時空動作編碼器(Spatial-Temporal Action Encoder),我們從視頻幀中抽取實體的邊界框(bounding box)信息,其中的實體bounding box、分類信息用于與視頻特征結合生成對應的實體有噪標注,作為實體軌跡編碼器和時空動作編碼器的輸入。最終,四個模態相關的編碼器抽取的特征會同時進入模態無關編碼器進行信息融合交互。所有的編碼器都采用Transformer[1]結構。我們利用視頻編碼器和文本編碼器分別得到對應的視頻、文本特征和,其余各模塊的具體介紹如下:

實體軌跡編碼追蹤器:正如前文例子所示,如果模型不能很好地建模視頻幀之間實體的動態變化,在下游任務上可能無法獲得最好的效果。因此,我們通過建模跨視頻幀的有噪實體軌跡來解決這個問題:a. 使用離線的實體檢測模型(VinVL[2])分別對每一幀進行實體檢測。b. 每幀保留Top-K個不同的實體,并且留下其候選框和類別,通過RoIAlign方法[3] 得到top-K個實體的表征:,為視頻編碼器編碼的視頻特征的塊(patch)級別的表征。c. 通過求和不同幀的候選實體檢測分類置信分數,選取top-N個實體類別用作視頻級需要建模軌跡的候選實體類別d. 我們將不同視頻幀抽取得到的實體特征拼接,并合并時間和實體維度,得到對應的實體特征,針對步驟d中得到的Top-N實體類別,我們為每個類別構造一個mask ,mask位置為1,代表中對應位置的實體特征類別為。通過實體類別的mask和實體特征矩陣,我們能夠掩碼得到對應實體在不同幀的特征合成的特征軌跡,稱之為實體軌跡序列。e. 對于每個視頻,我們最終能夠構造得到N個實體軌跡序列,我們將其輸入實體軌跡編碼器,最終取位置的特征,得到實體軌跡特征。

時空動作編碼器:識別視頻片段中動作的關鍵是,識別場景中的實體,并建模實體在視頻場景中的移動和不同的交互。在此,我們顯式建模多個動作特征,以捕捉視頻片段中不同的動作信息。a. 我們假設視頻片段中包含有M個不同的動作,為了獲得每個動作的特征,我們構造M個動作特征請求(query),。b. 我們使用前述通過視頻編碼器和實體檢測模型得到的視頻特征和對應的實體表征,拼接得到包含場景和實體信息的視頻特征。c. 我們利用動作特征query,通過注意力機制獲得幀級別的動作特征線索:。d. 我們將每個動作特征序列輸入到時空動作編碼器當中,來建模不同幀之間包含的時序線索,最后,我們得到的動作特征編碼。

模態無關交互編碼器:通過拼接上游四個步驟的特征:視頻表征、文本表征、實體軌跡特征、時空動作特征輸入對應的編碼器進行進一步的交互,最后,我們取和位置的輸出作為視頻和文本的整體表征。

訓練目標

如圖2所示,STOA-VLP的預訓練過程包含四類訓練目標:視頻-文本對齊任務、條件語言建模任務,以及我們提出的兩個輔助任務——動態實體-文本對齊(Dynamic Object-Text Alignment, OTA)和時空動作集合預測(Spatial-Temporal Action Set Prediction, ASP)。我們利用視覺-文本對比學習任務(Visual-Text Contrastive, VTC)和視覺-文本對齊任務(Visual-Text Maching)建模視頻-文本的粗粒度對齊。利用掩碼語言建模(MLM)和前綴語言建模(PLM)來增強模態無關編碼器的語言理解和生成能力。為了進一步提升實體軌跡追蹤編碼器的效果,建立細粒度的跨模態對齊表示,我們通過OTA任務對齊候選實體軌跡和文本中相關文本,以進一步提高通過視頻特征得到的實體軌跡和文本特征的相關性:

通過詞性標注工具,抽取文本中的名詞用作對齊候選,并使用對應的文本編碼器輸出對應的名詞特征

使用軌跡追蹤編碼器輸出的軌跡特征和名詞特征的相似度為他們之間的關聯權重

最終使用匈牙利算法[4]得到二分圖的最大匹配,模型的目標是盡力提高最大匹配的相似度0b6ff1f2-fa2a-11ed-90ce-dac502259ad0.png相比于利用抽取得到的特征直接預測有限的動作類別,我們在這里選擇了一種更彈性的方法——從匹配文本中的動詞集合中預測對應于當前動作特征的類別,以指導時空動作編碼器的學習:

我們利用詞性標注工具和文本編碼器得到對應的動詞特征集合。

我們并不能直接標注視頻中包含的動作類別,也無法知道編碼得到的動作特征和文本中包含動作的對應關系,因此我們同樣在這里通過動作特征和文本動詞特征之間的相似度作為關聯權重,并將最大匹配視為當前的ground truth匹配關系,并最大化最大匹配的相似度:0b75c8f2-fa2a-11ed-90ce-dac502259ad0.png通過優化該目標,比我們編碼的動作特征和文本中的動詞特征距離將被拉近,動作編碼器能夠生成和文本特征更相關的特征。

實驗

實驗細節

我們在WebVid-2M[5]數據集上進行模型的預訓練,WebVid-2M包含了250萬個從網絡中收集的視頻-文本對。我們利用CLIP-ViT-B/16[6]初始化我們的視頻編碼器,并用其頂層參數初始化實體軌跡編碼器和時空動作編碼器。文本編碼器和模態編碼器由CLIP文本編碼器的前6層初始化。實體軌跡編碼的數量為20,動作特征的個數為4。

下游任務

我們在三類常用的視頻-文本理解和生成任務上進行了實驗:視頻描述生成,文本-視頻檢索和視頻問答

0b96da2e-fa2a-11ed-90ce-dac502259ad0.png表1:視頻描述生成的實驗結果

在使用更少的視頻-文本預訓練數據的情況下,我們的模型在視頻描述生成上得到了更好的結果,在多數指標上都超過了其他的模型。通過顯式地建模基于文本信息對齊的實體軌跡和動作信息,模型能夠更好地利用其進行視頻描述生成。

0ba77776-fa2a-11ed-90ce-dac502259ad0.png表2:文本-視頻檢索的實驗結果

如表2所示,我們的模型在檢索任務上的所有指標都超過了未基于CLIP初始化的模型,并且在大多數指標上均超過了基于CLIP初始化的模型。

0be6b29c-fa2a-11ed-90ce-dac502259ad0.png表3:視頻問答的實驗結果

如表3所示,在視頻問答任務上,我們的模型僅使用了2.5M的預訓練數據,超越了MSVD-QA上的所有其他方法。與之前的SOTA,MSVD-QA的性能提高2.9%,MSR-VTT-MC的性能提高1.4%。我們推測,通過顯式地建模實體軌跡和動作,在問題和視覺特征之間建立了更好的對齊,并觀察和利用視頻中的細粒度信息來更好地回答文本問題。

消融實驗

0befbb4e-fa2a-11ed-90ce-dac502259ad0.png表4:不同模塊的消融實驗

我們進一步分析了我們引入的時空特征和輔助任務的影響,并在視頻描述生成和視頻問答兩個任務上驗證,這兩個任務在本質上需要更細粒度的信息和對視頻場景時空信息的理解。Base模型刪除了所有時空建模模塊和輔助建模任務。與Base模型相比,僅僅引入基于時序的實體軌跡信息就可以為所有任務帶來改進。我們的OTA任務進一步構建了實體軌跡和名詞之間的細粒度對齊,文本模態的指導進一步提升了模型在下游任務當中的表現。我們還發現,不引入輔助任務ASP的情況下,添加一個時空動作建模模塊引入時空動作token會使得下游任務的部分指標更差。我們認為,這可能是因為視頻描述生成和視頻問答任務需要對視覺部分進行細粒度的語義理解,如果沒有ASP任務的指導,我們抽取的動作特征的含義是模糊的,其導致了性能下降。最后,連同我們提出的時空模塊和兩個輔助任務,我們在下游任務上取得了最好的結果,表明我們引入的細粒度時空信息和輔助任務能夠提升預訓練模型在下游任務的能力,一定程度上緩解了前述的問題。

結論

在本文中,我們通過在視頻-文本預訓練的過程中顯式建模細粒度的時空特征來更好地構建跨模態的對齊。我們提出的STOA-VLP引入了兩個新的模塊,在時空維度上建模實體軌跡和動作特征。我們設計了兩個輔助任務來建立由粗到細的跨模態對齊。僅僅使用中等規模的與訓練數據,我們在下游任務上就觀察到了較好的表現,該方法進一步增強了視覺特征和文本特征之間的關聯性。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3673

    瀏覽量

    135308
  • 建模
    +關注

    關注

    1

    文章

    313

    瀏覽量

    60904
  • 模型
    +關注

    關注

    1

    文章

    3338

    瀏覽量

    49266

原文標題:AAAI 2023 | 基于實體和動作時空建模的視頻文本預訓練

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】大語言模型的訓練

    數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化,可以進一步提高數據的質量和可用性,為后續的數據分析和建模提供更有價值的數據支持。 在得到了大語言模型的數據之后,就是對其進行訓練。大圓模型擁有
    發表于 05-07 17:10

    3D軟件中實體建模與曲面建模有什么區別?

    實體建模和曲面建模是3D設計中較為常用的兩種三維建模方式,那么這兩者在實際的繪圖操作中有什么區別呢?又該如何區分使用這兩種三維建模方式呢?下
    發表于 06-05 15:25

    為什么要使用訓練模型?8種優秀訓練模型大盤點

    正如我們在本文中所述,ULMFiT使用新穎的NLP技術取得了令人矚目的成果。該方法對訓練語言模型進行微調,將其在WikiText-103數據集(維基百科的長期依賴語言建模數據集Wikitext之一)上
    的頭像 發表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預</b><b class='flag-5'>訓練</b>模型?8種優秀<b class='flag-5'>預</b><b class='flag-5'>訓練</b>模型大盤點

    一種側重于學習情感特征的訓練方法

    在大規模無監督語料上訓練的語言模型正逐漸受到自然語言處理領琙硏究者的關注。現有模型在訓練階段主要提取文本的語義和結構特征,針對情感類任務
    發表于 04-13 11:40 ?4次下載
    一種側重于學習情感特征的<b class='flag-5'>預</b><b class='flag-5'>訓練</b>方法

    怎樣去增強PLM對于實體實體間關系的理解?

    傳統的訓練目標沒有對文本中的關系事實進行顯式建模,而這些關系事實對于理解文本至關重要。
    的頭像 發表于 06-23 15:32 ?1233次閱讀
    怎樣去增強PLM對于<b class='flag-5'>實體</b>和<b class='flag-5'>實體</b>間關系的理解?

    多模態圖像-文本訓練模型

    某一方面的智能程度。具體來說是,領域專家人工構造標準數據集,然后在其上訓練及評價相關模型及方法。但由于相關技術的限制,要想獲得效果更好、能力更強的模型,往往需要在大量的有標注的數據上進行訓練。 近期
    的頭像 發表于 09-06 10:06 ?4188次閱讀
    多模態圖像-<b class='flag-5'>文本</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>模型

    如何實現更綠色、經濟的NLP訓練模型遷移

    NLP中,訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本訓練得到的Bert、GPT等模型,在下游不同任務上分
    的頭像 發表于 03-21 15:33 ?2266次閱讀

    文本訓練的模型架構及相關數據集

    多模態訓練的數據通常來源于大規模的模態間對齊樣本對。由于時序維度的存在,視頻當中包含了比圖片更加豐富而冗余的信息。因此,收集大規模的視頻-文本
    的頭像 發表于 07-01 11:08 ?2092次閱讀

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當中,如最早的使用ImageNet
    的頭像 發表于 08-08 15:33 ?1469次閱讀

    基于VQVAE的長文本生成 利用離散code來建模文本篇章結構的方法

    輸入信息有限,而要求輸出內容豐富,經常需要生成多個句子或段落,在這些任務上訓練語言模型依然存在連貫性較差、缺乏常識等問題。本次與大家分享一篇建模文本篇章結構的工作,用以提升生成
    的頭像 發表于 12-01 17:07 ?1814次閱讀

    復旦&amp;微軟提出?OmniVL:首個統一圖像、視頻文本的基礎訓練模型

    根據輸入數據和目標下游任務的不同,現有的VLP方法可以大致分為兩類:圖像-文本訓練視頻-文本
    的頭像 發表于 12-14 15:26 ?982次閱讀

    訓練數據大小對于訓練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務上的良好表現主要得益于其在大量無監督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個訓練模型的究竟學
    的頭像 發表于 03-03 11:20 ?1535次閱讀

    ELMER: 高效強大的非自回歸訓練文本生成模型

    每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關系,依次生成的結構也使得自回歸模型難以并行化。目前大部分訓練生成模型均采用自回歸方式,包括GPT-2,
    的頭像 發表于 03-13 10:39 ?1463次閱讀

    NLP中的遷移學習:利用訓練模型進行文本分類

    遷移學習徹底改變了自然語言處理(NLP)領域,允許從業者利用預先訓練的模型來完成自己的任務,從而大大減少了訓練時間和計算資源。在本文中,我們將討論遷移學習的概念,探索一些流行的訓練
    發表于 06-14 09:30 ?483次閱讀

    基于文本到圖像模型的可控文本視頻生成

    1. 論文信息 2. 引言 ? 大規模擴散模型在文本到圖像合成方面取得了巨大的突破,并在創意應用方面取得了成功。一些工作試圖在視頻領域復制這個成功,即在野外世界建模高維復雜視頻分布。然
    的頭像 發表于 06-14 10:39 ?1011次閱讀
    基于<b class='flag-5'>文本</b>到圖像模型的可控<b class='flag-5'>文本</b>到<b class='flag-5'>視頻</b>生成
    主站蜘蛛池模板: 天天视频国产精品 | 久久夜色精品国产噜噜小说 | 一区二区免费播放 | 国产成人精品一区二区三区 | 国产精品一级毛片不收费 | 成年女人毛片免费观看97 | 国产nv精品你懂得 | 免费理论片在线观看播放 | 日韩欧美一区二区三区不卡视频 | 午夜女上男下xx00xx00动态 | 成人午夜大片免费7777 | 色综合天天综合网亚洲影院 | 曰本黄色一级 | 亚洲视频在线播放 | 日本韩国三级视频 | 欧美成人69 | 中文字幕不卡免费高清视频 | 色播视频在线观看免费 | 4444狠狠| 日韩一级高清 | 日本高清视频成人网www | 亚洲国产福利精品一区二区 | 国产资源免费观看 | 久久精品国产免费观看99 | 久久久久免费精品国产小说 | 国产全部理论片线观看 | 色爱区综合激情五月综合色 | 美女张开腿露尿口给男人亲 | 深深激情网 | 狠狠色丁香婷婷第六色孕妇 | 婷婷丁香啪啪 | 午夜日本一区二区三区 | 最近2018年在线中文字幕高清 | 秋霞特色大片18入口私人高清 | 夜夜爽www | www.a级片| 日本不卡视频一区二区三区 | 56pao强力打造 | 亚洲美女激情视频 | 成人亚洲精品 | 色狠狠狠狠综合影视 |