在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于視頻語言模型LiteVL的無參的特征池化方法

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀

沿著從大規模圖文多模態預訓練遷移適配到視頻多模態任務的思路,我們提出了模型LiteVL,它利用圖文預訓練模型BLIP來初始化參數,可以直接在下游任務上微調而不需要進行額外的昂貴的視頻文本預訓練。并且為了增強圖像語言模型中缺乏的時間建模,我們提出在BLIP的Image encoder中增加具有動態時間縮放(dynamic temporal scaling)的時間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數池化text-dependent pooling,以自適應地重新加權以文本為條件的細粒度視頻嵌入。我們選取了兩個具有代表性的下游任務,即文本-視頻檢索和視頻問答,來驗證所提出方法的有效性。實驗結果表明,所提出的LiteVL在沒有任何視頻文本預訓練的情況下,甚至明顯優于以前的視頻文本預訓練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規模video-text數據集 (WebVid2M,CC-3M,HowTo100M) 上進行預訓練,然后在下游任務的數據集上微調,而預訓練的成本往往十分昂貴。另一方面,學習細粒度的visual-language對齊往往需要利用離線的目標檢測器 (e.g., ActBERT) 來捕捉物體信息,但卻受限于檢測器有限的類別數量 (e.g., 在MSCOCO數據集上訓練的目標檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數據的監督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規模圖文對上預訓練的,它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態領域的研究上,基于預訓練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務上性能表現很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL,它是從近期的預訓練圖像語言模型BLIP初始化而來的,并且分別從模型層面和特征層面做了時域信息增強。

對于模型層面,我們提出用一組具有可學習scaling factor的時間注意層明確插入原始image backbone中,可以針對每個下游任務進行訓練調整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對于特征層面,我們設計了一種無參的特征池化方法(Text-dependent Pooling),以學習基于文本描述的細粒度時間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動態時序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數據集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時間建模,最終性能優于原始BLIP。

關于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過提出的輕巧的動態時間縮放自適應地根據每個特定任務調整框架級別的重要性,使性能得到進一步提高。此外,與僅使用原始特征相比,使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內容上,并更少注意不同幀之間的時間依賴性。當層的深度增加時,每個幀的空間特征變得更加全局,并且該模型逐漸尋求學習它們之間的時間依賴性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后,我們提出了具有動態時間縮放的額外時間注意力塊,以學習視頻幀中的時間動態。我們還引入了一種無參的text-denpendent pooling,該方法基于文本描述來對不同幀或者空間位置進行加權,從而實現了細粒度的視頻語言對齊。實驗結果表明,我們的LiteVL優于利用了視頻文本預訓練的最先進方法。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    888

    瀏覽量

    48504
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25318

原文標題:EMNLP 2022 | LiteVL:具有增強時空建模的高效視頻-語言學習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型
    的頭像 發表于 03-17 15:32 ?3224次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    語言模型的解碼策略與關鍵優化總結

    本文系統性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術原理及其實踐應用。通過深入分析各類解碼算法的工作機制、性能特征和優化方法,為研究者和工
    的頭像 發表于 02-18 12:00 ?533次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的解碼策略與關鍵優化總結

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?1592次閱讀
    一文詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調
    的頭像 發表于 12-05 15:30 ?1593次閱讀

    Kaggle知識點:使用大模型進行特征篩選

    方法依賴于數據集中的樣本點進行統計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯。這種方法利用了大型語言
    的頭像 發表于 12-03 01:06 ?1668次閱讀
    Kaggle知識點:使用大<b class='flag-5'>模型</b>進行<b class='flag-5'>特征</b>篩選

    云端語言模型開發方法

    云端語言模型的開發是一個復雜而系統的過程,涉及數據準備、模型選擇、訓練優化、部署應用等多個環節。下面,AI部落小編為您分享云端語言模型的開發
    的頭像 發表于 12-02 10:48 ?651次閱讀

    語言模型優化生成管理方法

    語言模型的優化生成管理是一個系統工程,涉及模型架構、數據處理、內容控制、實時響應以及倫理監管等多個層面。以下,是對大語言模型優化生成管理
    的頭像 發表于 12-02 10:45 ?357次閱讀

    語言模型自動的優點

    語言模型自動不僅優化了信息處理流程,提高了工作效率,還促進了跨文化交流,增強了人機交互的智能水平。以下,是對語言
    的頭像 發表于 11-26 11:17 ?366次閱讀

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優缺點。
    的頭像 發表于 10-29 09:17 ?647次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量標簽文本數據上學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    的章節包括統一自然語言任務、大語言模型的訓練過程和局限性分析,閱讀還算順利。 至此,基礎篇只能算是瀏覽完成,因為部分原理方法并沒有吃透,但盡管如此也是收獲頗豐,因為我了解了大
    發表于 07-25 14:33

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發表于 07-11 10:11 ?922次閱讀

    卷積神經網絡中層的作用

    。其中,層(Pooling Layer)作為CNN的重要組成部分,在降低模型復雜度、提高計算效率以及增強模型的不變性和魯棒性方面發揮著關鍵作用。本文將從多個方面深入探討
    的頭像 發表于 07-03 15:58 ?3203次閱讀

    CNN模型的基本原理、結構、訓練過程及應用領域

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。CNN模型的核心是卷積層
    的頭像 發表于 07-02 15:26 ?5630次閱讀

    卷積神經網絡cnn中層的主要作用

    (Pooling Layer)是一個關鍵的組成部分,它對卷積層的輸出進行下采樣,降低特征圖(Feature Map)的空間維度,從而減少計算量和參數數量,提高模型的泛能力。
    的頭像 發表于 07-02 14:50 ?2395次閱讀
    主站蜘蛛池模板: 日本黄色免费看 | 久久综合97色综合网 | 777成了人乱视频 | 欧美线人一区二区三区 | 国产精品入口免费视频 | 一级毛片西西人体44rt高清 | 5月婷婷6月丁香 | 国产精品三区四区 | 午夜精品久久久久蜜桃 | 8050网午夜| 97精品久久天干天天蜜 | 色网综合| 欧美高清老少配性啪啪 | 欧美另类网 | 四虎永久免费地址在线网站 | 啪啪啦资源站永久 | 丁香六月五月婷婷 | 午夜黄页网站在线播放 | 六月婷婷综合网 | 我要看18毛片 | www.免费| 欧美猛操 | 国产女在线 | 美女脱裤子屁屁视频 | 日韩三级免费观看 | 国产a一级毛片午夜剧场14 | 欧美一区二区三区免费看 | 中国美女毛片 | 公妇乱淫日本免费观看 | 亚洲色图综合网站 | 人人搞人人 | 国产一级特黄的片子 | 黄色免费在线网址 | 国产性色视频 | 精品伊人久久大线蕉地址 | 国产伦精一区二区三区 | 国产片一级aaa毛片视频 | 欧洲不卡一卡2卡三卡4卡网站 | 免费大秀视频在线播放 | 欧美性极品高清 | 人人插97 |