在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OneLLM:對齊所有模態的框架!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2024-01-04 11:27 ? 次閱讀

今天為大家介紹香港中文大學聯合上海人工智能實驗室的最新研究論文,關于在LLM時代將各種模態的信息對齊的框架。

隨著LLM的興起,由于其強大的語言理解和推理能力,在學術和工業界中越來越受歡迎。LLM的進展也啟發了研究人員將LLM作為多模態任務的接口,如視覺語言學習、音頻語音識別視頻理解等,因此多模態大語言模型(Multimodal Large Language Model, MLLM)也引起了研究人員的關注。然而,目前的研究依賴特定于單模態的編碼器,通常在架構上有所不同,并且僅限于常見的模態。本文提出了OneLLM,這是一種MLLM,它使用一個統一的框架將八種模式與語言對齊。通過統一的多模態編碼器和漸進式多模態對齊pipelines來實現這一點。不同多模態LLM的比較如下圖所示,可以明顯的看出OneLLM框架的工作方式與之前研究的區別。

5a99f7a2-972b-11ee-8b88-92fbcf53809c.png

OneLLM由輕量級模態標記器、通用編碼器、通用投影模塊(UPM)和LLM組成。與之前的工作相比,OneLLM 中的編碼器和投影模塊在所有模態之間共享。特定于模態的標記器,每個標記器僅由一個卷積層組成,將輸入信號轉換為一系列標記。此外,本文添加了可學習的模態標記,以實現模態切換并將不同長度的輸入標記轉換為固定長度的標記。

動機

眾多特定于模態的編碼器通常在架構上有所不同,需要付出相當大的努力將它們統一到一個框架中。此外,提供可靠性能的預訓練編碼器通常僅限于廣泛使用的模式,例如圖像、音頻和視頻。這種限制對 MLLM 擴展到更多模式的能力施加了限制。因此,MLLM 的一個關鍵挑戰是如何構建一個統一且可擴展的編碼器,能夠處理廣泛的模態。

貢獻

本文提出了一個統一框架來將多模態輸入與語言對齊。與現有的基于模態的編碼器的工作不同,展示了一個統一的多模態編碼器,它利用預訓練的視覺語言模型和投影專家的混合,可以作為 MLLM 的通用且可擴展的組件。

OneLLM 是第一個在單個模型中集成八種不同模態的MLLM。通過統一的框架和漸進式多模態對齊pipelines,可以很容易地擴展OneLLM以包含更多數據模式。

本文策劃了一個大規模的多模態指令數據集。在這個數據集上微調的 OneLLM 在多模態任務上取得了更好的性能,優于主流模型和現有的 MLLM。

相關工作

LLM的迅猛發展引起了研究人員的重視,因此有研究人員提出了視覺領域的大型視覺語言模型,并取得了較好的性能。除了視覺領域大語言模型之外,研究人員將其拓展到了多模態領域,如音頻、視頻和點云數據中,這些工作使得將多種模式統一為一個LLM成為可能即多模態大語言模型。X-LLM,ChatBridge,Anymal,PandaGPT,ImageBind-LLM等MLLM不斷涌現。然而,當前的 MLLM 僅限于支持常見的模式,例如圖像、音頻和視頻。目前尚不清楚如何使用統一的框架將 MLLM 擴展到更多模式。在這項工作中,提出了一個統一的多模態編碼器來對齊所有模態和語言。將多種模式對齊到一個聯合嵌入空間中對于跨模態任務很重要,這可以分為:判別對齊和生成對齊。判別對齊最具代表性的工作是CLIP,它利用對比學習來對齊圖像和文本。后續工作將 CLIP 擴展到音頻文本、視頻文本等。本文的工作屬于生成對齊。與之前的工作相比,直接將多模態輸入與LLM對齊,從而擺脫訓練模態編碼器的階段。

方法

模型架構

wKgZomWWJbyAA2gGAAJq_939EiE671.png

上圖展示了 OneLLM 的四個主要組件:特定于模態的標記器通用編碼器通用投影模塊LLM

模態標記器:模態標記器是將輸入信號轉換為標記序列,因此基于轉換器的編碼器可以處理這些標記。為每個模態設計了一個單獨的標記器。對于圖像和視頻等二維位置信息的視覺輸入,直接使用單個二維卷積層作為標記器。對于其他模態,將輸入轉換為 2D 或 1D 序列,然后使用 2D/1D 卷積層對其進行標記。

通用編碼器:利用預訓練的視覺語言模型作為所有模態的通用編碼器。視覺語言模型在對大量圖文數據進行訓練時,通常學習視覺和語言之間的穩健對齊,因此它們可以很容易地轉移到其他模式。在OneLLM中,使用CLIPViT作為通用計算引擎。保持CLIPViT的參數在訓練過程中被凍結。

通用投影模塊:與現有的基于模態投影的工作不同,提出了一個通用投影模塊,將任何模態投影到 LLM 的嵌入空間中。由 K 個投影專家組成,其中每個專家都是在圖像文本數據上預訓練的一堆transformer層。盡管一位專家還可以實現任何模態到 LLM 的投影,但實證結果表明,多個專家更有效和可擴展。當擴展到更多模態時,只需要添加幾個并行專家。

LLM:采用開源LLaMA2作為框架中的LLM。LLM的輸入包括投影的模態標記和單詞嵌入后的文本提示。為了簡單起見,本文總是將模態標記放在輸入序列的開頭。然后LLM被要求以模態標記和文本提示為條件生成適當的響應。

漸進式多模態對齊

多模態對齊的簡單方法是在多模態文本數據上聯合訓練模型。然而,由于數據規模的不平衡,直接在多模態數據上訓練模型會導致模態之間的偏差表示。本文訓練了一個圖像到文本模型作為初始化,并將其他模式逐步接地到LLM中。包括圖文對齊、多模態-文本對齊。同時為每個模態收集 X 文本對。圖像-文本對包括LAION-400M和LAION-COCO。視頻、音頻和視頻的訓練數據分別為WebVid-2.5M、WavCaps和Cap3D。由于沒有大規模的deep/normal map數據,使用預訓練的 DPT 模型來生成deep/normal map。源圖像和文本以及 CC3M。對于IMU-text對,使用Ego4D的IMU傳感器數據。對于fMRI-text對,使用來自NSD數據集的 fMRI 信號,并將與視覺刺激相關的字幕作為文本注釋。

多模態指令調優

在多模態文本對齊之后,OneLLM 成為一個多模態字幕模型,可以為任何輸入生成簡短的描述。為了充分釋放OneLLM的多模態理解和推理能力,本文策劃了一個大規模的多模態指令調優數據集來進一步微調OneLLM。在指令調優階段,完全微調LLM并保持其余參數凍結。盡管最近的工作通常采用參數高效的方法,但憑經驗表明,完整的微調方法更有效地利用 OneLLM 的多模態能力,特別是利用較小的 LLM(e.g.,LLaMA2-7B)。

實驗

實現細節

架構:通用編碼器是在LAION上預訓練的CLIP VIT Large。LLM 是 LLAMA2-7B。UPM有K=3個投影專家,每個專家有8個transformer塊和88M個參數。

訓練細節:使用AdamW優化器,β1=0.9,β2==0.95,權重衰減為0.1。在前2K次迭代中應用了線性學習速率預熱。對于階段I,在16個A100 GPU上訓練OneLLM 200K次迭代。有效批量大小為5120。最大學習率為5e-5。對于第II階段,在8個GPU上訓練 OneLLM 200K,有效批量大小為1080,最大學習率為1e-5。在指令調優階段,在8個gpu上訓練OneLLM 1 epoch,有效批大小為512,最大學習率為2e-5。

定量評價

Image-Text Evaluation:下表結果表明,OneLLM還可以在視覺專門的LLM中達到領先水平,MLLM和視覺LLM之間的差距進一步縮小。

5adf94ce-972b-11ee-8b88-92fbcf53809c.png

Video-Text Evaluation:下表可以看出,本文模型在相似的 VQA 數據集上進行訓練明顯增強了其緊急跨模態能力,有助于提高視頻QA任務的性能。

5af65632-972b-11ee-8b88-92fbcf53809c.png

Audio-Text Evaluation:對于Audio-Text任務,結果顯示,在Clotho AQA上的zero-shot結果與完全微調的Pengi相當。字幕任務需要更多特定于數據集的訓練,而QA任務可能是模型固有的零樣本理解能力更準確的度量。

5b1135ec-972b-11ee-8b88-92fbcf53809c.png

Audio-Video-Text Evaluation:下表結果表明,OneLLM-7B在所有三個數據集上都超過了 ChatBridge-13B。由于 OneLLM 中的所有模態都與語言很好地對齊,因此在推理過程中可以直接將視頻和音頻信號輸入到 OneLLM。

5b1d3f04-972b-11ee-8b88-92fbcf53809c.png

Point Cloud-Text Evaluation:從下表中可以看出,由于精心設計的指令提示在任務之間切換,OneLLM可以實現出色的字幕結果,而InstructBLIP和PointLLM 難以生成簡短而準確的字幕。在分類任務中,OneLLM也可以獲得與 PointLLM 相當的結果。

5b2bb908-972b-11ee-8b88-92fbcf53809c.png

Depth/Normal Map-Text Evaluation:如下表中所示,與CLIP相比,OneLLM實現了優越的zero-shot分類精度。這些結果證實,在合成deep/normal map-text數據上訓練的OneLLM可以適應現實世界的場景。

5b40249c-972b-11ee-8b88-92fbcf53809c.png

消融實驗

為了探索 OneLLM 的一些關鍵設計。消融實驗是在訓練數據的一個子集上進行的,除了對專家數量的研究外,它只包含圖像、音頻和視頻的多模態對齊和指令調整數據集。如果沒有指定,其他設置保持不變。消融實驗的結果如下表所示,

5b51b13a-972b-11ee-8b88-92fbcf53809c.png

MLLM 的一個重要問題是聯合訓練的 MLLM 是否優于特定于模態的 MLLM。為了解決這個問題,在表7(a)中比較了單獨訓練的MLLM與聯合訓練的MLLMs的性能。在單獨的訓練中,模型只能訪問自己的數據;在聯合訓練中,模型在所有數據上聯合訓練。在兩個圖文任務 NoCaps 和 VQAv2 上,可以看到單獨和聯合訓練的模型取得了可比較的結果;雖然單獨訓練的音頻和視頻模型比 ClothoQA 和 MSVDQA 上的聯合訓練模型差得多。這表明聯合訓練通過允許跨模態遷移學習知識的轉移,極大地有利于數據稀缺模態(例如音頻和視頻)。

表7(b)表明,具有圖像-文本對齊的 OneLLM 可以幫助多模態文本對齊。如果使用隨機初始化的模型直接將所有模態與文本對齊,圖像和視頻的性能會顯著下降。相反,具有圖像-文本預訓練的 OneLLM 可以更好地平衡不同的模式。

具有三個投影專家的 OneLLM 足以保持所有模態。增加專家的數量并不能帶來所需的改進,而一位專家的結果也不能令人滿意。

軟路由器優于其他兩個路由器,表明其對多模態信號的動態路由的有效性。

定性分析

下圖中給出了 OneLLM 在八種模態上的一些定性結果。展示了 OneLLM 可以(a)理解圖像中的視覺和文本內容,(b)利用視頻中的時間信息,(c)基于音頻內容進行創造性寫作,(d)理解3D形狀的細節,(e)分析fMRI數據中記錄的視覺場景,(f)基于運動數據猜測人的動作,以及(g)-(h)使用deep/normal map進行場景理解。

wKgaomWWJgSAQnvvAAavrEjsY2k628.png

以下是OneLLM框架更多的定性分析結果。

wKgaomWWJi6AJMC9AAZqFxDV0Rg887.png

總結

在這項工作中,本文介紹了 OneLLM,這是一種 MLLM,它使用一個統一的框架將八種模式與語言對齊。最初,訓練一個基本的視覺LLM。在此基礎上,設計了一個具有通用編碼器、UPM 和 LLM 的多模態框架。通過漸進式對齊pipelines,OneLLM 可以使用單個模型處理多模態輸入。此外,本文工作策劃了一個大規模的多模態指令數據集,以充分釋放OneLLM的指令跟蹤能力。最后,在 25 個不同的基準上評估 OneLLM,顯示出其出色的性能。

限制與未來工作:本文的工作面臨兩個主要挑戰:

缺乏圖像之外模態的大規模、高質量的數據集,這導致 OneLLM 和這些模式上的專業模型之間存在一定差距。

高分辨率圖像、長序列視頻和音頻等的細粒度多模態理解。未來,將收集高質量的數據集,設計新的編碼器來實現細粒度的多模態理解。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3748

    瀏覽量

    136509
  • 路由器
    +關注

    關注

    22

    文章

    3790

    瀏覽量

    115518
  • 大模型
    +關注

    關注

    2

    文章

    2929

    瀏覽量

    3680
  • LLM
    LLM
    +關注

    關注

    1

    文章

    316

    瀏覽量

    632

原文標題:OneLLM:對齊所有模態的框架!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電機聯軸控制的旋轉機械定轉子模態分析

    結構優化具有指導意義。純分享帖,需要者可點擊附件獲取完整資料~~~*附件:電機聯軸控制的旋轉機械定轉子模態分析.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 04-24 21:07

    圖解邊沿對齊,中心對齊PWM(可下載)

    在說邊沿對齊,中心對齊前,我們先來段鋪墊,PWM 又稱脈沖寬度調制,我們通過調 節脈沖的占空比,我們可以控制電壓的大小(比如我們滿占空比時電壓為 12V,我們可以通 過調節占空比讓電壓變為 7V
    發表于 03-31 15:15 ?0次下載

    一種多模態駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略了其他關鍵模態的建模,如地圖信息、智能交通參與者等,從而限制了其在真實駕駛場景中的適用性。
    的頭像 發表于 03-24 15:57 ?703次閱讀
    一種多<b class='flag-5'>模態</b>駕駛場景生成<b class='flag-5'>框架</b>UMGen介紹

    字節跳動發布OmniHuman 多模態框架

    2 月 6 日消息,字節跳動近日發布了一項重大成果 ——OmniHuman 多模態框架,其優勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結合一段輸入音頻,就能生成
    的頭像 發表于 02-07 17:50 ?628次閱讀

    Orcad繪制原理圖的元器件對齊方法

    在使用Orcad軟件繪制原理圖的時候,為了使原理圖繪制的美觀一些,有時候也希望像PCB設計一樣,將所有的器件都進行對齊,這里我們給大家介紹下,原理圖器件對齊的方法,方便大家在原理圖設計的時候也可以將元器件進行
    的頭像 發表于 02-07 10:33 ?902次閱讀
    Orcad繪制原理圖的元器件<b class='flag-5'>對齊</b>方法

    體驗MiniCPM-V 2.6 多模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    模態分解合集matlab代碼

    run_decomp運行其他算法run_multivariate 運行mvmdmemdrun_wpd運行wpdrun_dwt運行dwtEMD(經驗模態分解,Empirical?Mode
    發表于 12-20 17:36 ?1次下載

    KiCad的對齊工具不好用?

    “ ?不存在的。唯一的原因是您還沒有學會怎么用。 ? ” 對齊命令在哪里? KiCad的對齊命令(Align)藏得比較隱蔽,既不在菜單欄,也不在工具欄。右鍵的菜單中默認也不存在。只有當您 選中兩個或
    的頭像 發表于 12-04 18:15 ?679次閱讀
    KiCad的<b class='flag-5'>對齊</b>工具不好用?

    ARM嵌入式系統中內存對齊的重要性

    做嵌入式系統軟件開發,經常在代碼中看到各種各樣的對齊,很多時候我們都是知其然不知其所以然,知道要做好各種對齊,但是不明白為什么要對齊,不對齊會有哪些后果,這篇文章大概總結了內存
    的頭像 發表于 11-11 17:17 ?1467次閱讀
    ARM嵌入式系統中內存<b class='flag-5'>對齊</b>的重要性

    利用OpenVINO部署Qwen2多模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,多模態大模型可以可以理解多種不同模態的輸入
    的頭像 發表于 10-18 09:39 ?899次閱讀

    三相三電平逆變器的中心對齊SVPWM實現

    電子發燒友網站提供《三相三電平逆變器的中心對齊SVPWM實現.pdf》資料免費下載
    發表于 10-12 11:25 ?0次下載
    三相三電平逆變器的中心<b class='flag-5'>對齊</b>SVPWM實現

    鴻蒙ArkTS聲明式開發:跨平臺支持列表【半模態轉場】模態轉場設置

    通過bindSheet屬性為組件綁定半模態頁面,在組件插入時可通過設置自定義或默認的內置高度確定半模態大小。
    的頭像 發表于 06-12 21:09 ?1426次閱讀
    鴻蒙ArkTS聲明式開發:跨平臺支持列表【半<b class='flag-5'>模態</b>轉場】<b class='flag-5'>模態</b>轉場設置

    OpenAI超級對齊團隊解散

    近日,OpenAI的安全主管、“超級智能對齊團隊”負責人Jan Leike宣布離職。據悉,Jan Leike與OpenAI高層在公司的核心優先事項上存在長期且難以調和的分歧。
    的頭像 發表于 05-20 10:16 ?673次閱讀

    鴻蒙ArkUI開發:【彈性布局(主軸&amp;交叉軸對齊方式)】

    通過justifyContent參數設置在主軸方向的對齊方式,和Row、Column的主軸對齊方式行為一樣
    的頭像 發表于 05-14 15:33 ?1042次閱讀
    鴻蒙ArkUI開發:【彈性布局(主軸&amp;交叉軸<b class='flag-5'>對齊</b>方式)】

    HarmonyOS開發ArkUI案例:【常用布局容器對齊方式】

    基于ArkTS擴展的聲明式開發范式,實現Flex、Column、Row和Stack四種常用布局容器對齊方式。
    的頭像 發表于 05-08 16:47 ?1999次閱讀
    HarmonyOS開發ArkUI案例:【常用布局容器<b class='flag-5'>對齊</b>方式】
    主站蜘蛛池模板: 天天做天天爱夜夜爽毛片毛片 | 中文三级视频 | 亚州人成网在线播放 | 午夜在线亚洲男人午在线 | 天天操天天干天天玩 | 午夜高清在线观看免费6 | 午夜视频播放 | 亚洲 欧美 视频 | 激情九月 | 亚洲成人网页 | 亚洲欧美色中文字幕 | 一级全免费视频播放 | 黄视频网站观看 | 午夜在线视频国产 | 亚洲综合区图片小说区 | 欧美一级三级在线观看 | 美女被羞羞产奶视频网站 | 免费a在线看 | 四虎永久在线日韩精品观看 | 欧美日韩伦理 | 亚洲天堂亚洲天堂 | 日本不卡视频在线播放 | 三级在线观看免播放网站 | 九九热在线精品视频 | 美女张开大腿让男人捅 | 天天爱天天做天天爽夜夜揉 | 国产在线精彩视频二区 | 免费在线不卡视频 | 天天干夜夜玩 | 亚洲综合色婷婷久久 | 一级黄色录像视频 | 亚洲精品视频在线 | 天天综合色天天综合 | 精品久久天干天天天按摩 | 国产在线观看色 | 天天操天天碰 | 在线免费一区 | 日本高清加勒比 | 激情五月婷婷在线 | 色多多免费观看 | 1024手机看片欧美日韩 |