文章:https://lnkd.in/gcwEeKE3
Python 代碼:https://lnkd.in/ggEK6KwU
盡管指令調整的大型語言模型 (LLM) 在各種 NLP 任務中表現出卓越的能力,但它們在文本以外的其他數據模式上的有效性尚未得到充分研究。在這項工作中,我們提出了 Macaw-LLM,一種新穎的多模式 LLM,它無縫集成了視覺、音頻和文本信息。
Macaw-LLM 由三個主要組件組成:用于編碼多模態數據的模態模塊、用于利用預訓練 LLM 的認知模塊以及用于協調不同表示的對齊模塊。
我們新穎的對齊模塊將多模態特征無縫地連接到文本特征,簡化了從模態模塊到認知模塊的適應過程。
此外,我們在多輪對話方面構建了一個大規模的多模態指令數據集,包括 69K 圖像實例和 50K 視頻實例。我們已經公開了我們的數據、代碼和模型,我們希望這可以為多模態 LLM 的未來研究鋪平道路,并擴展 LLM 處理不同數據模態和解決復雜現實場景的能力。
-
模塊
+關注
關注
7文章
2783瀏覽量
49696 -
語言建模
+關注
關注
0文章
5瀏覽量
6313 -
語言模型
+關注
關注
0文章
559瀏覽量
10689 -
LLM
+關注
關注
1文章
321瀏覽量
694
原文標題:Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態語言建模
文章出處:【微信號:計算機視覺芯片設計,微信公眾號:計算機視覺芯片設計】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
自然語言處理的圖像文本建模相關研究及分析

簡述文本與圖像領域的多模態學習有關問題
復旦&微軟提出?OmniVL:首個統一圖像、視頻、文本的基礎預訓練模型
微軟多模態ChatGPT的常見測試介紹
如何利用LLM做多模態任務?

邱錫鵬團隊提出SpeechGPT:具有內生跨模態能力的大語言模型

VisCPM:邁向多語言多模態大模型時代

評論