兽性总裁的爱奴,有声读物,欢乐颂小说

大型語(yǔ)言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究?jī)r(jià)值的。

本文整理了近兩年來(lái)基于LLM做vision-lanuage任務(wù)的一些工作，并將其劃分為4個(gè)類別：

利用LLM作為理解中樞調(diào)用多模態(tài)模型，例如VisualChatGPT(2023)[1], MM-REACT(2023)[2]；

將視覺(jué)轉(zhuǎn)化為文本，作為L(zhǎng)LM的輸入，例如PICA(2022)[3]，PromptCap(2022)[4]，ScienceQA(2022)[5]；

利用視覺(jué)模態(tài)影響LLM的解碼，例如ZeroCap[6]，MAGIC[7]；

凍住LLM，訓(xùn)練視覺(jué)編碼器等額外結(jié)構(gòu)以適配LLM，例如Frozen[8]，BLIP2[9]，F(xiàn)lamingo[10]，PaLM-E[11]；

接下來(lái)每個(gè)類別會(huì)挑選代表性的工作進(jìn)行簡(jiǎn)單介紹：

一. 利用LLM作為理解中樞調(diào)用多模態(tài)模型

以微軟Visual ChatGPT[1]為例，它的目標(biāo)是使得一個(gè)系統(tǒng)既能和人進(jìn)行視覺(jué)內(nèi)容相關(guān)的對(duì)話，又能進(jìn)行畫圖以及圖片修改的工作。為此，Visual ChatGPT采用ChatGPT作為和用戶交流的理解中樞，整合了多個(gè)視覺(jué)基礎(chǔ)模型（Visual Foundation Models），通過(guò)prompt engineering （即Prompt Manager）告訴ChatGPT各個(gè)基礎(chǔ)模型的用法以及輸入輸出格式，讓ChatGPT決定為了滿足用戶的需求，應(yīng)該如何調(diào)用這些模型，如圖1所示。

圖1：Visual ChatGPT系統(tǒng)示意圖

微軟另一個(gè)小組稍晚一段時(shí)間提出的MM-REACT[2]也是同樣的思路，區(qū)別主要在于prompt engineering的設(shè)計(jì)以及MM-REACT更側(cè)重于視覺(jué)的通用理解和解釋，包含了很多Microsoft Azure API，例如名人識(shí)別、票據(jù)識(shí)別以及Bing搜索等。

二. 將視覺(jué)轉(zhuǎn)化為文本，作為L(zhǎng)LM的輸入

以PICA[3]為例，它的目標(biāo)是充分利用LLM中的海量知識(shí)來(lái)做Knowledge-based QA。給定一張圖和問(wèn)題，以往的工作主要從外部來(lái)源，例如維基百科等來(lái)檢索出相關(guān)的背景知識(shí)以輔助答案的生成。但PICA嘗試將圖片用文本的形式描述出來(lái)后，直接和問(wèn)題拼在一起作為L(zhǎng)LM的輸入，讓LLM通過(guò)in-context learning的方式直接生成回答，如圖2所示。

圖2：PICA方法示意圖

in-context learning的效果比較依賴example/demonstration的質(zhì)量，為此PICA的作者利用CLIP挑選了和當(dāng)前測(cè)試樣例在問(wèn)題和圖片上最接近的16個(gè)訓(xùn)練樣例作為examples。

三. 利用視覺(jué)模態(tài)影響LLM的解碼

以MAGIC[3]為例，它的目標(biāo)是讓LLM做image captioning的任務(wù)，它的核心思路是生成每一個(gè)詞時(shí)，提高視覺(jué)相關(guān)的詞的生成概率，公式如圖3所示。

圖3：MAGIC解碼公式示意圖

該公式主要由三部分組成：1）LLM預(yù)測(cè)詞的概率；2）退化懲罰（橙色）；3）視覺(jué)相關(guān)性（紅色）。退化懲罰主要是希望生成的詞能帶來(lái)新的信息量。視覺(jué)相關(guān)性部分為基于CLIP計(jì)算了所有候選詞和圖片的相關(guān)性，取softmax之后的概率作為預(yù)測(cè)概率。

四.訓(xùn)練視覺(jué)編碼器等額外結(jié)構(gòu)以適配LLM

這部分工作是目前關(guān)注度最高的工作，因?yàn)樗哂袧摿?lái)“以遠(yuǎn)低于多模態(tài)通用模型訓(xùn)練的代價(jià)將LLM拓展為多模態(tài)模型”。DeepMind于2021年發(fā)表的Frozen，2022年的Flamingo以及Saleforce 2023年的BLIP2都是這條路線，如圖4所示。

圖4：Frozen，F(xiàn)lamingo，BLIP2示意圖。

Frozen訓(xùn)練時(shí)將圖片編碼成2個(gè)vision token，作為L(zhǎng)LM的前綴，目標(biāo)為生成后續(xù)文本，采用Conceptual Caption作為訓(xùn)練語(yǔ)料。Frozen通過(guò)few-shot learning/in-context learning做下游VQA以及image classification的效果還沒(méi)有很強(qiáng)，但是已經(jīng)能觀察到一些多模態(tài)in-context learning的能力。

Flamingo為了解決視覺(jué)feature map大小可能不一致（尤其對(duì)于多幀的視頻）的問(wèn)題，用Perceiver Resampler （類似DETR的解碼器）生成固定長(zhǎng)度的特征序列（64個(gè)token），并且在LLM的每一層之前額外增加了一層對(duì)視覺(jué)特征進(jìn)行注意力計(jì)算的cross-attention layer，以實(shí)現(xiàn)更強(qiáng)的視覺(jué)相關(guān)性生成。Flamingo的訓(xùn)練參數(shù)遠(yuǎn)高于Frozen，因此采用了大量的數(shù)據(jù)：1）MultiModal MassiveWeb(M3W) dataset：從43million的網(wǎng)頁(yè)上收集的圖文混合數(shù)據(jù)，轉(zhuǎn)化為圖文交叉排列的序列（根據(jù)網(wǎng)頁(yè)上圖片相對(duì)位置，決定在轉(zhuǎn)化為序列后，token 在文本token系列中的位置）；2）ALIGN (alt-text & image Pairs): 1.8 million圖文對(duì)；3）LTIP (LongText & Image Pairs)：312 million圖文對(duì)；4）VTP (Video & Text Pairs) ：27 million視頻文本對(duì)(平均一個(gè)視頻22s，幀采樣率為1FPS)。類似LLM，F(xiàn)lamingo的訓(xùn)練目標(biāo)也為文本生成，但其對(duì)于不同的數(shù)據(jù)集賦予不同的權(quán)重，上面四部分權(quán)重分別為1.0、0.2、0.2、0.03，可見圖文交叉排列的M3W數(shù)據(jù)集的訓(xùn)練重要性是最高的，作者也強(qiáng)調(diào)這類數(shù)據(jù)是具備多模態(tài)in-context learning能力的重要因素。Flamingo在多個(gè)任務(wù)上實(shí)現(xiàn)了很不錯(cuò)的zero-shot以及few-shot的表現(xiàn)。

BLIP2采用了類似于Flamingo的視覺(jué)編碼結(jié)構(gòu)，但是采用了更復(fù)雜的訓(xùn)練策略。其包含兩階段訓(xùn)練，第一階段主要想讓視覺(jué)編碼器學(xué)會(huì)提取最關(guān)鍵的視覺(jué)信息，訓(xùn)練任務(wù)包括image-Text Contrastive Learning, Image-grounded Text Generation以及Image-Text Matching；第二階段則主要是將視覺(jué)編碼結(jié)構(gòu)的輸出適配LLM，訓(xùn)練任務(wù)也是language modeling。BLIP2的訓(xùn)練數(shù)據(jù)包括MSCOCO，Visual Genome，CC15M，SBU，115M來(lái)自于LAION400M的圖片以及BLIP在web images上生成的描述。BLIP2實(shí)現(xiàn)了很強(qiáng)的zero-shot capitoning以及VQA的能力，但是作者提到未觀察到其in-context learning的能力，即輸入樣例并不能提升它的性能。作者分析是因?yàn)橛?xùn)練數(shù)據(jù)里不存在Flamingo使用的圖文交錯(cuò)排布的數(shù)據(jù)。不過(guò)Frozen也是沒(méi)有用這類數(shù)據(jù)，但是也觀察到了一定的in-context learning能力。因此多模態(tài)的in-context learning能力可能和訓(xùn)練數(shù)據(jù)、訓(xùn)練任務(wù)以及位置編碼方法等都存在相關(guān)性。

總結(jié)

“利用LLM作為理解中樞調(diào)用多模態(tài)模型”可以方便快捷地基于LLM部署一個(gè)多模態(tài)理解和生成系統(tǒng)，難點(diǎn)主要在于prompt engineering的設(shè)計(jì)來(lái)調(diào)度不同的多模態(tài)模型；

“將視覺(jué)轉(zhuǎn)化為文本，作為L(zhǎng)LM的輸入”和“利用視覺(jué)模態(tài)影響LLM的解碼”可以直接利用LLM做一些多模態(tài)任務(wù)，但是可能上限較低，其表現(xiàn)依賴于外部多模態(tài)模型的能力；

“訓(xùn)練視覺(jué)編碼器等額外結(jié)構(gòu)以適配LLM”具有更高的研究?jī)r(jià)值，因?yàn)槠渚邆鋵⑷我饽B(tài)融入LLM，實(shí)現(xiàn)真正意義多模態(tài)模型的潛力，其難點(diǎn)在于如何實(shí)現(xiàn)較強(qiáng)的in-context learning的能力。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1161

瀏覽量
41528
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3743

瀏覽量
136433
視覺(jué)編程

視覺(jué)編程

+關(guān)注

關(guān)注
0

文章
2

瀏覽量
1833
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1584

瀏覽量
8626

原文標(biāo)題：利用大語(yǔ)言模型做多模態(tài)任務(wù)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

一文理解多模態(tài)大語(yǔ)言模型——上

/understanding-multimodal-llms 在過(guò)去幾個(gè)月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語(yǔ)言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解

發(fā)表于 12-02 18:29 ?849次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——上

如何使用多模態(tài)信息做prompt

自多模態(tài)大火以來(lái)，井噴式地出現(xiàn)了許多工作，通過(guò)改造預(yù)訓(xùn)練語(yǔ)言模型，用圖像信息來(lái)增強(qiáng)語(yǔ)義信息，但主要集中在幾個(gè) NLU 任務(wù)上，在 NLG 上的研究比較少。今天要介紹的這篇 paper

發(fā)表于 11-03 09:39 ?2014次閱讀

如何使用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息<b class='flag-5'>做</b>prompt

基于圖文多模態(tài)領(lǐng)域典型任務(wù)

圖文多模態(tài)領(lǐng)域典型任務(wù)如img-text retrieval、VQA、captioning、grounding等，目前的學(xué)術(shù)設(shè)定難度尚可。但是，一旦知識(shí)范圍擴(kuò)展，到了open-ended

發(fā)表于 09-01 17:14 ?2595次閱讀

一個(gè)真實(shí)閑聊多模態(tài)數(shù)據(jù)集TikTalk

隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多

發(fā)表于 02-09 09:31 ?2190次閱讀

利用視覺(jué)+語(yǔ)言數(shù)據(jù)增強(qiáng)視覺(jué)特征

傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來(lái)同時(shí)學(xué)習(xí)視覺(jué)+語(yǔ)言的聯(lián)合特征。但是關(guān)注如何利用視覺(jué)+

發(fā)表于 02-13 13:44 ?1198次閱讀

中文多模態(tài)對(duì)話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多

發(fā)表于 02-22 11:03 ?1587次閱讀

中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話數(shù)據(jù)集

如何利用LLM做多模態(tài)任務(wù)？

大型語(yǔ)言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)

發(fā)表于 05-11 17:09 ?1066次閱讀

VisCPM：邁向多語(yǔ)言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型

發(fā)表于 07-10 10:05 ?850次閱讀

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對(duì)多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺(jué)語(yǔ)言

發(fā)表于 07-16 20:45 ?854次閱讀

探究編輯多模態(tài)大語(yǔ)言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單

發(fā)表于 11-09 14:53 ?668次閱讀

自動(dòng)駕駛和多模態(tài)大語(yǔ)言模型的發(fā)展歷程

多模態(tài)大語(yǔ)言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過(guò)多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)

發(fā)表于 12-28 11:45 ?678次閱讀

機(jī)器人基于開源的多模態(tài)語(yǔ)言視覺(jué)大模型

ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作

發(fā)表于 01-19 11:43 ?538次閱讀

韓國(guó)Kakao宣布開發(fā)多模態(tài)大語(yǔ)言模型“蜜蜂”

韓國(guó)互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語(yǔ)言模型。這種創(chuàng)新模型能夠同時(shí)理解和處理圖像和文本數(shù)據(jù)

發(fā)表于 01-19 16:11 ?883次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)，多

發(fā)表于 10-18 09:39 ?886次閱讀

一文理解多模態(tài)大語(yǔ)言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語(yǔ)言模型 - 上》介紹了什么是多

發(fā)表于 12-03 15:18 ?433次閱讀