作者:Peter,北京郵電大學 · 計算機
什么是多模態?
如果把LLM比做關在籠子里的AI,那么它和世界交互的方式就是通過“遞文字紙條”。文字是人類對世界的表示,存在著信息提煉、損失、冗余、甚至錯誤(曾經的地心說)。而多模態就像是讓AI繞開了人類的中間表示,直接接觸世界,從最原始的視覺、聲音、空間等開始理解這個世界,改變世界。
好像并沒有對多模態的嚴謹定義。通常見到的多模態是聯合建模Language、Vision、Audio。而很多時候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。
模型經歷了從傳統單模態模型,到通用單模態,再到通用多模態的一個大致的發展,大致如下圖:
?NN Building Blocks: 相對通用的NN模型組件。
?Traditional Single Modality Models: 傳統的垂類小模型,通常小于100M~1B參數,只在某個垂直場景上有效。雖然不通用,但是具有一些獨特優勢:顯著的性能和成本優勢,常常能夠在移動端設備部署,離線可用。在很多場景和大模型組合使用,依然扮演重要角色。
?General Single Modality Models: 單模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
?MLLM:多模態大模型。以LLM為核心(>1B參數),端到端的具備多種模態輸入,多種模態輸出的大模型。某種程度上看見了AGI的曙光。
?MLLM Application: 靈活的結合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產品形態。
多模態的價值?
文字發展了數千年,似乎已經能精確的表達任意事物,僅憑文字就可以產生智能。數學物理公式、代碼等更是從某種程度上遠遠超越了世界的表象,體現了人類智慧的偉大。
然而,人的一切依然依托于物理世界,包括人本身的物理屬性。人們能毫不費力的處理十個小時的視覺信號(比如刷視頻、看風景),十年如一日,但是一般人無法長時間的進行文字閱讀理解。美麗的風景、優美的旋律能輕易的讓大部分感受到愉悅,而復雜的文字或代碼則需要更大的精力。
其他的各種人類社會的生產、消費、溝通等都離不開對世界自然信號的直接處理。難以想象這一切如果都需要通過中間的文字轉化,才能被接受和反饋。(想象司機通過閱讀文字,決定方向和油門)
AGI需要對自然信號的直接處理與反饋。
多模態技術
當前多模態大模型通常都會經過三個步驟:
?編碼:類比人的眼睛和耳朵,自然信號先要通過特定的器官轉換成大腦可以處理的信號。
?把每一個image切成多個patch,然后通過vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺信號的冗余,可以再通過resampler, qformer等結構進行壓縮,減少輸入。
?或者也可能是通過VAE編碼成一個(h, w, c)shape的latent feature。或者是通過VQ編碼成類似上文中language“詞”的序號(integer),然后通過embedding table lookup轉化成embedding。
?對于language而言,通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長序列的文字切成有限個數的“詞”,從詞表(vocabulary)中找到對應的序號,然后再通過embedding table lookup,把這些“詞”轉化成模型能理解的embedding。
?vision有一些不同的處理方式,比如:
?audio也需要進行編碼,將傳統的waveform通過fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把audio編碼成一系列的token。
?處理(思考):完成編碼的信號就如同人們大腦接收到的視覺、聲音、文字信號。可以通過“思考“的過程后,給出反饋。
?基于diffusion的處理過程是近幾年新出現的一類有趣的方法。在vision, audio生成中有卓越的表現。
?基于llm的處理過程似乎更值得期待。llm本身已經具備相當的智能程度,提供了很高的天花板。如果llm能夠很好的綜合處理多模態信號,或許能接近AGI的目標。
?解碼:編碼的反向過程,把模型內部的表示轉化成物理世界的自然信號。就類似人們通過嘴巴說話,或者手繪畫。
以下面兩個多模態模型為例子:
StableDiffusion:
?編碼:image通過VAE encoder變成latent z。
?處理:核心的處理過程在Unet中,通過多步denoise,對z進行去噪。
?解碼:z最終通過VAE decoder解碼成image。
stable diffusion
DreamLLM:
?編碼:text通過word embedding,而圖片通過visual encoder。
?處理:casual llm對編碼后的的語言和文字信號進行聯合處理,預測需要生成的語言和文字信號。
?解碼:將預測結果還原成text和image。
DreamLLM
類似的架構還在語音生成的模型結構中出現,比如VALL-E,有對應的semantic, acoustic編碼和解碼,以及diffusion or llm的處理過程。
多模態的難題
目前我還有些多模態相關的問題沒太想明白。
多模態scaling law
目前Meta, Google有放出一些多模態的實驗,比如PALI對于ViT的scaling。但是還缺少一些理論性的支持和疑點。
?ViT在多模態理解中扮演了什么角色,需要如此大的參數規模?這部份參數是否可以轉移到LLM上?
?數據scale時,如何分配圖片和文字的比例是比較好的實踐?
如果做個思想實驗:
?一個網頁上有500個字,需要800個token表示。
?一個screenshot截圖了這個網頁,用vision encoder編碼后得到400個token。
如果使用LLM分別處理兩種輸入,能夠完成同樣的任務。那么似乎就不需要用text作為LLM的輸入了。
?對于text, vision, audio信號編碼的最佳實踐是什么?每類信號需要使用多少的參數量才能無損的壓縮原始信號?
從簡單主義出發,scaling is all you need。
但是no profit, no scaling。所以還是得回到上面那個問題。
多模態生成的路徑
Diffusion在生成上取得了不俗的效果,比如繪畫。LLM同樣可以完成視覺和音頻的生成。
?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM,還是通過別的方式?
?Diffusion的multi-step denoise是否可以通過llm的multi-layer transformer + iterative sampling來隱式模擬?
?或許diffusion就像是convolution,是人們發明的inductive bias,最終會被general learnable method取代。
LLM end2end many2many是否是個偽需求?
?是否有一種無損(或者近似)的信息傳遞方式,讓多個LLM互相協作?
審核編輯:黃飛
-
AI
+關注
關注
87文章
31683瀏覽量
270484 -
大模型
+關注
關注
2文章
2595瀏覽量
3210 -
LLM
+關注
關注
0文章
301瀏覽量
411
原文標題:聊聊:什么是多模態?有什么價值以及難題
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
![](https://file1.elecfans.com/web3/M00/06/A4/wKgZO2eN4dmAWH2dAAPhhyGFzsw191.png)
多文化場景下的多模態情感識別
VisCPM:邁向多語言多模態大模型時代
![VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型時代](https://file1.elecfans.com/web2/M00/90/58/wKgZomTYhLiAOB2yAAAF_DGy7s8873.png)
更強更通用:智源「悟道3.0」Emu多模態大模型開源,在多模態序列中「補全一切」
![更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」](https://file1.elecfans.com/web2/M00/90/58/wKgZomTYhR6AZoxQAAAgOIO9AdM434.png)
基于Transformer多模態先導性工作
![基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態</b>先導性工作](https://file1.elecfans.com/web2/M00/93/E8/wKgZomTiwsWABfecAAAsXPyHECw197.png)
基于視覺的多模態觸覺感知系統
![基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態</b>觸覺感知系統](https://file1.elecfans.com/web2/M00/AA/B2/wKgZomUvUHCAYAppAABuwBd9B20316.png)
大模型+多模態的3種實現方法
![大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法](https://file1.elecfans.com/web2/M00/B4/B5/wKgaomV5R4yAJhU0AABEAqbsZ_w429.png)
評論