琅琊榜海宴小说,完美世界辰东,唐家三少

作者：Peter，北京郵電大學 · 計算機

什么是多模態？

如果把LLM比做關在籠子里的AI，那么它和世界交互的方式就是通過“遞文字紙條”。文字是人類對世界的表示，存在著信息提煉、損失、冗余、甚至錯誤（曾經的地心說）。而多模態就像是讓AI繞開了人類的中間表示，直接接觸世界，從最原始的視覺、聲音、空間等開始理解這個世界，改變世界。

好像并沒有對多模態的嚴謹定義。通常見到的多模態是聯合建模Language、Vision、Audio。而很多時候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型經歷了從傳統單模態模型，到通用單模態，再到通用多模態的一個大致的發展，大致如下圖：

?NN Building Blocks: 相對通用的NN模型組件。

?Tradi tional Single Modality Models: 傳統的垂類小模型，通常小于100M~1B參數，只在某個垂直場景上有效。雖然不通用，但是具有一些獨特優勢：顯著的性能和成本優勢，常常能夠在移動端設備部署，離線可用。在很多場景和大模型組合使用，依然扮演重要角色。

?General Single Modality Models: 單模態大模型，通常大于100M～1B參數。具有較強的通用性，比如對圖片中任意物體進行分割，或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

?MLLM：多模態大模型。以LLM為核心（>1B參數），端到端的具備多種模態輸入，多種模態輸出的大模型。某種程度上看見了AGI的曙光。

?MLLM Application: 靈活的結合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產品形態。

多模態的價值？

文字發展了數千年，似乎已經能精確的表達任意事物，僅憑文字就可以產生智能。數學物理公式、代碼等更是從某種程度上遠遠超越了世界的表象，體現了人類智慧的偉大。

然而，人的一切依然依托于物理世界，包括人本身的物理屬性。人們能毫不費力的處理十個小時的視覺信號（比如刷視頻、看風景），十年如一日，但是一般人無法長時間的進行文字閱讀理解。美麗的風景、優美的旋律能輕易的讓大部分感受到愉悅，而復雜的文字或代碼則需要更大的精力。

其他的各種人類社會的生產、消費、溝通等都離不開對世界自然信號的直接處理。難以想象這一切如果都需要通過中間的文字轉化，才能被接受和反饋。（想象司機通過閱讀文字，決定方向和油門）

AGI需要對自然信號的直接處理與反饋。

多模態技術

當前多模態大模型通常都會經過三個步驟：

?編碼：類比人的眼睛和耳朵，自然信號先要通過特定的器官轉換成大腦可以處理的信號。

?把每一個image切成多個patch，然后通過vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺信號的冗余，可以再通過resampler, qformer等結構進行壓縮，減少輸入。

?或者也可能是通過VAE編碼成一個(h, w, c）shape的latent feature。或者是通過VQ編碼成類似上文中language“詞”的序號（integer），然后通過embedding table lookup轉化成embedding。

?對于language而言，通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長序列的文字切成有限個數的“詞”，從詞表（vocabulary)中找到對應的序號，然后再通過embedding table lookup，把這些“詞”轉化成模型能理解的embedding。

?vision有一些不同的處理方式，比如：

?audio也需要進行編碼，將傳統的waveform通過fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把audio編碼成一系列的token。

?處理（思考）：完成編碼的信號就如同人們大腦接收到的視覺、聲音、文字信號。可以通過“思考“的過程后，給出反饋。

?基于diffusion的處理過程是近幾年新出現的一類有趣的方法。在vision, audio生成中有卓越的表現。

?基于llm的處理過程似乎更值得期待。llm本身已經具備相當的智能程度，提供了很高的天花板。如果llm能夠很好的綜合處理多模態信號，或許能接近AGI的目標。

?解碼：編碼的反向過程，把模型內部的表示轉化成物理世界的自然信號。就類似人們通過嘴巴說話，或者手繪畫。

以下面兩個多模態模型為例子：

StableDiffusion:

?編碼：image通過VAE encoder變成latent z。

?處理：核心的處理過程在Unet中，通過多步denoise，對z進行去噪。

?解碼：z最終通過VAE decoder解碼成image。

stable diffusion

DreamLLM:

?編碼：text通過word embedding，而圖片通過visual encoder。

?處理：casual llm對編碼后的的語言和文字信號進行聯合處理，預測需要生成的語言和文字信號。

?解碼：將預測結果還原成text和image。

DreamLLM

類似的架構還在語音生成的模型結構中出現，比如VALL-E，有對應的semantic, acoustic編碼和解碼，以及diffusion or llm的處理過程。

多模態的難題

目前我還有些多模態相關的問題沒太想明白。

多模態scaling law

目前Meta, Google有放出一些多模態的實驗，比如PALI對于ViT的scaling。但是還缺少一些理論性的支持和疑點。

?ViT在多模態理解中扮演了什么角色，需要如此大的參數規模？這部份參數是否可以轉移到LLM上？

?數據scale時，如何分配圖片和文字的比例是比較好的實踐？

如果做個思想實驗：

?一個網頁上有500個字，需要800個token表示。

?一個screenshot截圖了這個網頁，用vision encoder編碼后得到400個token。

如果使用LLM分別處理兩種輸入，能夠完成同樣的任務。那么似乎就不需要用text作為LLM的輸入了。

?對于text, vision, audio信號編碼的最佳實踐是什么？每類信號需要使用多少的參數量才能無損的壓縮原始信號？

從簡單主義出發，scaling is all you need。

但是no profit, no scaling。所以還是得回到上面那個問題。

多模態生成的路徑

Diffusion在生成上取得了不俗的效果，比如繪畫。LLM同樣可以完成視覺和音頻的生成。

?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM，還是通過別的方式？

?Diffusion的multi-step denoise是否可以通過llm的multi-layer transformer + iterative sampling來隱式模擬？

?或許diffusion就像是convolution，是人們發明的inductive bias，最終會被general learnable method取代。

LLM end2end many2many是否是個偽需求？

?是否有一種無損（或者近似）的信息傳遞方式，讓多個LLM互相協作？

審核編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
33377

瀏覽量
273858
大模型

大模型

+關注

關注
2

文章
2908

瀏覽量
3656
LLM

LLM

+關注

關注
1

文章
316

瀏覽量
624

原文標題：聊聊：什么是多模態？有什么價值以及難題

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

體驗MiniCPM-V 2.6 多模態能力

多模態組網

jf_23871869

發布于 :2025年01月20日 13:40:48

lABCIWQmultyWindows多模態窗口2010

lABCIWQmultyWindows多模態窗口2010。

發表于 05-17 17:47 ?0次下載

多文化場景下的多模態情感識別

自動情感識別是一個非常具有挑戰性的課題，并且有著廣泛的應用價值．本文探討了在多文化場景下的多模態情感識別問題．我們從語音聲學和面部表情等模態分別提取了不同的情感特征。包括傳統的手工定制

發表于 12-18 14:47 ?0次下載

Transformer模型的多模態學習應用

隨著Transformer在視覺中的崛起，Transformer在多模態中應用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

發表于 03-25 09:29 ?1.1w次閱讀

Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態</b>學習應用

中文多模態對話數據集

隨著大量預訓練語言模型在文本對話任務中的出色表現，以及多模態的發展，在對話中引入多模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的多

發表于 02-22 11:03 ?1586次閱讀

VisCPM：邁向多語言多模態大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態能力的突飛猛進，多模態大模型已經成為大模型邁向通用人工智能（AGI）目標的下一個前沿焦點。總體而言，面向圖像和文本的

發表于 07-10 10:05 ?848次閱讀

更強更通用：智源「悟道3.0」Emu多模態大模型開源，在多模態序列中「補全一切」

當前學界和工業界都對多模態大模型研究熱情高漲。去年，谷歌的 Deepmind 發布了多模態視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項任務，在

發表于 07-16 20:45 ?852次閱讀

基于Transformer多模態先導性工作

多模態（Multimodality）是指在信息處理、傳遞和表達中涉及多種不同的感知模態或信息來源。這些感知模態可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。

發表于 08-21 09:49 ?1030次閱讀

基于視覺的多模態觸覺感知系統

傳統的多模態/多任務觸覺感知系統通過集成多種傳感單元來達到多模態觸覺信息的解耦，但其往往導致系統結構的復雜性，以及需要應對來自不同刺激間的干擾。

發表于 10-18 11:24 ?1262次閱讀

探究編輯多模態大語言模型的可行性

不同于單模態模型編輯，多模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態模型編輯入手，將單模態

發表于 11-09 14:53 ?666次閱讀

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強大、更通用呢？本節將介紹“大模型+

發表于 12-13 13:55 ?2288次閱讀

人工智能領域多模態的概念和應用場景

隨著人工智能技術的不斷發展，多模態成為了一個備受關注的研究方向。多模態技術旨在將不同類型的數據和信息進行融合，以實現更加準確、高效的人工智能應用。本文將詳細介紹

發表于 12-15 14:28 ?1.1w次閱讀

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多模態

發表于 10-18 09:39 ?878次閱讀

商湯日日新多模態大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態大模型，在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。

發表于 12-20 10:39 ?639次閱讀