在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是多模態?多模態的難題是什么?

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2024-01-17 10:03 ? 次閱讀

作者:Peter,北京郵電大學 · 計算機

什么是多模態?

如果把LLM比做關在籠子里的AI,那么它和世界交互的方式就是通過“遞文字紙條”。文字是人類對世界的表示,存在著信息提煉、損失、冗余、甚至錯誤(曾經的地心說)。而多模態就像是讓AI繞開了人類的中間表示,直接接觸世界,從最原始的視覺、聲音、空間等開始理解這個世界,改變世界。

好像并沒有對多模態的嚴謹定義。通常見到的多模態是聯合建模Language、Vision、Audio。而很多時候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型經歷了從傳統單模態模型,到通用單模態,再到通用多模態的一個大致的發展,大致如下圖:

ef1c6658-b45e-11ee-8b88-92fbcf53809c.jpg

?NN Building Blocks: 相對通用的NN模型組件。

?Traditional Single Modality Models: 傳統的垂類小模型,通常小于100M~1B參數,只在某個垂直場景上有效。雖然不通用,但是具有一些獨特優勢:顯著的性能和成本優勢,常常能夠在移動端設備部署,離線可用。在很多場景和大模型組合使用,依然扮演重要角色。

?General Single Modality Models: 單模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

?MLLM:多模態大模型。以LLM為核心(>1B參數),端到端的具備多種模態輸入,多種模態輸出的大模型。某種程度上看見了AGI的曙光。

?MLLM Application: 靈活的結合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產品形態。

多模態的價值?

文字發展了數千年,似乎已經能精確的表達任意事物,僅憑文字就可以產生智能。數學物理公式、代碼等更是從某種程度上遠遠超越了世界的表象,體現了人類智慧的偉大。

然而,人的一切依然依托于物理世界,包括人本身的物理屬性。人們能毫不費力的處理十個小時的視覺信號(比如刷視頻、看風景),十年如一日,但是一般人無法長時間的進行文字閱讀理解。美麗的風景、優美的旋律能輕易的讓大部分感受到愉悅,而復雜的文字或代碼則需要更大的精力。

其他的各種人類社會的生產、消費、溝通等都離不開對世界自然信號的直接處理。難以想象這一切如果都需要通過中間的文字轉化,才能被接受和反饋。(想象司機通過閱讀文字,決定方向和油門)

AGI需要對自然信號的直接處理與反饋。

多模態技術

當前多模態大模型通常都會經過三個步驟:

?編碼:類比人的眼睛和耳朵,自然信號先要通過特定的器官轉換成大腦可以處理的信號。

?把每一個image切成多個patch,然后通過vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺信號的冗余,可以再通過resampler, qformer等結構進行壓縮,減少輸入。

?或者也可能是通過VAE編碼成一個(h, w, c)shape的latent feature。或者是通過VQ編碼成類似上文中language“詞”的序號(integer),然后通過embedding table lookup轉化成embedding。

?對于language而言,通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長序列的文字切成有限個數的“詞”,從詞表(vocabulary)中找到對應的序號,然后再通過embedding table lookup,把這些“詞”轉化成模型能理解的embedding。

?vision有一些不同的處理方式,比如:

?audio也需要進行編碼,將傳統的waveform通過fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把audio編碼成一系列的token。

?處理(思考):完成編碼的信號就如同人們大腦接收到的視覺、聲音、文字信號。可以通過“思考“的過程后,給出反饋。

?基于diffusion的處理過程是近幾年新出現的一類有趣的方法。在vision, audio生成中有卓越的表現。

?基于llm的處理過程似乎更值得期待。llm本身已經具備相當的智能程度,提供了很高的天花板。如果llm能夠很好的綜合處理多模態信號,或許能接近AGI的目標。

?解碼:編碼的反向過程,把模型內部的表示轉化成物理世界的自然信號。就類似人們通過嘴巴說話,或者手繪畫。

以下面兩個多模態模型為例子:

StableDiffusion:

?編碼:image通過VAE encoder變成latent z。

?處理:核心的處理過程在Unet中,通過多步denoise,對z進行去噪。

?解碼:z最終通過VAE decoder解碼成image。

ef239da6-b45e-11ee-8b88-92fbcf53809c.jpg

stable diffusion

DreamLLM:

?編碼:text通過word embedding,而圖片通過visual encoder。

?處理:casual llm對編碼后的的語言和文字信號進行聯合處理,預測需要生成的語言和文字信號。

?解碼:將預測結果還原成text和image。

ef2e1754-b45e-11ee-8b88-92fbcf53809c.jpg

DreamLLM

類似的架構還在語音生成的模型結構中出現,比如VALL-E,有對應的semantic, acoustic編碼和解碼,以及diffusion or llm的處理過程。

ef397f40-b45e-11ee-8b88-92fbcf53809c.jpg

多模態的難題

目前我還有些多模態相關的問題沒太想明白。

多模態scaling law

目前Meta, Google有放出一些多模態的實驗,比如PALI對于ViT的scaling。但是還缺少一些理論性的支持和疑點。

?ViT在多模態理解中扮演了什么角色,需要如此大的參數規模?這部份參數是否可以轉移到LLM上?

?數據scale時,如何分配圖片和文字的比例是比較好的實踐?

如果做個思想實驗:

?一個網頁上有500個字,需要800個token表示。

?一個screenshot截圖了這個網頁,用vision encoder編碼后得到400個token。

如果使用LLM分別處理兩種輸入,能夠完成同樣的任務。那么似乎就不需要用text作為LLM的輸入了。

?對于text, vision, audio信號編碼的最佳實踐是什么?每類信號需要使用多少的參數量才能無損的壓縮原始信號?

從簡單主義出發,scaling is all you need。

但是no profit, no scaling。所以還是得回到上面那個問題。

多模態生成的路徑

Diffusion在生成上取得了不俗的效果,比如繪畫。LLM同樣可以完成視覺和音頻的生成。

?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM,還是通過別的方式?

?Diffusion的multi-step denoise是否可以通過llm的multi-layer transformer + iterative sampling來隱式模擬

?或許diffusion就像是convolution,是人們發明的inductive bias,最終會被general learnable method取代。

LLM end2end many2many是否是個偽需求?

?是否有一種無損(或者近似)的信息傳遞方式,讓多個LLM互相協作?

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31683

    瀏覽量

    270484
  • 大模型
    +關注

    關注

    2

    文章

    2595

    瀏覽量

    3210
  • LLM
    LLM
    +關注

    關注

    0

    文章

    301

    瀏覽量

    411

原文標題:聊聊:什么是多模態?有什么價值以及難題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態窗口2010

    lABCIWQmultyWindows模態窗口2010。
    發表于 05-17 17:47 ?0次下載

    文化場景下的模態情感識別

    自動情感識別是一個非常具有挑戰性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態情感識別問題.我們從語音聲學和面部表情等模態分別提取了不同的情感特征。包括傳統的手工定制
    發表于 12-18 14:47 ?0次下載

    Transformer模型的模態學習應用

    隨著Transformer在視覺中的崛起,Transformer在模態中應用也是合情合理的事情,甚至以后可能會有更多的類似的paper。
    的頭像 發表于 03-25 09:29 ?1.1w次閱讀
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態</b>學習應用

    模態MR和特征融合的GBM自動分割算法

    模態MR和特征融合的GBM自動分割算法
    發表于 06-27 11:45 ?32次下載

    中文模態對話數據集

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的
    的頭像 發表于 02-22 11:03 ?1439次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態</b>對話數據集

    VisCPM:邁向多語言模態大模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態大模型已經成為大模型邁向通用人工智能(AGI)目標的下一個前沿焦點。總體而言,面向圖像和文本的
    的頭像 發表于 07-10 10:05 ?759次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型時代

    更強更通用:智源「悟道3.0」Emu模態大模型開源,在模態序列中「補全一切」

    當前學界和工業界都對模態大模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言模型 Flamingo ,它使用單一視覺語言模型處理多項任務,在
    的頭像 發表于 07-16 20:45 ?761次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」

    基于Transformer模態先導性工作

    模態(Multimodality)是指在信息處理、傳遞和表達中涉及多種不同的感知模態或信息來源。這些感知模態可以包括語言、視覺、聽覺、觸覺等,它們共同作用來傳遞更豐富、更全面的信息。
    的頭像 發表于 08-21 09:49 ?908次閱讀
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態</b>先導性工作

    基于視覺的模態觸覺感知系統

    傳統的模態/多任務觸覺感知系統通過集成多種傳感單元來達到模態觸覺信息的解耦,但其往往導致系統結構的復雜性,以及需要應對來自不同刺激間的干擾。
    發表于 10-18 11:24 ?1064次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態</b>觸覺感知系統

    探究編輯模態大語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態模型編輯入手,將單模態
    發表于 11-09 14:53 ?573次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型的可行性

    大模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將介紹“大模型+
    的頭像 發表于 12-13 13:55 ?1848次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了一個備受關注的研究方向。模態技術旨在將不同類型的數據和信息進行融合,以實現更加準確、高效的人工智能應用。本文將詳細介紹
    的頭像 發表于 12-15 14:28 ?1w次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,模態
    的頭像 發表于 10-18 09:39 ?570次閱讀

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?363次閱讀
    主站蜘蛛池模板: 四虎影院在线观看免费 | 色综合狠狠 | 黄色大毛片 | 激情五月婷婷色 | 日本一级成人毛片免费观看 | 女人特黄大aaaaaa大片 | 午夜两性色视频免费网站 | 4hc44四虎www在线影院男同 | 黄页网址免费观看18网站 | 午夜看一级特黄a大片黑 | 综合免费视频 | 国产在线观看色 | 亚洲入口 | 卡一卡二卡三国色天香永不失联 | 亚洲五月综合缴情婷婷 | 手机在线观看一级午夜片 | 亚洲一区 在线播放 | 男女免费视频 | 午夜精品视频5000 | 69老司机亚洲精品一区 | 欧美两性网 | 亚洲欧洲综合网 | 夜夜骑日日射 | 性free3d | 色多多在线播放 | 护士一级aaaaaa毛片 | 美女扒开尿口给男人桶动态图 | 日本大片免费播放网站 | 一级免费视频 | 中国china体内裑精亚洲毛片 | 亚洲插插 | 性欧美高清极品xx | 天天插综合 | 性色aⅴ闺蜜一区二区三区 性色成人网 | 天天做天天爱天天综合网 | a级毛毛片看久久 | 日本黄色免费一级片 | 欲色影视香色天天影视来 | 天天色天天色 | 在线精品国产成人综合第一页 | 久久精品国产大片免费观看 |