91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是多模態(tài)?多模態(tài)的難題是什么?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2024-01-17 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Peter,北京郵電大學(xué) · 計(jì)算機(jī)

什么是多模態(tài)?

如果把LLM比做關(guān)在籠子里的AI,那么它和世界交互的方式就是通過(guò)“遞文字紙條”。文字是人類對(duì)世界的表示,存在著信息提煉、損失、冗余、甚至錯(cuò)誤(曾經(jīng)的地心說(shuō))。而多模態(tài)就像是讓AI繞開(kāi)了人類的中間表示,直接接觸世界,從最原始的視覺(jué)、聲音、空間等開(kāi)始理解這個(gè)世界,改變世界。

好像并沒(méi)有對(duì)多模態(tài)的嚴(yán)謹(jǐn)定義。通常見(jiàn)到的多模態(tài)是聯(lián)合建模Language、Vision、Audio。而很多時(shí)候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型,到通用單模態(tài),再到通用多模態(tài)的一個(gè)大致的發(fā)展,大致如下圖:

ef1c6658-b45e-11ee-8b88-92fbcf53809c.jpg

?NN Building Blocks: 相對(duì)通用的NN模型組件。

?Traditional Single Modality Models: 傳統(tǒng)的垂類小模型,通常小于100M~1B參數(shù),只在某個(gè)垂直場(chǎng)景上有效。雖然不通用,但是具有一些獨(dú)特優(yōu)勢(shì):顯著的性能和成本優(yōu)勢(shì),常常能夠在移動(dòng)端設(shè)備部署,離線可用。在很多場(chǎng)景和大模型組合使用,依然扮演重要角色。

?General Single Modality Models: 單模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。

?MLLM:多模態(tài)大模型。以LLM為核心(>1B參數(shù)),端到端的具備多種模態(tài)輸入,多種模態(tài)輸出的大模型。某種程度上看見(jiàn)了AGI的曙光。

?MLLM Application: 靈活的結(jié)合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產(chǎn)品形態(tài)。

多模態(tài)的價(jià)值?

文字發(fā)展了數(shù)千年,似乎已經(jīng)能精確的表達(dá)任意事物,僅憑文字就可以產(chǎn)生智能。數(shù)學(xué)物理公式、代碼等更是從某種程度上遠(yuǎn)遠(yuǎn)超越了世界的表象,體現(xiàn)了人類智慧的偉大。

然而,人的一切依然依托于物理世界,包括人本身的物理屬性。人們能毫不費(fèi)力的處理十個(gè)小時(shí)的視覺(jué)信號(hào)(比如刷視頻、看風(fēng)景),十年如一日,但是一般人無(wú)法長(zhǎng)時(shí)間的進(jìn)行文字閱讀理解。美麗的風(fēng)景、優(yōu)美的旋律能輕易的讓大部分感受到愉悅,而復(fù)雜的文字或代碼則需要更大的精力。

其他的各種人類社會(huì)的生產(chǎn)、消費(fèi)、溝通等都離不開(kāi)對(duì)世界自然信號(hào)的直接處理。難以想象這一切如果都需要通過(guò)中間的文字轉(zhuǎn)化,才能被接受和反饋。(想象司機(jī)通過(guò)閱讀文字,決定方向和油門(mén))

AGI需要對(duì)自然信號(hào)的直接處理與反饋。

多模態(tài)技術(shù)

當(dāng)前多模態(tài)大模型通常都會(huì)經(jīng)過(guò)三個(gè)步驟:

?編碼:類比人的眼睛和耳朵,自然信號(hào)先要通過(guò)特定的器官轉(zhuǎn)換成大腦可以處理的信號(hào)。

?把每一個(gè)image切成多個(gè)patch,然后通過(guò)vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺(jué)信號(hào)的冗余,可以再通過(guò)resampler, qformer等結(jié)構(gòu)進(jìn)行壓縮,減少輸入。

?或者也可能是通過(guò)VAE編碼成一個(gè)(h, w, c)shape的latent feature。或者是通過(guò)VQ編碼成類似上文中l(wèi)anguage“詞”的序號(hào)(integer),然后通過(guò)embedding table lookup轉(zhuǎn)化成embedding。

?對(duì)于language而言,通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長(zhǎng)序列的文字切成有限個(gè)數(shù)的“詞”,從詞表(vocabulary)中找到對(duì)應(yīng)的序號(hào),然后再通過(guò)embedding table lookup,把這些“詞”轉(zhuǎn)化成模型能理解的embedding。

?vision有一些不同的處理方式,比如:

?audio也需要進(jìn)行編碼,將傳統(tǒng)的waveform通過(guò)fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把a(bǔ)udio編碼成一系列的token。

?處理(思考):完成編碼的信號(hào)就如同人們大腦接收到的視覺(jué)、聲音、文字信號(hào)。可以通過(guò)“思考“的過(guò)程后,給出反饋。

?基于diffusion的處理過(guò)程是近幾年新出現(xiàn)的一類有趣的方法。在vision, audio生成中有卓越的表現(xiàn)。

?基于llm的處理過(guò)程似乎更值得期待。llm本身已經(jīng)具備相當(dāng)?shù)闹悄艹潭龋峁┝撕芨叩奶旎ò濉H绻鹟lm能夠很好的綜合處理多模態(tài)信號(hào),或許能接近AGI的目標(biāo)。

?解碼:編碼的反向過(guò)程,把模型內(nèi)部的表示轉(zhuǎn)化成物理世界的自然信號(hào)。就類似人們通過(guò)嘴巴說(shuō)話,或者手繪畫(huà)。

以下面兩個(gè)多模態(tài)模型為例子:

StableDiffusion:

?編碼:image通過(guò)VAE encoder變成latent z。

?處理:核心的處理過(guò)程在Unet中,通過(guò)多步denoise,對(duì)z進(jìn)行去噪。

?解碼:z最終通過(guò)VAE decoder解碼成image。

ef239da6-b45e-11ee-8b88-92fbcf53809c.jpg

stable diffusion

DreamLLM:

?編碼:text通過(guò)word embedding,而圖片通過(guò)visual encoder。

?處理:casual llm對(duì)編碼后的的語(yǔ)言和文字信號(hào)進(jìn)行聯(lián)合處理,預(yù)測(cè)需要生成的語(yǔ)言和文字信號(hào)。

?解碼:將預(yù)測(cè)結(jié)果還原成text和image。

ef2e1754-b45e-11ee-8b88-92fbcf53809c.jpg

DreamLLM

類似的架構(gòu)還在語(yǔ)音生成的模型結(jié)構(gòu)中出現(xiàn),比如VALL-E,有對(duì)應(yīng)的semantic, acoustic編碼和解碼,以及diffusion or llm的處理過(guò)程。

ef397f40-b45e-11ee-8b88-92fbcf53809c.jpg

多模態(tài)的難題

目前我還有些多模態(tài)相關(guān)的問(wèn)題沒(méi)太想明白。

多模態(tài)scaling law

目前Meta, Google有放出一些多模態(tài)的實(shí)驗(yàn),比如PALI對(duì)于ViT的scaling。但是還缺少一些理論性的支持和疑點(diǎn)。

?ViT在多模態(tài)理解中扮演了什么角色,需要如此大的參數(shù)規(guī)模?這部份參數(shù)是否可以轉(zhuǎn)移到LLM上?

?數(shù)據(jù)scale時(shí),如何分配圖片和文字的比例是比較好的實(shí)踐?

如果做個(gè)思想實(shí)驗(yàn):

?一個(gè)網(wǎng)頁(yè)上有500個(gè)字,需要800個(gè)token表示。

?一個(gè)screenshot截圖了這個(gè)網(wǎng)頁(yè),用vision encoder編碼后得到400個(gè)token。

如果使用LLM分別處理兩種輸入,能夠完成同樣的任務(wù)。那么似乎就不需要用text作為L(zhǎng)LM的輸入了。

?對(duì)于text, vision, audio信號(hào)編碼的最佳實(shí)踐是什么?每類信號(hào)需要使用多少的參數(shù)量才能無(wú)損的壓縮原始信號(hào)?

從簡(jiǎn)單主義出發(fā),scaling is all you need。

但是no profit, no scaling。所以還是得回到上面那個(gè)問(wèn)題。

多模態(tài)生成的路徑

Diffusion在生成上取得了不俗的效果,比如繪畫(huà)。LLM同樣可以完成視覺(jué)和音頻的生成。

?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM,還是通過(guò)別的方式?

?Diffusion的multi-step denoise是否可以通過(guò)llm的multi-layer transformer + iterative sampling來(lái)隱式模擬

?或許diffusion就像是convolution,是人們發(fā)明的inductive bias,最終會(huì)被general learnable method取代。

LLM end2end many2many是否是個(gè)偽需求?

?是否有一種無(wú)損(或者近似)的信息傳遞方式,讓多個(gè)LLM互相協(xié)作?

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35168

    瀏覽量

    280136
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3147

    瀏覽量

    4079
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    848

原文標(biāo)題:聊聊:什么是多模態(tài)?有什么價(jià)值以及難題

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場(chǎng)景下的模態(tài)情感識(shí)別問(wèn)題.我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    Transformer模型的模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer在視覺(jué)中的崛起,Transformer在模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會(huì)有更多的類似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1.1w次閱讀
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    中文模態(tài)對(duì)話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1737次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話數(shù)據(jù)集

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言,面向圖像和文本的
    的頭像 發(fā)表于 07-10 10:05 ?1003次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開(kāi)源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言模型 Flamingo ,它使用單一視覺(jué)語(yǔ)言模型處理多項(xiàng)任務(wù),在
    的頭像 發(fā)表于 07-16 20:45 ?1026次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開(kāi)源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    基于Transformer模態(tài)先導(dǎo)性工作

    模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來(lái)源。這些感知模態(tài)可以包括語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等,它們共同作用來(lái)傳遞更豐富、更全面的信息。
    的頭像 發(fā)表于 08-21 09:49 ?1181次閱讀
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>先導(dǎo)性工作

    基于視覺(jué)的模態(tài)觸覺(jué)感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺(jué)感知系統(tǒng)通過(guò)集成多種傳感單元來(lái)達(dá)到模態(tài)觸覺(jué)信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對(duì)來(lái)自不同刺激間的干擾。
    發(fā)表于 10-18 11:24 ?1446次閱讀
    基于視覺(jué)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺(jué)感知系統(tǒng)

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手,將單模態(tài)
    發(fā)表于 11-09 14:53 ?770次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型的可行性

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大模型+
    的頭像 發(fā)表于 12-13 13:55 ?2530次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場(chǎng)景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?1.2w次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),模態(tài)
    的頭像 發(fā)表于 10-18 09:39 ?1272次閱讀

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1029次閱讀
    主站蜘蛛池模板: 日本三级成人午夜视频网 | 欧美性xxxx巨大黑人猛 | 国产成人永久在线播放 | 日本a网 | 正在播放羽月希与黑人bd在线 | 国产亚洲第一 | 欧美日韩一区二区视频图片 | 亚洲一区二区三区在线播放 | 人人澡人人澡人人看青草 | 日本三级三级三级免费看 | h在线观看视频免费网站 | 可以免费观看的黄色网址 | 四虎884tt紧急大通知 | 爱爱小视频免费看 | 日本人的色道免费网站 | 欧美sese| 新午夜影院 | 中文字幕佐山爱一区二区免费 | 色综合激情 | 一个色中文字幕 | 欧美成网 | 免费观看黄色网 | 天天澡天天干 | 亚洲成a人片在线观看导航 亚洲成a人片在线观看尤物 | 久久亚洲国产午夜精品理论片 | 特级片免费看 | 日本www免费 | 亚洲婷婷国产精品电影人久久 | 99久久精品免费观看国产 | 欧美成人伊人十综合色 | 久久国内精品视频 | 国产caob | 中文字幕一区二区三区在线不卡 | 好大好硬好长好爽a网站 | 免费观看黄a一级视频日本 免费观看黄色网页 | 久久66haose精品 | 在线高清视频大全 | 欧美日本一区二区三区道 | 国产亚洲精品aa在线看 | 大色综合色综合资源站 | 色色色色色网 |