在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖文多模態(tài)領(lǐng)域典型任務(wù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-09-01 17:14 ? 次閱讀

圖文多模態(tài)領(lǐng)域典型任務(wù)如img-text retrieval、VQA、captioning、grounding等,目前的學(xué)術(shù)設(shè)定難度尚可。但是, 一旦知識范圍擴展,到了open-ended scenario,任務(wù)難度立刻劇增 。但是DeepMind的Flamingo模型在這些挑戰(zhàn)場景中使用同一個模型便做到了。當時看到論文中的這些例子,十分驚訝!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,F(xiàn)lamingo模型不僅可以做到open-ended captioning、VQA等,甚至可以計數(shù)、算數(shù)。其中很多額外的知識,比如火烈鳥的發(fā)源地等知識,對于單模態(tài)的語言模型如GPT-3、T5、Chinchilla等可以說是難度不大。

但是對于傳統(tǒng)的多模態(tài)模型而言,很難通過傳統(tǒng)的img-text pair學(xué)到如此廣闊的外部知識,因為很多知識是蘊含在基于文本的單模態(tài)中的(如維基百科) 。所以,DeepMind在多模態(tài)領(lǐng)域的發(fā)力點就在 站人語言模型的巨人肩膀上,凍住超大規(guī)模訓(xùn)練的語言模型,將多模態(tài)模型設(shè)計向NLP大模型靠攏。

Frozen

要介紹Flamingo模型,不得不先介紹DeepMind在NeurIPS 2021發(fā)表的前作Frozen。Frozen模型十分簡單,作者使用一個預(yù)訓(xùn)練好的語言模型,并且完全凍結(jié)參數(shù),只訓(xùn)練visual encoder。

模型結(jié)構(gòu):其中LM模型是在C4數(shù)據(jù)上訓(xùn)練的包含7B參數(shù)的transformer結(jié)構(gòu),visual encoder是NF-ResNet50。訓(xùn)練數(shù)據(jù):訓(xùn)練時只采用了CC3M數(shù)據(jù)集,包含300萬img-text pair,預(yù)訓(xùn)練數(shù)據(jù)量不大。Frozen框架如下。其中視覺特征可以看作是LM模型的prompt,凍結(jié)的語言模型就在視覺特征的“提示”下,做出應(yīng)答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型結(jié)構(gòu)

可以看到,通過一些img-text pair的約束,unfrozen的visual encoder是朝著frozen LM靠攏和對齊的。該算法在預(yù)訓(xùn)練時只使用了captioning語料CC3M,并且知識的豐富度也有限。那么,F(xiàn)rozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游場景的應(yīng)用

雖然由caption數(shù)據(jù)(CC3M)訓(xùn)練,它竟然可以做VQA甚至基于知識的VQA,比如上圖,你告訴它飛機是萊特兄弟發(fā)明的,它就能類比出蘋果手機是喬布斯創(chuàng)造的。很顯然, 這種外部知識肯定不是CC3M中有限的img-text pair能夠給予的,無非是來源于從始至終未參與訓(xùn)練、凍結(jié)的LM模型 。接下來作者做了一系列實驗,可以看到,其實Frozen距離SOTA模型仍十分遙遠。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen實驗結(jié)果

可以看到,F(xiàn)rozen模型距離VQA和OKVQA數(shù)據(jù)集上的SOTA算法仍有十分巨大的gap。

幾個有意思的現(xiàn)象:

如果模型看不到圖片(blind模型),只依賴于LM模型,效果尚可,但是明顯低于看得見圖片的模型。 說明Frozen確實對img-text模態(tài)進行了對齊,學(xué)習(xí)到了如何參考圖片信息再做出應(yīng)答

few-shot甚至zero-shot就可以達到還不錯的性能;

end-to-end finetune LM模型效果會下降,說明由大量單模態(tài)訓(xùn)練出的LM模型參數(shù)很容易被少量的img-text數(shù)據(jù)破壞掉。證明了本文觀點,LM模型需要Frozen才能保留文本信息學(xué)到的知識!

Flamingo

介紹完了Frozen,那么DeepMind團隊再接再厲,創(chuàng)造效果驚艷的Flamingo模型就順理成章了。相比于Frozen,F(xiàn)lamingo模型的幾點改進:

更強的LM模型: 70B參數(shù)的語言模型Chinchilla;

更多的可訓(xùn)練參數(shù): visual encoder這次也凍結(jié)了,但是圖片特征采樣模型可以訓(xùn)練,更重要的是LM模型的各層中也嵌入了可學(xué)習(xí)的參數(shù),可訓(xùn)練參數(shù)總量高達10B;

更恐怖的訓(xùn)練數(shù)據(jù):不僅加入了ALIGN算法的18億img-text pair,數(shù)百萬的video-text pair。此外,還有大量的不匹配的圖文信息,來源于MultiModal MassiveWeb (M3W) dataset,其中圖片數(shù)量上億,文本大概有182 GB??梢允褂胾npaired img-text數(shù)據(jù)進行訓(xùn)練也是Flamingo模型的一大亮點??偠灾?,它的數(shù)據(jù)量十分恐怖,已經(jīng)遠遠超過目前業(yè)界的多模態(tài)算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型結(jié)構(gòu):

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型結(jié)構(gòu)

可以看到, 不同于Frozen,這一次visual encoder也是凍結(jié)的。參數(shù)可以學(xué)習(xí)的就兩部分,一個是Perceiver Resampler,一個是嵌入在LM模型中的Gated Block。Perceiver Resampler結(jié)構(gòu)如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler結(jié)構(gòu)

Perceiver Resampler結(jié)構(gòu)一目了然,一些可學(xué)習(xí)的embedding作為query,然后圖片特征或者時續(xù)的視頻特征attend到query上,作為最后的輸出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense結(jié)構(gòu)

嵌入在LM模型中的gated xattn-dense的結(jié)構(gòu)同樣一目了然,使用文本信息作為query去aggregate視覺信息。其中text embedding作為query,visual embedding作為key和value。類比于transformer結(jié)構(gòu),唯一小的差別就是cross-attention和FFN之后額外加了一個gate。

介紹完了Flamingo的模型結(jié)構(gòu),簡單看看它的爆表性能吧,可以說,下游場景中只用few-shot的情況下做到這種程度,讓人驚訝...... 在一些答案集合固定的任務(wù)中,比如傳統(tǒng)的VQAv2中優(yōu)勢不明顯, 但是open-ended的knowledge-based VQA任務(wù)中,比如OKVQA,只用few-shot就可以刷新當前SOTA 。 在盲人場景的VizWiz以及OCR信息特別多的TextVQA等任務(wù)中,效果同樣可圈可點。一些基于視頻的QA比如NextQA和iVQA效果同樣刷新當前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而進行fine-tune模式,論文中顯示,同樣可以刷新不少業(yè)界SOTA指標,這里就不列舉了。最后再列出幾個讓人驚嘆的示例結(jié)束本文,準備再去好好研究一番論文細節(jié)。

多模態(tài)描述,多模態(tài)問答,多模態(tài)對話,多模態(tài)推薦……以前很多人覺得很遙遠,但是近年來進展飛速,距離實際場景的gap也在逐步縮小,未來可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    560

    瀏覽量

    10690
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25293
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22504

原文標題:站在NLP巨人模型的肩膀才是多模態(tài)的未來?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是一個非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

    一個模型完成了CV,NLP方向的7個任務(wù),每個任務(wù)上表現(xiàn)都非常好。 ? Transformer架構(gòu)在自然語言處理和其他領(lǐng)域的機器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個
    的頭像 發(fā)表于 03-08 10:30 ?3047次閱讀
    如何讓Transformer在多種<b class='flag-5'>模態(tài)</b>下處理不同<b class='flag-5'>領(lǐng)域</b>的廣泛應(yīng)用?

    簡述文本與圖像領(lǐng)域模態(tài)學(xué)習(xí)有關(guān)問題

    來自:哈工大SCIR 本期導(dǎo)讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的模態(tài)深度學(xué)習(xí)也越來越受到關(guān)注。本期主要討論結(jié)合文本和圖像的模態(tài)
    的頭像 發(fā)表于 08-26 16:29 ?7152次閱讀

    如何使用模態(tài)信息做prompt

    Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以模態(tài)信息作為條件做 conditional 的 NLG
    的頭像 發(fā)表于 11-03 09:39 ?2088次閱讀
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息做prompt

    DocumentAI的模型、任務(wù)和基準數(shù)據(jù)集

    隨著最近幾年模態(tài)大火的,越來越多的任務(wù)都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對話任務(wù),推出了考慮
    的頭像 發(fā)表于 08-22 09:55 ?2095次閱讀

    模態(tài)圖像合成與編輯方法

    本篇綜述通過對現(xiàn)有的模態(tài)圖像合成與編輯方法的歸納總結(jié),對該領(lǐng)域目前的挑戰(zhàn)和未來方向進行了探討和分析。
    的頭像 發(fā)表于 08-23 09:12 ?1498次閱讀

    一個真實閑聊模態(tài)數(shù)據(jù)集TikTalk

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。
    的頭像 發(fā)表于 02-09 09:31 ?2347次閱讀

    中文模態(tài)對話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1673次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話數(shù)據(jù)集

    如何利用LLM做模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放模態(tài)輸入接口并且不會透露任何模型上技術(shù)細節(jié)。因此,現(xiàn)階段,如何利用LLM做一些
    的頭像 發(fā)表于 05-11 17:09 ?1159次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>任務(wù)</b>?

    更強更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補全一切」

    當前學(xué)界和工業(yè)界都對模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型 Flamingo ,它使用單一視覺語言模型處理多項
    的頭像 發(fā)表于 07-16 20:45 ?969次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    基于視覺的模態(tài)觸覺感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達到模態(tài)觸覺信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對來自不同刺激間的干
    發(fā)表于 10-18 11:24 ?1387次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺感知系統(tǒng)

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進行融合,以實現(xiàn)更加準確、高效的人工智能應(yīng)用。本文將詳細介紹
    的頭像 發(fā)表于 12-15 14:28 ?1.2w次閱讀

    ??低暟l(fā)布模態(tài)大模型文搜存儲系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?538次閱讀
    主站蜘蛛池模板: 国产一级在线观看 | 亚洲啪啪网站 | 一级特黄女毛毛片 | 欧美精品一区视频 | 久久人人精品 | 免费国产午夜高清在线视频 | 91啦视频在线 | 在线观看黄色一级片 | 视频二区在线观看 | 久久久免费网站 | 日日爱网站 | 日韩免费高清一级毛片 | 久久久久国产一级毛片高清板 | 欧美刺激午夜性久久久久久久 | 亚洲综合色网站 | 天天干天天干天天天天天天爽 | 最近高清在线国语 | 国产精品午夜自在在线精品 | 拍真实国产伦偷精品 | 456影院第一 | 婷婷色天使在线视频观看 | 大蕉久久伊人中文字幕 | 在线亚洲欧美性天天影院 | 午夜美女久久久久爽久久 | 在线观看免费高清 | 国产精品夜夜春夜夜爽 | 奇米欧美成人综合影院 | 亚洲国产综合人成综合网站00 | 在线一区观看 | 亚洲最大成人在线 | 九七婷婷狠狠成人免费视频 | 成人自拍视频 | 亚洲成a人片在线观看中 | 激情五月婷婷综合 | 五月婷婷狠狠 | 国产免费一区二区三区在线 | 欧美三级手机在线 | 99久久精品免费观看国产 | 午夜视频在线播放 | 国产天天在线 | 男男生子大肚play做到生 |