在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多模態圖像合成與編輯方法

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-08-23 09:12 ? 次閱讀

本篇綜述通過對現有的多模態圖像合成與編輯方法的歸納總結,對該領域目前的挑戰和未來方向進行了探討和分析。

近期 OpenAI 發布的 DALLE-2 和谷歌發布的 Imagen 等實現了令人驚嘆的文字到圖像的生成效果,引發了廣泛關注并且衍生出了很多有趣的應用。而文字到圖像的生成屬于多模態圖像合成與編輯領域的一個典型任務。 近日,來自馬普所和南洋理工等機構的研究人員對多模態圖像合成與編輯這一大領域的研究現狀和未來發展做了詳細的調查和分析。

d78635d0-2230-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2112.13592.pdf

項目地址:https://github.com/fnzhan/MISE

d79dbe8a-2230-11ed-ba43-dac502259ad0.png

在第一章節,該綜述描述了多模態圖像合成與編輯任務的意義和整體發展,以及本論文的貢獻與總體結構。 在第二章節,根據引導圖片合成與編輯的數據模態,該綜述論文介紹了比較常用的視覺引導(比如 語義圖,關鍵點圖,邊緣圖),文字引導,語音引導,場景圖(scene graph)引導和相應模態數據的處理方法以及統一的表示框架。 在第三章節,根據圖像合成與編輯的模型框架,該論文對目前的各種方法進行了分類,包括基于 GAN 的方法,自回歸方法,擴散模型方法,和神經輻射場(NeRF)方法。

d7c3cb8e-2230-11ed-ba43-dac502259ad0.png

d7d3ffe0-2230-11ed-ba43-dac502259ad0.png

由于基于 GAN 的方法一般使用條件 GAN 和 無條件 GAN 反演,因此該論文將這一類別進一步分為模態內條件(例如語義圖,邊緣圖),跨模態條件(例如文字和語音),和 GAN 反演(統一模態)并進行了詳細描述。

d7e7efe6-2230-11ed-ba43-dac502259ad0.png

相比于基于 GAN 的方法,自回歸模型方法能夠更加自然的處理多模態數據,以及利用目前流行的 Transformer 模型。自回歸方法一般先學習一個向量量化編碼器將圖片離散地表示為 token 序列,然后自回歸式地建模 token 的分布。由于文本和語音等數據都能表示為 token 并作為自回歸建模的條件,因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

d7f91f32-2230-11ed-ba43-dac502259ad0.png

d80fe2f8-2230-11ed-ba43-dac502259ad0.png

近期,火熱的擴散模型也被廣泛應用于多模態合成與編輯任務。例如效果驚人的 DALLE-2 和 Imagen 都是基于擴散模型實現的。相比于 GAN,擴散式生成模型擁有一些良好的性質,比如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

d8239028-2230-11ed-ba43-dac502259ad0.png

d83650f0-2230-11ed-ba43-dac502259ad0.png

以上方法主要聚焦于 2D 圖像的多模態合成與編輯。近期隨著神經輻射場(NeRF)的迅速發展,3D 感知的多模態合成與編輯也吸引了越來越多的關注。由于需要考慮多視角一致性,3D 感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景優化 NeRF,生成式 NeRF 和 NeRF 反演的三種方法對現有工作進行了分類與總結。 隨后,該綜述對以上四種模型方法的進行了比較和討論。總體而言,相比于 GAN,目前最先進的模型更加偏愛自回歸模型和擴散模型。而 NeRF 在多模態合成與編輯任務的應用為這個領域的研究打開了一扇新的窗戶。

d84df174-2230-11ed-ba43-dac502259ad0.png

在第四章節,該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標注,并且針對各模態典型任務(語義圖像合成,文字到圖像合成,語音引導圖像編輯)對當前方法進行了定量的比較。 在第五章節,該綜述對此領域目前的挑戰和未來方向進行了探討和分析,包括大規模的多模態數據集,準確可靠的評估指標,高效的網絡架構,以及 3D 感知的發展方向。 在第六和第七章節,該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6228

    瀏覽量

    107740
  • 數據
    +關注

    關注

    8

    文章

    7249

    瀏覽量

    91320
  • 圖像
    +關注

    關注

    2

    文章

    1094

    瀏覽量

    41084

原文標題:多模態圖像合成與編輯這么火,馬普所、南洋理工等出了份詳細綜述

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    基于通道分類合成的SAR圖像分類研究

    利用SVM對不同通道的數據分別進行分類,然后利用粒度合成理論對不同的分類結果進行合并,最后實現通道SAR數據圖像分類。本文重點論述了利用該方法進行SAR
    發表于 04-23 11:52

    高分辨率合成孔徑雷達圖像的直線特征尺度提取方法

    針對傳統的合成孔徑雷達(SAR)尺度邊緣提取方法中直線提取連續性和完整性不好的特點,提出了一個由粗到精的多分辨率SAR圖像直線特征多級提取框架,利用
    發表于 05-06 09:04

    尺度形態濾波模態混疊抑制方法

    尺度形態濾波模態混疊抑制方法_曹瑩
    發表于 01-07 18:21 ?0次下載

    基于超圖的模態關聯特征處理方法

    傳統的模式識別方法認為特征是相互獨立的,容易忽略模態特征之間多元的關聯性,從而造成識別的誤差。為此,基于超圖模型,提出一種新的特征整合方法。定義共享熵的計算
    發表于 03-07 11:01 ?2次下載
    基于超圖的<b class='flag-5'>多</b><b class='flag-5'>模態</b>關聯特征處理<b class='flag-5'>方法</b>

    基于雙殘差超密集網絡的模態醫學圖像融合方法

    Networks, DRHDNS)的模態醫學圖像融合方法。 DRHDNS分為特征提取和特征融合兩部分。特征提取部分通過將超密集連接與殘差學習相結合,構造出雙殘差超密集塊,用于提取特
    發表于 04-14 11:18 ?19次下載
    基于雙殘差超密集網絡的<b class='flag-5'>多</b><b class='flag-5'>模態</b>醫學<b class='flag-5'>圖像</b>融合<b class='flag-5'>方法</b>

    基于聯合壓縮感知的模態目標統一跟蹤方法

    針對模態目標跟蹤中大多僅考慮單個圖像的異種特征融合或不同模態圖像的同種特征融合,為了使得這兩者間能自然集成,提出基于聯合壓縮感知的
    發表于 04-27 15:59 ?0次下載
    基于聯合壓縮感知的<b class='flag-5'>多</b><b class='flag-5'>模態</b>目標統一跟蹤<b class='flag-5'>方法</b>

    簡述文本與圖像領域的模態學習有關問題

    來自:哈工大SCIR 本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的模態深度學習也越來越受到關注。本期主要討論結合文本和圖像
    的頭像 發表于 08-26 16:29 ?7156次閱讀

    ImageBind:跨模態之王,將6種模態全部綁定!

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的
    的頭像 發表于 05-11 09:30 ?1406次閱讀
    ImageBind:跨<b class='flag-5'>模態</b>之王,將6種<b class='flag-5'>模態</b>全部綁定!

    圖像對齊所有模態,Meta開源感官AI基礎模型,實現大一統

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的
    的頭像 發表于 05-26 15:45 ?1153次閱讀
    用<b class='flag-5'>圖像</b>對齊所有<b class='flag-5'>模態</b>,Meta開源<b class='flag-5'>多</b>感官AI基礎模型,實現大一統

    VisCPM:邁向多語言模態大模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態大模型已經成為大模型邁向通用人工智能(AGI)目標的下一個前沿焦點。總體而言,面向
    的頭像 發表于 07-10 10:05 ?945次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型時代

    模態大模型最全綜述來了!

    其中最后一個表示監督信號是從圖像本身中挖掘出來的,流行的方法包括對比學習、非對比學習和masked image建模。在這些方法之外,文章也進一步討論了
    的頭像 發表于 09-26 16:42 ?2908次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型最全綜述來了!

    探究編輯模態大語言模型的可行性

    不同于單模態模型編輯模態模型編輯需要考慮更多的模態信息。文章出發點依然從單
    發表于 11-09 14:53 ?741次閱讀
    探究<b class='flag-5'>編輯</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型的可行性

    基于幾何分析的神經輻射場編輯方法

    神經輻射場作為近期一個廣受關注的隱式表征方法,能合成照片級真實的視角圖像。但因為其隱式建模的性質,用戶難以直觀編輯神經輻射場建模對象的幾何
    的頭像 發表于 11-20 16:56 ?838次閱讀
    基于幾何分析的神經輻射場<b class='flag-5'>編輯</b><b class='flag-5'>方法</b>

    大模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強
    的頭像 發表于 12-13 13:55 ?2460次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現<b class='flag-5'>方法</b>

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?1119次閱讀
    主站蜘蛛池模板: 国产精品高清一区二区三区不卡 | 欧美成人69| 奇米影视奇米色777欧美 | 四虎www.| 天天干天天干 | 亚洲精品私拍国产福利在线 | 丁香六月纪婷婷激情综合 | 久热99| 国产色婷婷亚洲 | 天天操夜 | 国语自产免费精品视频一区二区 | 国产网站免费看 | 国产成人精品一区二区仙踪林 | 九九热精品国产 | 黄色网址 在线播放 | 亚洲丰满熟妇毛片在线播放 | 国产福利不卡一区二区三区 | 国产亚洲情侣久久精品 | 丁香六月婷婷七月激情 | 午夜欧美 | 97超频国产在线公开免费视频 | 国产色视频网站免费观看 | 国产精品最新资源网 | 久综合网 | 久久久噜噜噜久久网 | 啪啪免费看视频 | 四虎新地址4hu 你懂的 | 色视频观看 | 午夜视频在线观看国产 | 久久精品国产精品亚洲毛片 | 可以免费观看的一级毛片 | 日日干夜夜操视频 | 8000av在线| 久久思re热9一区二区三区 | 亚洲va中文字幕无码 | 天堂网www中文在线资源 | 婷婷社区五月天 | 性欧美videofree另类超大 | 免费观看a黄一级视频 | 欧美性黑人极品1819hd | 午夜五月天 |