在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

StyleGAN在圖像質量和可控性方面為生成模型樹立了新的標桿

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-06-01 11:34 ? 次閱讀

StyleGAN-XL 首次在 ImageNet 上實現(xiàn)了 1024^2 分辨率圖像合成。

近年來,計算機圖形學領域的研究者一直致力于生成高分辨率的仿真圖像,并經歷了一波以數(shù)據(jù)為中心的真實可控內容創(chuàng)作浪潮。其中英偉達的 StyleGAN 在圖像質量和可控性方面為生成模型樹立了新的標桿。

但是,當用 ImageNet 這樣的大型非結構化數(shù)據(jù)集進行訓練時,StyleGAN 還不能取得令人滿意的結果。另一個存在的問題是,當需要更大的模型時,或擴展到更高的分辨率時,這些方法的成本會高得令人望而卻步。

比如,英偉達的 StyleGAN3 項目消耗了令人難以想象的資源和電力。研究者在論文中表示,整個項目在 NVIDIA V100 內部集群上消耗了 92 個 GPU year(即單個 GPU 一年的計算)和 225 兆瓦時(Mwh)的電力。有人說,這相當于整個核反應堆運行大約 15 分鐘。

最初,StyleGAN 的提出是為了明確區(qū)分變量因素,實現(xiàn)更好的控制和插值質量。但它的體系架構比標準的生成器網(wǎng)絡更具限制性,這些限制似乎會在諸如 ImageNet 這種復雜和多樣化的數(shù)據(jù)集上訓練時帶來相應代價。

此前有研究者嘗試將 StyleGAN 和 StyleGAN2 擴展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],導致結果欠佳。這讓人們更加相信,對于高度多樣化的數(shù)據(jù)集來說,StyleGAN 可能會從根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的圖像合成 SOTA 模型。最近,BigGAN 的性能表現(xiàn)正在被擴散模型 [Dhariwal and Nichol 2021] 超越。也有研究發(fā)現(xiàn),擴散模型能比 GAN 實現(xiàn)更多樣化的圖像合成,但是在推理過程中速度明顯減慢,以前的基于 GAN 的編輯工作不能直接應用。

此前在擴展 StyleGAN 上的失敗嘗試引出了這樣一個問題:架構約束是否從根本上限制了基于 Style 的生成器,或者 missing piece 是否是正確的訓練策略。最近的一項工作 [Sauer et al. 2021] 引入了 Projected GAN,將生成和實際的樣本投射到一個固定的、預訓練的特征空間。重組 GAN 設置這種方式顯著改進了訓練穩(wěn)定性、訓練時間和數(shù)據(jù)效率。然而,Projected GAN 的優(yōu)勢只是部分地延伸到了這項研究的單模態(tài)數(shù)據(jù)集上的 StyleGAN。

為了解決上述種種問題,英偉達的研究者近日提出了一種新的架構變化,并根據(jù)最新的 StyleGAN3 設計了漸進式生長的策略。研究者將改進后的模型稱為 StyleGAN-XL,該研究目前已經入選了 SIGGRAPH 2022。

論文地址:https://arxiv.org/pdf/2202.00273.pdf

代碼地址:https://github.com/autonomousvision/stylegan_xl

這些變化結合了 Projected GAN 方法,超越了此前在 ImageNet 上訓練 StyleGAN 的表現(xiàn)。為了進一步改進結果,研究者分析了 Projected GAN 的預訓練特征網(wǎng)絡,發(fā)現(xiàn)當計算機視覺的兩種標準神經結構 CNN 和 ViT [ Dosovitskiy et al. 2021] 聯(lián)合使用時,性能顯著提高。最后,研究者利用了分類器引導這種最初為擴散模型引入的技術,用以注入額外的類信息。

總體來說,這篇論文的貢獻在于推動模型性能超越現(xiàn)有的 GAN 和擴散模型,實現(xiàn)了大規(guī)模圖像合成 SOTA。論文展示了 ImageNet 類的反演和編輯,發(fā)現(xiàn)了一個強大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,這一范式能夠與模型很好地結合,甚至平滑地嵌入域外圖像到學習到的潛在空間。高效的訓練策略使得標準 StyleGAN3 的參數(shù)能夠增加三倍,同時僅用一小部分訓練時間就達到擴散模型的 SOTA 性能。

這使得 StyleGAN-XL 能夠成為第一個在 ImageNet-scale 上演示 1024^2 分辨率圖像合成的模型。

將 StyleGAN 擴展到 ImageNet

實驗表明,即使是最新的 StyleGAN3 也不能很好地擴展到 ImageNet 上,如圖 1 所示。特別是在高分辨率時,訓練會變得不穩(wěn)定。因此,研究者的第一個目標是在 ImageNet 上成功地訓練一個 StyleGAN3 生成器。成功的定義取決于主要通過初始評分 (IS)[Salimans et al. 2016] 衡量的樣本質量和 Fréchet 初始距離 (FID)[Heusel et al. 2017] 衡量的多樣性。

在論文中,研究者也介紹了 StyleGAN3 baseline 進行的改動,所帶來的提升如下表 1 所示:

0f08bff4-e15a-11ec-ba43-dac502259ad0.png

研究者首先修改了生成器及其正則化損失,調整了潛在空間以適應 Projected GAN (Config-B) 和類條件設置 (Config-C);然后重新討論了漸進式增長,以提高訓練速度和性能 (Config-D);接下來研究了用于 Projected GAN 訓練的特征網(wǎng)絡,以找到一個非常適合的配置 (Config-E);最后,研究者提出了分類器引導,以便 GAN 通過一個預訓練的分類器 (Config-F) 提供類信息。

這樣一來,就能夠訓練一個比以前大得多的模型,同時需要比現(xiàn)有技術更少的計算量。StyleGAN-XL 在深度和參數(shù)計數(shù)方面比標準的 StyleGAN3 大三倍。然而,為了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先進的性能,在一臺 NVIDIA Tesla V100 上訓練模型需要 400 天,而以前需要 1914 天。(圖 2)。

0f527dd8-e15a-11ec-ba43-dac502259ad0.png

實驗結果

在實驗中,研究者首先將 StyleGAN-XL 與 ImageNet 上的 SOTA 圖像合成方法進行比較。然后對 StyleGAN-XL 的反演和編輯性能進行了評價。研究者將模型擴展到了 1024^2 像素的分辨率,這是之前在 ImageNet 上沒有嘗試過的。在 ImageNet 中,大多數(shù)圖像的分辨率較低,因此研究者用超分辨率網(wǎng)絡 [Liang et al. 2021] 對數(shù)據(jù)進行了預處理。

圖像合成

如表 2 所示,研究者在 ImageNet 上對比了 StyleGAN-XL 和現(xiàn)有最強大的 GAN 模型及擴散模型的圖像合成性能。

0f8a0a3c-e15a-11ec-ba43-dac502259ad0.png

有趣的是,StyleGAN-XL 在所有分辨率下都實現(xiàn)了高度的多樣性,這可以歸功于漸進式生長策略。此外,這種策略使擴大到百萬像素分辨率的合成變成可能。

在 1024^2 這一分辨率下,StyleGAN-XL 沒有與 baseline 進行比較,因為受到資源限制,且它們的訓練成本高得令人望而卻步。

圖 3 展示了分辨率提高后的生成樣本可視化結果。

0fb0f106-e15a-11ec-ba43-dac502259ad0.png

反演和操縱

同時,還可以進一步細化所得到的重構結果。將 PTI [Roich et al. 2021] 和 StyleGAN-XL 相結合,幾乎可以精確地反演域內 (ImageNet 驗證集) 和域外圖像。同時生成器的輸出保持平滑,如下圖 4 所示。

0fdd1772-e15a-11ec-ba43-dac502259ad0.png

圖 5、圖 6 展示了 StyleGAN-XL 在圖像操縱方面的性能:

101c12ba-e15a-11ec-ba43-dac502259ad0.png

106363ea-e15a-11ec-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3500

    瀏覽量

    50124
  • 圖像質量
    +關注

    關注

    0

    文章

    35

    瀏覽量

    10199
  • 英偉達
    +關注

    關注

    22

    文章

    3927

    瀏覽量

    93270

原文標題:英偉達公布StyleGAN-XL:參數(shù)量3倍于StyleGAN3,計算時間僅為五分之一

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?342次閱讀

    行業(yè)首創(chuàng)20kV耐壓繼電器為高壓開關樹立標桿

    Pickering通過擴展其廣受歡迎的63系列舌簧繼電器產品線,將開關觸點間的耐壓能力提升至20kV,從而樹立了新的行業(yè)標桿。 ? 2025年4月,英國克拉克頓濱海:高性能舌簧繼電器領域的全球領導者
    發(fā)表于 04-16 09:59 ?538次閱讀
    行業(yè)首創(chuàng)20kV耐壓繼電器為高壓開關<b class='flag-5'>樹立</b>新<b class='flag-5'>標桿</b>

    愛立信與Telstra、聯(lián)發(fā)科技樹立5G連接新標桿

    近日,愛立信、Telstra與聯(lián)發(fā)科技(MediaTek)合作,在其5G SA商用現(xiàn)網(wǎng)上實現(xiàn)了9.4 Gbps的峰值下行鏈路速度,樹立了5G連接新標桿實驗室環(huán)境中,Telstra取得進一步突破,
    的頭像 發(fā)表于 02-18 09:50 ?7060次閱讀

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+第一章初體驗

    3降低幻覺風險:通過引入權威數(shù)據(jù)源(如學術論文、企業(yè)文檔),RAG為生成過程提供“事實錨點”,減少模型虛構內容的可能。 4輕量化部署:開發(fā)者無需頻繁微調大模型,僅需優(yōu)化檢索模塊即可
    發(fā)表于 02-07 10:42

    打造貼心的Galaxy AI伙伴 三星Galaxy S25系列樹立Galaxy手機新標桿

    和Galaxy S25。通過搭載多模態(tài)AI助理,三星Galaxy S25系列實現(xiàn)了更加自然且具備上下文理解能力的交互體驗,為用戶打造出了真正的Galaxy AI伙伴,再次樹立了Galaxy手機創(chuàng)新的新標桿
    的頭像 發(fā)表于 01-23 14:39 ?449次閱讀
    打造貼心的Galaxy AI伙伴 三星Galaxy S25系列<b class='flag-5'>樹立</b>Galaxy手機新<b class='flag-5'>標桿</b>

    SOLiDVUE激光雷達IC榮獲CES創(chuàng)新獎,樹立行業(yè)新標桿

    研發(fā)方面的深厚實力,更為整個行業(yè)樹立了新的技術標桿。 CES創(chuàng)新獎作為全球消費電子領域的權威獎項,旨在表彰技術創(chuàng)
    的頭像 發(fā)表于 01-20 13:57 ?510次閱讀

    借助谷歌Gemini和Imagen模型生成質量圖像

    快速發(fā)展的生成式 AI 領域,結合不同模型的優(yōu)勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創(chuàng)意的提示,然后使用 Imagen 3
    的頭像 發(fā)表于 01-03 10:38 ?839次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高<b class='flag-5'>質量</b><b class='flag-5'>圖像</b>

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    訓練模型如BERT、GPT等。這些模型在理解自然語言、生成文本、處理對話等方面具有不同的能力。因此,選擇
    發(fā)表于 12-17 16:53

    凱茉銳電子 工業(yè)4.0時代下的索尼高清機芯FCB-CV7520:打造智能檢測新標桿

    工業(yè)4.0時代背景下,索尼高清機芯FCB-CV7520憑借其卓越的性能和多功能智能檢測領域樹立了新的標桿。以下是對該機芯的詳細分析:
    的頭像 發(fā)表于 10-31 10:44 ?592次閱讀

    AI大模型圖像識別中的優(yōu)勢

    AI大模型圖像識別中展現(xiàn)出了顯著的優(yōu)勢,這些優(yōu)勢主要源于其強大的計算能力、深度學習算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對AI大模型
    的頭像 發(fā)表于 10-23 15:01 ?2335次閱讀

    Arm Cortex-X925 樹立全新性能標桿,實現(xiàn)人工智能、游戲和多任務處理的先進功能

    Cortex-X925基于Armv9.2架構,樹立了CPU性能的全新標桿,實現(xiàn)了Cortex-X系列有史以來最大幅度的IPC同比提升。得益于最新的三納米工藝節(jié)點,Cortex-X925實現(xiàn)了更高
    的頭像 發(fā)表于 10-08 12:43 ?754次閱讀
    Arm Cortex-X925 <b class='flag-5'>樹立</b>全新性能<b class='flag-5'>標桿</b>,實現(xiàn)人工智能、游戲和多任務處理的先進功能

    Meta發(fā)布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日人工智能領域邁出了重要一步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這一突破技術為個性化圖像生成
    的頭像 發(fā)表于 08-26 10:59 ?957次閱讀

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發(fā)布了最新開放模型 Gemma 2,目前與同等規(guī)模的開放模型相比,取得了明顯的優(yōu)勢,同時安全可控性上得到了顯著的增強。
    的頭像 發(fā)表于 08-09 17:04 ?1216次閱讀
    Google Gemma 2<b class='flag-5'>模型</b>的部署和Fine-Tune演示

    商湯發(fā)布首個“可控”人物視頻生成模型Vimi

    近日,商湯科技人工智能領域再次取得重大突破,正式發(fā)布了其首個面向消費者的“可控”人物視頻生成模型——Vimi。這一創(chuàng)新技術的問世,標志著視頻內容創(chuàng)作進入了一個全新的互動與個性化時代
    的頭像 發(fā)表于 07-04 15:29 ?998次閱讀

    Transformer模型語音識別和語音生成中的應用優(yōu)勢

    隨著人工智能技術的飛速發(fā)展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,
    的頭像 發(fā)表于 07-03 18:24 ?2077次閱讀
    主站蜘蛛池模板: 99视频在线永久免费观看 | 同性男男肉交短文 | 天堂中文在线网 | 国产自在自线午夜精品视频 | 手机在线视频观看 | 四虎在线免费播放 | 一个人看的www片免费高清视频 | 丁香婷婷亚洲六月综合色 | 色老头网址| 五月天婷婷免费视频 | 色播在线 | 伊人网综合在线观看 | 夜夜夜夜夜夜夜工噜噜噜 | 日本人xxxxxxxx6969| 三区在线观看 | 亚洲偷图色综合色就色 | jizz免费一区二区三区 | 免费公开在线视频 | 三及毛片| 天天干影视 | 国产在线成人一区二区 | 免费网站成人亚洲 | 欧美爆操| 日韩电影天堂网 | 天天靠天天擦天天摸 | 91九色成人| 天天翘夜夜洗澡天天做 | 操女人网址 | 好爽~~~~嗯~~~再快点明星 | 国产牛仔裤系列在线观看 | 清纯唯美亚洲综合一区 | 粗又长好猛好爽 | va国产| 天堂资源吧 | 日本人的色道www免费一区 | 国产精品三级a三级三级午夜 | 亚洲婷婷综合中文字幕第一页 | 日日摸夜夜添免费毛片小说 | 久久久夜夜夜 | china国语对白刺激videos chinese国产videoxx实拍 | 亚洲2020天天堂在线观看 |