在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于語義布局的圖像合成更逼真、效果更好

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-02 08:49 ? 次閱讀

編者按:去年,英特爾實驗室視覺組主管Vladlen Koltun和斯坦福大學博士陳啟峰發表論文Photographic Image Synthesis with Cascaded Refinement Networks,用級聯優化網絡生成照片。這種合成的圖片是神經網絡“憑空”生成的,也就是說,世界上根本找不到這樣的場景。他們的算法可以看做一個渲染引擎,輸入一張語義布局,告訴算法哪里有道路、哪里有車、交通燈、行人、樹木,算法就能按照圖中的布局輸出一張逼真的圖像,“好比機器想象出來的畫面”。

在這篇論文中,英特爾實驗室和香港中文大學的研究人員共同創造了一種半參數的圖像合成方法,讓基于語義布局的圖像合成更逼真、效果更好。以下是論智對原論文的編譯。

在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事:“公元前五世紀,古希臘畫家宙克西斯(Zeuxis)以日常繪畫和對光影的利用而聞名。他畫了一個小男孩舉起葡萄的作品,葡萄非常自然、逼真,竟吸引鳥兒前來啄食。然而宙克西斯并不滿意,因為畫上的男孩舉起葡萄的動作還不夠逼真,沒有嚇跑鳥兒。”技術高超的畫家想做出以假亂真的畫已經很困難了,機器可以實現這個任務嗎?

用深度神經網絡進行現實圖像合成為模擬現實圖像開辟了新方法。在現代數字藝術中,能合成非常逼真的圖像的深層網絡成為一種新工具。通過賦予它們一種視覺想象的形式,證明了它們在AI創造中的有用性。

最近的圖像合成發展大多得益于基于參數的模型驅動,即能代表所有圖像外觀權重所有數據的深層網絡。這與人類寫實畫家的做法完全不同,他們并不是依靠記憶作畫,而是用外部參考當做材料來源,再現目標物體的外觀細節。這也和之前圖像合成的方法不同,傳統的圖像合成方法基于非參數技術,可以在測試時使用大規模數據集。從非參數方法轉變為參數方法,研究人員發現,端到端的訓練有著高度表達的模型。但它在測試時放棄了非參數技術優勢。

在這篇論文中,我們提出了一種半參數的方法(semi-parametric approach),從語義布局中合成近乎真實的圖像,這種方法被稱作“半參數圖像合成(semi-parametric image synthesis,SIMS)”。半參數合成方法結合了參數和非參數技術各自的優勢,在所提出的方法中,非參數部分是指一組與照片相對的語義布局訓練集中繪制的分段數據庫。這些片段用于圖像合成的原始材料,它們通過深度網絡應用在畫布上,之后,畫布會輸出一張圖像。

Chen和Koltun的研究成果與我們的SIMS方法的成果對比。第一行是輸入的語義布局

實驗概覽

我們的目標是基于語義布局L∈{0, 1}h×w×c合成一張逼真的圖像,其中h×w是圖片尺寸,c是語義類別的數量。下圖是圖像合成第一階段的大致過程:

我們的模型在一對對圖片和其對應的語義布局上進行訓練,圖片集是用于生成不同語義類別的圖像片段存儲庫M,其中的每個片段Pi都來源于訓練圖像,并且屬于一個語義類別。圖中的a和b兩部分就是一些片段。

在測試時,我們會得到在訓練時從未見過的語義標簽映射L,這個標簽映射會分解成互相連接的組成部分{Li},對于每個連接部分,我們都會根據形狀、位置和語境,從M中檢索兼容的片段,即上圖b的步驟。而檢索步驟與Li被一個經過訓練的空間變壓器網絡相連接,即圖上的c和d。經過轉換的片段在畫布上進行合成,C∈Rw×h×3,即上圖中的f。由于片段無法與{Li}完美重合,也許會出現重疊的情況。最后e部分用來進行前后排序。

之后,畫布C和輸入的語義布局L一同被輸入合成網絡f中,網絡生成最終的圖像被輸出,過程如下圖所示:

這一過程補全了缺失的區域、調整檢索到的片段、混合邊界、合成陰影,并且基于畫布和目標布局調整圖像外觀。具體架構和訓練過程可查看原論文。

為了將我們的方法應用到較為粗略的語義布局中,我們訓練了一個級聯的精煉網絡,用于將粗糙的布局輸入轉化成密集的像素級輸出。

實驗過程

數據集

本次實驗在三個數據集上進行:Cityscapes、NYU和ADE20K。Cityscapes數據集包含的是城市道路景觀照,其中有3000張帶有精細標記的圖像,20000張粗略標記的、用于訓練的圖像。我們讓模型在這兩種圖像上分別訓練,最終在含有500張圖像的驗證數據集上進行測試。

對于NYU數據集,我們在前1200張圖像上進行訓練,剩下的249張圖像用于測試。而ADE20K數據集是室外圖片,我們中其中1萬張圖像進行訓練,1000張圖像進行測試。

感知測試

我們將提出的方法和pix2pix以及CRN進行了對比,下圖是結果,表中的每一項都顯示,我們的方法(SIMS)都比由pix2pix和CRN合成的圖像更真實:

語義分割準確度

接下來,我們分析了合成圖像的真實性。給定一個語義布局L,我們用一種可評估的方法合成一張圖像I,該圖像之后會被輸入到一個預訓練過的語義分割網絡(這里我們用PSPNet)。這個網絡會生成一個語義布局L?,然后我們將L?和L相比較。理論上來說,二者越接近,圖像的真實程度就越高。比較L和L?有兩種方法:intersection over union(IoU)和總體像素精度。

最終的結果如下:

我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實。

圖像數據

接著,我們從低級圖像數據方面分析圖像的真實性。我們比較了合成圖像的平均經典譜(power spectrum)以及對應的數據集中的真實圖像。下圖顯示了三種方法合成圖像的平均經典譜:

可以看出,我們的方法生成的平均經典譜與真實圖像的平均經典譜非常接近,而其他兩種方法則與真實圖像有差別。

質量結果

從以下兩張圖中可以看出這三種方法的差別。

結語

我們所提出的半參數圖像合成方法(SIMS)可以從語義布局中生成圖像,實驗證明這種方法比完全參數化的技術生成的圖像更真實。但是在這之后仍有一些尚未解決的問題。首先,我們的方法在部署時比完全基于參數的方法慢很多。另外還要開發更高效的數據機構和算法。其次,其他形式的輸入也應該可用,例如語義實例分割或者文本描述。第三,我們所提出的方法并不是端到端訓練的。最后,我們希望這項半參數技術能應用到視頻合成上。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4785

    瀏覽量

    101266
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40599
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24855

原文標題:英特爾實驗室推出半參數圖像合成方法,AI造圖“以假亂真”

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于超像素的戶外建筑圖像布局標定方法

    識別方法.最后,定義規則整合各項標記,實現了對圖像內容的劃分,提取其布局信息.實驗結果表明,該方法應用于常見幾種布局的戶外建筑目標圖像都能收到較好的
    發表于 04-24 09:47

    3D效果逼真的元件封裝庫網盤下載

    `3D效果逼真的元件封裝庫網盤下載網盤下載地址:鏈接: https://pan.baidu.com/s/1iprCUYmzmlH7zIvwWQfwWw 提取碼: n7k4 復制這段內容后打開百度網盤手機App,操作方便哦`
    發表于 03-07 15:23

    目標檢測和圖像語義分割領域性能評價指標

    目標檢測和圖像語義分割領域的性能評價指標
    發表于 05-13 09:57

    基于語義報文的干擾效果評估系統設計

    分析了干擾效果評估試驗中存在的若干問題,提出了改進的試驗方法,在此基礎上設計了基于語義報文的干擾效果評估系統,并闡述了系統各個模塊的功能,重點分析了合成模塊和輔助
    發表于 08-08 14:42 ?0次下載
    基于<b class='flag-5'>語義</b>報文的干擾<b class='flag-5'>效果</b>評估系統設計

    DeepFocus,基于AI實現逼真的VR圖像

    DeepFocus是一種基于AI的渲染系統,用于在VR中渲染自然逼真的人眼聚焦效果。本文來自Facebook工程博客,LiveVideoStack進行了翻譯。感謝阿里巴巴高級算法專家盛驍杰提供的技術審校。
    的頭像 發表于 12-29 15:18 ?3911次閱讀

    當前生成圖像逼真的BigGAN被谷歌超越!造假效果更為逼真

    當前生成圖像逼真的BigGAN被超越了!
    的頭像 發表于 03-11 15:28 ?4186次閱讀

    AI工具將低像素的面孔變成逼真圖像

    DUL研究人員創建了PULSE(通過潛伏空間探索進行照片上采樣),以根據低像素源數據創建逼真圖像。在今年早些時候分發的研究論文中,該團隊解釋了他們的方法與早期從8位圖像生成
    的頭像 發表于 07-07 09:43 ?2414次閱讀

    人體圖像合成制作可信和逼真的人類圖像

    技術和算法的開發和精進讓AI換臉、AI克隆都成了可實現的事情。近日,上海科技大學團隊的一項新研究,再一擴展了這一領域,其開發建立了人體圖像合成——人體圖像合成的目的是制作可信和
    的頭像 發表于 12-14 11:17 ?3463次閱讀

    分析總結基于深度神經網絡的圖像語義分割方法

    隨著深度學習技術的快速發展及其在語義分割領域的廣泛應用,語義分割效果得到顯著提升。對基于深度神經網絡的圖像語義分割方法進行分析與總結,根據網
    發表于 03-19 14:14 ?21次下載
    分析總結基于深度神經網絡的<b class='flag-5'>圖像</b><b class='flag-5'>語義</b>分割方法

    基于SEGNET模型的圖像語義分割方法

    使用原始 SEGNET模型對圖像進行語義分割時,未對圖像中相鄰像素點間的關系進行考慮,導致同一目標中像素點類別預測結果不一致。通過在 SEGNET結構中加入一條自上而下的通道,使得 SEGNET包含
    發表于 05-27 14:54 ?15次下載

    語義分割標注:從認知到實踐

    隨著人工智能技術的不斷發展,語義分割標注已經成為計算機視覺領域的一個熱門話題。語義分割是指將圖像中的每個像素分配給一個預定義的語義類別,以便在計算機視覺應用中進行分類和分析。標注
    的頭像 發表于 04-30 21:20 ?1172次閱讀

    深度學習圖像語義分割指標介紹

    深度學習在圖像語義分割上已經取得了重大進展與明顯的效果,產生了很多專注于圖像語義分割的模型與基準數據集,這些基準數據集提供了一套統一的批判模
    發表于 10-09 15:26 ?463次閱讀
    深度學習<b class='flag-5'>圖像</b><b class='flag-5'>語義</b>分割指標介紹

    深入理解渲染引擎:打造逼真圖像的關鍵

    在數字世界中,圖像渲染是創造逼真視覺效果的核心技術。渲染引擎,作為這一過程中的關鍵組件,負責將二維或三維的模型、紋理、光照等數據轉化為人們肉眼可見的二維圖像。本文將深入探討渲染引擎的工
    的頭像 發表于 06-29 08:28 ?403次閱讀
    深入理解渲染引擎:打造<b class='flag-5'>逼真</b><b class='flag-5'>圖像</b>的關鍵

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在
    的頭像 發表于 07-09 11:51 ?1205次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫學圖像
    的頭像 發表于 07-17 09:56 ?556次閱讀
    主站蜘蛛池模板: 91网址在线播放 | 女人张开双腿让男人桶爽免 | 7m视频精品凹凸在线播放 | 97久久伊人精品影院 | 日韩免费观看的一级毛片 | 四虎永久精品免费网址大全 | 四虎影院视频 | 中文字幕一区二区视频 | 97久久天天综合色天天综合色 | 日本高清视频成人网www | 亚洲黄色小说网站 | 色综合天天色综合 | 88av免费观看 | 亚洲婷婷六月 | 欧美生活性色 | 欧美日韩亚洲国内综合网俺 | 正在播放亚洲一区 | 夜夜艹日日干 | 天天操天天干天天拍 | 午夜一级成人 | 欧美高清免费一级在线 | 在线看逼| 视频免费播放 | 黄色片网站观看 | a欧美视频 | 1024手机免费看 | 操插干| 亚洲国产综合人成综合网站00 | 欧美日韩国产成人高清视频 | 寂寞午夜影院 | 99久久久精品免费观看国产 | 丁香婷婷综合五月综合色啪 | 天堂网视频 | 色多多视频在线观看免费大全 | 国产精品夜夜春夜夜爽久久 | 国产播放啪视频免费视频 | 亚洲小便| 五月婷花 | 成人区精品一区二区毛片不卡 | 日本高清中文字幕在线观穿线视频 | 中文天堂最新版在线精品 |