人工智能合成的3D物體模型不夠逼真?谷歌團隊最近開發(fā)了一個AI系統(tǒng)——視覺對象網(wǎng)絡(luò)(VON),不僅生成的圖像比當(dāng)前最先進的方法還要逼真,而且還可以做一系列3D操作。
合成現(xiàn)實3D物體模型的人工智能,看上去并沒有那么遙不可及。
在2018年蒙特利爾NeurIPS大會上,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(MIT CSAIL)和谷歌的研究人員發(fā)表了一篇論文,描述了一個能夠生成具有逼真紋理的人工智能系統(tǒng)。
論文名稱:
Visual Object Networks: Image Generation with Disentangled 3D Representation
論文地址:
https://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf
人工智能系統(tǒng)VON,生成最逼真3D圖像
該人工智能系統(tǒng)——視覺對象網(wǎng)絡(luò)(Visual Object Networks,VON),不僅生成的圖像比當(dāng)前最先進的方法還要逼真,還可以進行形狀和紋理編輯、視角轉(zhuǎn)換以及其它3D調(diào)整。
研究人員寫到:“現(xiàn)代深層生成模型學(xué)會了合成較為逼真的圖像。大多數(shù)計算模型只專注于生成2D圖像,忽略了世界是3D的本質(zhì)。這種2D視角不可避免地限制了它們在許多領(lǐng)域的實際應(yīng)用,比如合成數(shù)據(jù)生成、機器人學(xué)習(xí)、視覺現(xiàn)實和游戲行業(yè)。”
VON通過聯(lián)合合成三維形狀和二維圖像來解決這個問題,研究人員將其稱為“disentangled object representation”。圖像生成模型被分解為形狀、視點和紋理三個要素,在計算“2.5D”草圖和添加紋理之前,首先學(xué)習(xí)三維形狀的合成。
重要的是,因為這三個要素是條件獨立的,模型不需要在二維和三維形狀之間配對數(shù)據(jù)。這使得該團隊能夠?qū)ΧS圖像和三維形狀的大規(guī)模集合進行訓(xùn)練,比如Pix3D、谷歌圖像搜索和ShapeNet,后者包含了55個對象類別的數(shù)千個CAD模型。
為了讓VON學(xué)習(xí)如何生成自己的形狀,該團隊訓(xùn)練了一個生成對抗網(wǎng)絡(luò)(GAN),試圖在上述三維形狀數(shù)據(jù)集上區(qū)分生成樣本和真實樣本。紋理生成被“降級”到另一個基于GAN的神經(jīng)網(wǎng)絡(luò)。
經(jīng)過大約兩到三天的訓(xùn)練,人工智能系統(tǒng)產(chǎn)生了逼真的128×128×128模型,具有真實的反射率、環(huán)境照度和反照率。
為了評估圖像生成模型,團隊計算了用于生成三維模型的Fréchet初始距離 。此外,他們還向亞馬遜的Mechanical Turk上展示了200對由VON和最先進的模型生成的圖像,被試者的任務(wù)是在每對圖像中選擇更加真實的結(jié)果。
VON的性能表現(xiàn)非常突出。與其它AI模型相比,它的Fréchet初始距離最低。Mechanical Turk被試者更喜歡VON生成的圖像,比例高達74%至85%。
研究人員將專注于更加精細化的建模,以更高的分辨率生成形狀和圖像,將紋理分解為光照和外觀,并合成自然場景。
研究團隊寫道:“我們的關(guān)鍵思想是將圖像生成過程分解為三個要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對抗學(xué)習(xí)框架下從3D和2D視覺數(shù)據(jù)收集中學(xué)習(xí)模型。與現(xiàn)有的2D生成模型相比,我們的模型合成的圖像更加逼真;它還允許3D操作,這用以前的2D方法是無法實現(xiàn)的。”
突飛猛進的GAN
近年來,對GAN的研究突飛猛進,尤其是在機器視覺領(lǐng)域:
Google旗下的DeepMind去年10月推出了一個基于GAN的系統(tǒng),可以創(chuàng)建非常逼真的食物、風(fēng)景、動物等照片;
今年9月,英偉達的研究人員開發(fā)了一種AI模型,可以對腦癌進行合成掃描;
今年8月,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon)的一個研究小組展示了如何利用人工智能將一個人錄制下來的動作和面部表情在轉(zhuǎn)移到另一張照片或視頻中的目標對象;
最近,愛丁堡大學(xué)感知研究所和天文學(xué)研究所的科學(xué)家設(shè)計了一種可以產(chǎn)生高分辨率的星系圖像。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48510瀏覽量
245343 -
3D圖像
+關(guān)注
關(guān)注
0文章
38瀏覽量
10856
原文標題:谷歌NeurIPS 2018論文:GAN生成3D模型,圖像自帶逼真效果
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA助力影眸科技3D生成工具Rodin升級
我國生成式人工智能的發(fā)展現(xiàn)狀與趨勢
嵌入式和人工智能究竟是什么關(guān)系?
《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得
risc-v在人工智能圖像處理應(yīng)用前景分析
生成式人工智能在教育中的應(yīng)用
生成式人工智能的概念_生成式人工智能主要應(yīng)用場景
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新
FPGA在人工智能中的應(yīng)用有哪些?
歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

評論