北京大學(xué)陳寶權(quán)團(tuán)隊(duì)聯(lián)合山東大學(xué)和騰訊AI Lab的研究人員,提出了首個基于單樣例場景無需訓(xùn)練便可生成多樣高質(zhì)量三維場景的方法。
多樣高質(zhì)的三維場景生成結(jié)果
論文地址:https://arxiv.org/abs/2304.12670
項(xiàng)目主頁:http://weiyuli.xyz/Sin3DGen/
引言 使用人工智能輔助內(nèi)容生成(AIGC)在圖像生成領(lǐng)域涌現(xiàn)出大量的工作,從早期的變分自編碼器(VAE),到生成對抗網(wǎng)絡(luò)(GAN),再到最近大紅大紫的擴(kuò)散模型(Diffusion Model),模型的生成能力飛速提升。以 Stable Diffusion,Midjourney 等為代表的模型在生成具有高真實(shí)感圖像方面取得了前所未有的成果。同時,在視頻生成領(lǐng)域,最近也涌現(xiàn)出很多優(yōu)秀的工作,如 Runway 公司的生成模型能夠生成充滿想象力的視頻片段。這些應(yīng)用極大降低了內(nèi)容創(chuàng)作門檻,使得每個人都可以輕易地將自己天馬行空的想法變?yōu)楝F(xiàn)實(shí)。 但是隨著承載內(nèi)容的媒介越來越豐富,人們漸漸不滿足于圖文、視頻這些二維的圖形圖像內(nèi)容。隨著交互式電子游戲技術(shù)的不斷發(fā)展,特別是虛擬和增強(qiáng)現(xiàn)實(shí)等應(yīng)用的逐步成熟,人們越來越希望能身臨其境地從三維視角與場景和物體進(jìn)行互動,這帶來了對三維內(nèi)容生成的更大訴求。 如何快速地生成高質(zhì)量且具有精細(xì)幾何結(jié)構(gòu)和高度真實(shí)感外觀的三維內(nèi)容,一直以來是計算機(jī)圖形學(xué)社區(qū)研究者們重點(diǎn)探索的問題。通過計算機(jī)智能地進(jìn)行三維內(nèi)容生成,在實(shí)際生產(chǎn)應(yīng)用中可以輔助游戲、影視制作中重要數(shù)字資產(chǎn)的生產(chǎn),極大地減少了美術(shù)制作人員的開發(fā)時間,大幅地降低資產(chǎn)獲取成本,并縮短整體的制作周期,也為用戶帶來千人千面的個性化視覺體驗(yàn)提供了技術(shù)可能。而對于普通用戶來說,快速便捷的三維內(nèi)容創(chuàng)作工具的出現(xiàn),結(jié)合如桌面級三維打印機(jī)等應(yīng)用,未來將為普通消費(fèi)者的文娛生活帶來更加無限的想象空間。 目前,雖然普通用戶可以通過便攜式相機(jī)等設(shè)備輕松地創(chuàng)建圖像和視頻等二維內(nèi)容,甚至可以對三維場景進(jìn)行建模掃描,但總體來說,高質(zhì)量三維內(nèi)容的創(chuàng)作往往需要有經(jīng)驗(yàn)的專業(yè)人員使用如 3ds Max、Maya、Blender 等軟件手動建模和渲染,但這些有很高的學(xué)習(xí)成本和陡峭的成長曲線。 其中一大主要原因是,三維內(nèi)容的表達(dá)十分復(fù)雜,如幾何模型、紋理貼圖或者角色骨骼動畫等。即使就幾何表達(dá)而言,就可以有點(diǎn)云、體素和網(wǎng)格等多種形式。三維表達(dá)的復(fù)雜性極大地限制了后續(xù)數(shù)據(jù)采集和算法設(shè)計。 另一方面,三維數(shù)據(jù)天然具有稀缺性,數(shù)據(jù)獲取的成本高昂,往往需要昂貴的設(shè)備和復(fù)雜的采集流程,且難以大量收集某種統(tǒng)一格式的三維數(shù)據(jù)。這使得大多數(shù)數(shù)據(jù)驅(qū)動的深度生成模型難有用武之地。 在算法層面,如何將收集到的三維數(shù)據(jù)送入計算模型,也是難以解決的問題。三維數(shù)據(jù)處理的算力開銷,要比二維數(shù)據(jù)有著指數(shù)級的增長。暴力地將二維生成算法拓展到三維,即使是最先進(jìn)的并行計算處理器也難以在可接受的時間內(nèi)進(jìn)行處理。 上述原因?qū)е铝水?dāng)前三維內(nèi)容生成的工作大多只局限于某一特定類別或者只能生成較低分辨率的內(nèi)容,難以應(yīng)用于真實(shí)的生產(chǎn)流程中。 為了解決上述問題,北京大學(xué)陳寶權(quán)團(tuán)隊(duì)聯(lián)合山東大學(xué)和騰訊 AI Lab 的研究人員,提出了首個基于單樣例場景無需訓(xùn)練便可生成多樣高質(zhì)量三維場景的方法。該算法具有如下優(yōu)點(diǎn): 1,無需大規(guī)模的同類訓(xùn)練數(shù)據(jù)和長時間的訓(xùn)練,僅使用單個樣本便可快速生成高質(zhì)量三維場景; 2,使用了基于神經(jīng)輻射場的 Plenoxels 作為三維表達(dá),場景具有高真實(shí)感外觀,能渲染出照片般真實(shí)的多視角圖片。生成的場景也完美的保留了樣本中的所有特征,如水面的反光隨視角變化的效果等; 3,支持多種應(yīng)用制作場景,如三維場景的編輯、尺寸重定向、場景結(jié)構(gòu)類比和更換場景外觀等。 方法介紹 研究人員提出了一種多尺度的漸進(jìn)式生成框架,如下圖所示。算法核心思想是將樣本場景拆散為多個塊,通過引入高斯噪聲,然后以類似拼積木的方式將其重新組合成類似的新場景。 作者使用坐標(biāo)映射場這種和樣本異構(gòu)的表達(dá)來表示生成的場景,使得高質(zhì)量的生成變得可行。為了讓算法的優(yōu)化過程更加魯棒,該研究還提出了一種基于值和坐標(biāo)混合的優(yōu)化方法。同時,為了解決三維計算的大量資源消耗問題,該研究使用了精確到近似的優(yōu)化策略,使得能在沒有任何訓(xùn)練的情況下,在分鐘級的時間生成高質(zhì)量的新場景。更多的技術(shù)細(xì)節(jié)請參考原始論文。
隨機(jī)場景生成
通過如左側(cè)框內(nèi)的單個三維樣本場景,可以快速地生成具有復(fù)雜幾何結(jié)構(gòu)和真實(shí)外觀的新場景。該方法可以處理具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的物體,如仙人掌,拱門和石凳等,生成的場景完美地保留了樣本場景的精細(xì)幾何和高質(zhì)量外觀。當(dāng)前沒有任何基于神經(jīng)網(wǎng)絡(luò)的生成模型能做到相似的質(zhì)量和多樣性。 高分辨率大場景生成 該方法能高效地生成極高分辨率的三維內(nèi)容。如上所示,我們可以通過輸入單個左上角分辨率為 512 x 512 x 200 的三維 “千里江山圖” 的一部分,生成 1328 x 512 x 200 分辨率的 “萬里江山圖”,并渲染出 4096 x 1024 分辨率的二維多視角圖片。 真實(shí)世界無邊界場景生成
作者在真實(shí)的自然場景上也驗(yàn)證了所提出的生成方法。通過采用與 NeRF++ 類似的處理方法,顯式的將前景和天空等背景分開后,單獨(dú)對前景內(nèi)容進(jìn)行生成,便可在真實(shí)世界的無邊界場景中生成新場景。 其他應(yīng)用場景場景編輯
使用相同的生成算法框架,通過加入人為指定限制,可以對三維場景內(nèi)的物體進(jìn)行刪除,復(fù)制和修改等編輯操作。如圖中所示,可以移除場景中的山并自動補(bǔ)全孔洞,復(fù)制生成三座山峰或者使山變得更大。 尺寸重定向
該方法也可以對三維物體進(jìn)行拉伸或者壓縮的同時,保持其局部的形狀。圖中綠色框線內(nèi)為原始的樣本場景,將一列三維火車進(jìn)行拉長的同時保持住窗戶的局部尺寸。 結(jié)構(gòu)類比生成
和圖像風(fēng)格遷移類似,給定兩個場景 A 和 B,我們可以創(chuàng)建一個擁有 A 的外觀和幾何特征,但是結(jié)構(gòu)與 B 相似的新場景。如我們可以參考一座雪山將另一座山變?yōu)槿S雪山。 更換樣本場景
由于該方法對生成場景采用了異構(gòu)表達(dá),通過簡單地修改其映射的樣本場景,便可生成更加多樣的新場景。如使用同一個生成場景映射場 S,映射不同時間或季節(jié)的場景,得到了更加豐富的生成結(jié)果。 總結(jié) 這項(xiàng)工作面向三維內(nèi)容生成領(lǐng)域,首次提出了一種基于單樣本的三維自然場景生成模型,嘗試解決當(dāng)前三維生成方法中數(shù)據(jù)需求大、算力開銷多、生成質(zhì)量差等問題。該工作聚焦于更普遍的、語義信息較弱的自然場景,更多的關(guān)注生成內(nèi)容的多樣性和質(zhì)量。算法主要受傳統(tǒng)計算機(jī)圖形學(xué)中紋理圖像生成相關(guān)的技術(shù),結(jié)合近期的神經(jīng)輻射場,能快速地生成高質(zhì)量三維場景,并展示了多種實(shí)際應(yīng)用。 未來展望 該工作有較強(qiáng)的通用性,不僅能結(jié)合當(dāng)前的神經(jīng)表達(dá),也適用于傳統(tǒng)的渲染管線幾何表達(dá),如多邊形網(wǎng)格 (Mesh)。我們在關(guān)注大型數(shù)據(jù)和模型的同時,也應(yīng)該不時地回顧傳統(tǒng)的圖形學(xué)工具。研究人員相信,不久的未來,在 3D AIGC 領(lǐng)域,傳統(tǒng)的圖形學(xué)工具結(jié)合高質(zhì)量的神經(jīng)表達(dá)以及強(qiáng)力的生成模型,將會碰撞出更絢爛的火花,進(jìn)一步推進(jìn)三維內(nèi)容生成的質(zhì)量和速度,解放人們的創(chuàng)造力。 這一研究得到了廣大網(wǎng)友的討論: 有網(wǎng)友表示:(這項(xiàng)研究)對于游戲開發(fā)來說十分棒,只需要建模單個模型就能生成很多新的版本。
對于上述觀點(diǎn),有人表示完全同意,游戲開發(fā)者、個人和小公司可以從這類模型中得到幫助。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4785瀏覽量
101266 -
三維
+關(guān)注
關(guān)注
1文章
513瀏覽量
29050 -
人工智能
+關(guān)注
關(guān)注
1796文章
47865瀏覽量
240704
原文標(biāo)題:CVPR 2023 | 三維場景生成:無需任何神經(jīng)網(wǎng)絡(luò)訓(xùn)練,從單個樣例生成多樣結(jié)果
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
神經(jīng)網(wǎng)絡(luò)解決方案讓自動駕駛成為現(xiàn)實(shí)
非局部神經(jīng)網(wǎng)絡(luò),打造未來神經(jīng)網(wǎng)絡(luò)基本組件
【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程
如何進(jìn)行高效的時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)簡介:什么是機(jī)器學(xué)習(xí)?
基于BP神經(jīng)網(wǎng)絡(luò)的電路最優(yōu)測試集的生成設(shè)計
BP神經(jīng)網(wǎng)絡(luò)的電路最優(yōu)測試集的生成設(shè)計
![BP<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的電路最優(yōu)測試集的<b class='flag-5'>生成</b>設(shè)計](https://file1.elecfans.com//web2/M00/A5/75/wKgZomUMOIaAdPP3AAAVFi9UiiM356.jpg)
基于神經(jīng)網(wǎng)絡(luò)的路徑覆蓋測試數(shù)據(jù)生成方法
![基于<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的路徑覆蓋測試數(shù)據(jù)<b class='flag-5'>生成</b>方法](https://file.elecfans.com/web2/M00/49/8D/poYBAGKhwMeAGqQbAAAX0quAShs111.jpg)
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)_卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程
![卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>結(jié)構(gòu)_卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>訓(xùn)練</b>過程](https://file.elecfans.com/web1/M00/EE/F1/pIYBAGCaSGCATfpZAABtAxxl8DQ030.jpg)
評論