大主宰,琅琊榜海宴小说,完美世界官网

北京大學陳寶權團隊聯合山東大學和騰訊AI Lab的研究人員，提出了首個基于單樣例場景無需訓練便可生成多樣高質量三維場景的方法。

多樣高質的三維場景生成結果

論文地址：https://arxiv.org/abs/2304.12670

項目主頁：http://weiyuli.xyz/Sin3DGen/

引言使用人工智能輔助內容生成（AIGC）在圖像生成領域涌現出大量的工作，從早期的變分自編碼器（VAE），到生成對抗網絡（GAN），再到最近大紅大紫的擴散模型（Diffusion Model），模型的生成能力飛速提升。以 Stable Diffusion，Midjourney 等為代表的模型在生成具有高真實感圖像方面取得了前所未有的成果。同時，在視頻生成領域，最近也涌現出很多優秀的工作，如 Runway 公司的生成模型能夠生成充滿想象力的視頻片段。這些應用極大降低了內容創作門檻，使得每個人都可以輕易地將自己天馬行空的想法變為現實。但是隨著承載內容的媒介越來越豐富，人們漸漸不滿足于圖文、視頻這些二維的圖形圖像內容。隨著交互式電子游戲技術的不斷發展，特別是虛擬和增強現實等應用的逐步成熟，人們越來越希望能身臨其境地從三維視角與場景和物體進行互動，這帶來了對三維內容生成的更大訴求。如何快速地生成高質量且具有精細幾何結構和高度真實感外觀的三維內容，一直以來是計算機圖形學社區研究者們重點探索的問題。通過計算機智能地進行三維內容生成，在實際生產應用中可以輔助游戲、影視制作中重要數字資產的生產，極大地減少了美術制作人員的開發時間，大幅地降低資產獲取成本，并縮短整體的制作周期，也為用戶帶來千人千面的個性化視覺體驗提供了技術可能。而對于普通用戶來說，快速便捷的三維內容創作工具的出現，結合如桌面級三維打印機等應用，未來將為普通消費者的文娛生活帶來更加無限的想象空間。目前，雖然普通用戶可以通過便攜式相機等設備輕松地創建圖像和視頻等二維內容，甚至可以對三維場景進行建模掃描，但總體來說，高質量三維內容的創作往往需要有經驗的專業人員使用如 3ds Max、Maya、Blender 等軟件手動建模和渲染，但這些有很高的學習成本和陡峭的成長曲線。其中一大主要原因是，三維內容的表達十分復雜，如幾何模型、紋理貼圖或者角色骨骼動畫等。即使就幾何表達而言，就可以有點云、體素和網格等多種形式。三維表達的復雜性極大地限制了后續數據采集和算法設計。另一方面，三維數據天然具有稀缺性，數據獲取的成本高昂，往往需要昂貴的設備和復雜的采集流程，且難以大量收集某種統一格式的三維數據。這使得大多數數據驅動的深度生成模型難有用武之地。在算法層面，如何將收集到的三維數據送入計算模型，也是難以解決的問題。三維數據處理的算力開銷，要比二維數據有著指數級的增長。暴力地將二維生成算法拓展到三維，即使是最先進的并行計算處理器也難以在可接受的時間內進行處理。上述原因導致了當前三維內容生成的工作大多只局限于某一特定類別或者只能生成較低分辨率的內容，難以應用于真實的生產流程中。為了解決上述問題，北京大學陳寶權團隊聯合山東大學和騰訊 AI Lab 的研究人員，提出了首個基于單樣例場景無需訓練便可生成多樣高質量三維場景的方法。該算法具有如下優點： 1，無需大規模的同類訓練數據和長時間的訓練，僅使用單個樣本便可快速生成高質量三維場景； 2，使用了基于神經輻射場的 Plenoxels 作為三維表達，場景具有高真實感外觀，能渲染出照片般真實的多視角圖片。生成的場景也完美的保留了樣本中的所有特征，如水面的反光隨視角變化的效果等； 3，支持多種應用制作場景，如三維場景的編輯、尺寸重定向、場景結構類比和更換場景外觀等。方法介紹研究人員提出了一種多尺度的漸進式生成框架，如下圖所示。算法核心思想是將樣本場景拆散為多個塊，通過引入高斯噪聲，然后以類似拼積木的方式將其重新組合成類似的新場景。作者使用坐標映射場這種和樣本異構的表達來表示生成的場景，使得高質量的生成變得可行。為了讓算法的優化過程更加魯棒，該研究還提出了一種基于值和坐標混合的優化方法。同時，為了解決三維計算的大量資源消耗問題，該研究使用了精確到近似的優化策略，使得能在沒有任何訓練的情況下，在分鐘級的時間生成高質量的新場景。更多的技術細節請參考原始論文。

隨機場景生成

通過如左側框內的單個三維樣本場景，可以快速地生成具有復雜幾何結構和真實外觀的新場景。該方法可以處理具有復雜拓撲結構的物體，如仙人掌，拱門和石凳等，生成的場景完美地保留了樣本場景的精細幾何和高質量外觀。當前沒有任何基于神經網絡的生成模型能做到相似的質量和多樣性。高分辨率大場景生成該方法能高效地生成極高分辨率的三維內容。如上所示，我們可以通過輸入單個左上角分辨率為 512 x 512 x 200 的三維 “千里江山圖” 的一部分，生成 1328 x 512 x 200 分辨率的 “萬里江山圖”，并渲染出 4096 x 1024 分辨率的二維多視角圖片。真實世界無邊界場景生成

作者在真實的自然場景上也驗證了所提出的生成方法。通過采用與 NeRF++ 類似的處理方法，顯式的將前景和天空等背景分開后，單獨對前景內容進行生成，便可在真實世界的無邊界場景中生成新場景。其他應用場景場景編輯

使用相同的生成算法框架，通過加入人為指定限制，可以對三維場景內的物體進行刪除，復制和修改等編輯操作。如圖中所示，可以移除場景中的山并自動補全孔洞，復制生成三座山峰或者使山變得更大。尺寸重定向

該方法也可以對三維物體進行拉伸或者壓縮的同時，保持其局部的形狀。圖中綠色框線內為原始的樣本場景，將一列三維火車進行拉長的同時保持住窗戶的局部尺寸。結構類比生成

和圖像風格遷移類似，給定兩個場景 A 和 B，我們可以創建一個擁有 A 的外觀和幾何特征，但是結構與 B 相似的新場景。如我們可以參考一座雪山將另一座山變為三維雪山。更換樣本場景

由于該方法對生成場景采用了異構表達，通過簡單地修改其映射的樣本場景，便可生成更加多樣的新場景。如使用同一個生成場景映射場 S，映射不同時間或季節的場景，得到了更加豐富的生成結果。總結這項工作面向三維內容生成領域，首次提出了一種基于單樣本的三維自然場景生成模型，嘗試解決當前三維生成方法中數據需求大、算力開銷多、生成質量差等問題。該工作聚焦于更普遍的、語義信息較弱的自然場景，更多的關注生成內容的多樣性和質量。算法主要受傳統計算機圖形學中紋理圖像生成相關的技術，結合近期的神經輻射場，能快速地生成高質量三維場景，并展示了多種實際應用。未來展望該工作有較強的通用性，不僅能結合當前的神經表達，也適用于傳統的渲染管線幾何表達，如多邊形網格 (Mesh)。我們在關注大型數據和模型的同時，也應該不時地回顧傳統的圖形學工具。研究人員相信，不久的未來，在 3D AIGC 領域，傳統的圖形學工具結合高質量的神經表達以及強力的生成模型，將會碰撞出更絢爛的火花，進一步推進三維內容生成的質量和速度，解放人們的創造力。這一研究得到了廣大網友的討論：有網友表示：（這項研究）對于游戲開發來說十分棒，只需要建模單個模型就能生成很多新的版本。