前有DALL.E文本生成圖像,現(xiàn)有將文字變成 3D場(chǎng)景。近日,蘋果 AI 團(tuán)隊(duì)發(fā)布最新 AI 模型 GAUDI,它是基于 3D 場(chǎng)景的神經(jīng)架構(gòu) NeRFs,可以根據(jù)文字生成 3D 室內(nèi)場(chǎng)景。
目前為止,NeRFs 主要用做 3D 模型和 3D 場(chǎng)景的一種神經(jīng)存儲(chǔ)介質(zhì),然后可以從不同的相機(jī)視角進(jìn)行渲染。
最新 AI 系統(tǒng) GAUDI 如果說 NeRFs 從不同角度逼真地渲染圖像的能力可以用于生成 AI 呢? 此前,OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系統(tǒng)展示了 AI 將文本生成圖像的潛力,但內(nèi)容也僅限于 2D 圖像和圖形。 2021 年末時(shí),谷歌通過 Dream Fields 首次展示了 3D AI 生成系統(tǒng),將 NeRF 生成 3D 視圖的能力與 OpenAI 的 CLIP 評(píng)估圖像內(nèi)容的能力相結(jié)合。蘋果 AI 團(tuán)隊(duì)發(fā)布的 GAUDI 是一種能夠生成沉浸式 3D 場(chǎng)景的神經(jīng)架構(gòu),可以根據(jù)文字提示創(chuàng)建 3D 場(chǎng)景。 例如,輸入“穿過走廊”或“上樓梯”,就可以看到執(zhí)行這一動(dòng)作的 3D 場(chǎng)景視頻。
Apple GAUDI 是3D 內(nèi)飾專家
雖然谷歌致力于使用 Dream Fields 生成單個(gè)對(duì)象,但將生成 AI 擴(kuò)展到完全不受約束的 3D 場(chǎng)景仍是一個(gè)尚未解決的問題。這背后極有可能的原因之一是攝像機(jī)位置的限制。 雖然對(duì)于單個(gè)對(duì)象,每個(gè)攝像機(jī)位置都可以映射到一個(gè)圓頂,但在 3D 場(chǎng)景中,這些攝像機(jī)位置會(huì)受到對(duì)象和墻壁等障礙物的限制。 對(duì)于這個(gè)問題,GAUDI 模型的解決方案是:相機(jī)姿態(tài)解碼器對(duì)可能的相機(jī)位置進(jìn)行預(yù)測(cè),并確保輸出是 3D 場(chǎng)景架構(gòu)的有效位置。 場(chǎng)景的場(chǎng)景解碼器預(yù)測(cè)三平面表示,這是一種 3D 畫布,輻射場(chǎng)解碼器在其上使用體積渲染方程繪制后續(xù)圖像。 在對(duì)四個(gè)不同數(shù)據(jù)集(包括室內(nèi)掃描數(shù)據(jù)集 ARKitScences)的實(shí)驗(yàn)中,研究人員表明 GAUDI 可以重建學(xué)習(xí)視圖并匹配現(xiàn)有方法的質(zhì)量。 雖然現(xiàn)在 GAUDI 生成的 3D 場(chǎng)景視頻質(zhì)量還不是很高,但這也說明了 AI 在圖像和視頻技術(shù)這生成的另一種可能。
審核編輯 :李倩
-
3D
+關(guān)注
關(guān)注
9文章
2958瀏覽量
110607 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41188 -
AI
+關(guān)注
關(guān)注
88文章
34936瀏覽量
278313
原文標(biāo)題:蘋果發(fā)布 AI 生成模型 GAUDI,文字生成 3D 場(chǎng)景
文章出處:【微信號(hào):AI科技大本營(yíng),微信公眾號(hào):AI科技大本營(yíng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種以圖像為中心的3D感知模型BIP3D

英倫科技裸眼3D便攜屏有哪些特點(diǎn)?

SciChart 3D for WPF圖表庫(kù)

騰訊混元3D AI創(chuàng)作引擎正式發(fā)布
騰訊混元3D AI創(chuàng)作引擎正式上線
中興通訊全場(chǎng)景AI終端應(yīng)用與裸眼3D新品亮相
3D ToF三維場(chǎng)景距離(景深)測(cè)量系統(tǒng)簡(jiǎn)介


安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級(jí)分析工具


歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

評(píng)論