在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

給一個文本提示就能生成3D模型!

CVer ? 來源:新智元 ? 作者:新智元 ? 2022-10-19 14:51 ? 次閱讀

【導讀】給一個文本提示就能生成3D模型!

自從文本引導的圖像生成模型火了以后,畫家群體迅速擴張,不會用畫筆的人也能發揮想象力進行藝術創作。

但目前的模型,如DALL-E 2, Imagen等仍然停留在二維創作(即圖片),無法生成360度無死角的3D模型。

想要直接訓練一個text-to-3D的模型非常困難,因為DALL-E 2等模型的訓練需要吞噬數十億個圖像-文本對,但三維合成并不存在如此大規模的標注數據,也沒有一個高效的模型架構對3D數據進行降噪。

52169bf0-4f6d-11ed-a3b6-dac502259ad0.gif

最近Google研究員另辟蹊徑,提出一個新模型DreamFusion,先使用一個預訓練2D擴散模型基于文本提示生成一張二維圖像,然后引入一個基于概率密度蒸餾的損失函數,通過梯度下降法優化一個隨機初始化的神經輻射場NeRF模型。

53ed42a8-4f6d-11ed-a3b6-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2209.14988

訓練后的模型可以在任意角度、任意光照條件、任意三維環境中基于給定的文本提示生成模型,整個過程既不需要3D訓練數據,也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗。

從文本到3D模型

以文本為條件的生成性圖像模型現在支持高保真、多樣化和可控的圖像合成,高質量來源于大量對齊的圖像-文本數據集和可擴展的生成模型架構,如擴散模型。

雖然二維圖像生成的應用場景十分廣泛,但諸如游戲、電影等數字媒體仍然需要成千上萬的詳細的三維資產來填充豐富的互動環境。

目前,3D資產的獲取方式主要由Blender和Maya3D等建模軟件手工設計,這個過程需要耗費大量的時間和專業知識。

2020年,神經輻射場(NeRF)模型發布,其中體積光線追蹤器與從空間坐標到顏色和體積密度的神經映射相結合,使得NeRF已經成為神經逆向渲染的一個重要工具。

最初,NeRF被發現可以很好地用于「經典」的三維重建任務:一個場景下的不同角度圖像提供給一個模型作為輸入,然后優化NeRF以恢復該特定場景的幾何形狀,能夠從未觀察到的角度合成該場景的新視圖。

很多三維生成方法都是基于NeRF模型,比如2022年提出的Dream Fields使用預訓練的CLIP模型和基于優化的方法來訓練NeRF,直接從文本中生成3D模型,但這種方式生成的三維物體往往缺乏真實性和準確性。

541797b0-4f6d-11ed-a3b6-dac502259ad0.png

DreamFusion采用了與Dream Field類似的方法,但模型中的損失函數基于概率密度蒸餾,最小化基于擴散的前向過程的共享的高斯分布族與預訓練的擴散模型所學習的分數函數之間的KL散度。

擴散模型是一個隱變量生成模型,學習如何逐步將一個樣本從簡單的噪聲分布轉換到數據分布。

58d372b0-4f6d-11ed-a3b6-dac502259ad0.png

擴散模型的包括一個前向過程(forward process),緩慢地從數據中添加噪聲并移除結構,兩個時間步之間的過渡通常服從高斯分布,并在反向過程(reverse process)或生成式模型中在噪聲上逐漸添加結構。

現有的擴散模型采樣方法產生的樣本與模型訓練的觀測數據類型和維度相同,盡管有條件的擴散采樣能夠實現相當大的靈活性,但在像素上訓練的擴散模型傳統上只用來對像素進行采樣。

但像素采樣并不重要,研究人員只希望創建的三維模型在從隨機角度渲染時,看起來像是一張好的圖像。

可微分圖像參數化(DIP)允許模型表達約束條件,在更緊湊的空間中進行優化(例如任意分辨率的基于坐標的MLPs),或利用更強大的優化算法來遍歷像素空間。

對于三維來說,參數θ是三維體積的參數,可微生成器g是體積渲染器,為了學習這些參數,需要一個可以應用于擴散模型的損失函數。

文中采用的方法是利用擴散模型的結構,通過優化實現可操作的取樣,當損失函數最小化時生成一個樣本,然后對參數θ進行優化,使x=g(θ)看起來像凍結擴散模型的樣本。

為了進行這種優化,還需要一個可微的損失函數,其中可信的圖像具有較低的損失,而不可信的圖像有高的損失,與DeepDream的過程類似。

在實踐中,研究人員發現即使是在使用一個相同的DIP時,損失函數也無法生成現實的樣本。但同期的一項工作表明,這種方法可以通過精心選擇的時間步長來實現,但這個目標很脆弱,其時間步長的調整也很困難。

通過觀察和分解梯度可以發現,U-Net Jacobian項的計算成本很高(需要通過擴散模型U-Net進行反向傳播),而且對于小的噪聲水平來說條件很差,因為它的訓練目標為近似于邊際密度的縮放Hessian

58f82c90-4f6d-11ed-a3b6-dac502259ad0.png

通過實驗,研究人員發現省略U-Net的Jacobian項可以帶來一個有效的梯度結果,能夠用于優化帶有擴散模型的DIPs

591e7e40-4f6d-11ed-a3b6-dac502259ad0.png

直觀來看,這個損失用對應于時間步長的隨機數量的噪聲來擾動輸入數據,并估計出一個更新方向,該方向遵循擴散模型的得分函數,以移動到一個更高密度的區域。

593ef6fc-4f6d-11ed-a3b6-dac502259ad0.png

雖然這種用擴散模型學習DIP的梯度可能看起來很特別,但實驗結果表明更新方向確實是從擴散模型學到的得分函數中得到的加權概率密度蒸餾損失的梯度。

研究人員將該采樣方法命名為得分蒸餾采樣(Score Distillation Sampling, SDS),因為該過程與蒸餾有關,但使用的是得分函數而不是密度。

5957acc4-4f6d-11ed-a3b6-dac502259ad0.png

下一步就是通過將SDS與為該3D生成任務定制的NeRF變體相結合,DreamFusion可以為一組不同的用戶提供的文本提示生成了高保真的連貫的3D物體和場景。

文章中采用的預訓練擴散模型為Imagen,并且只使用分辨率為64×64的基礎模型,并按原樣使用這個預訓練的模型,不做任何修改。

然后用隨機權重初始化一個類似于NeRF的模型,從隨機的相機位置和角度反復渲染該NeRF的視圖,用這些渲染結果作為環繞Imagen的分數蒸餾損失函數的輸入。

59fc17b4-4f6d-11ed-a3b6-dac502259ad0.png

給出一個預訓練好的文本到圖像的擴散模型,一個以NeRF形式存在的可w微分的圖像參數化DIP,以及一個損失函數(最小值代表好樣本),這樣無三維數據的文本到三維合成所需的所有組件就齊活了。

對于每個文本提示,都從頭開始訓練一個隨機初始化的NeRF。

DreamFusion優化的每次迭代都包含四步:

1、隨機采樣一個相機和燈光

在每次迭代中,相機位置在球面坐標中被隨機采樣,仰角范圍從-10°到90°,方位角從0°到360°,與原點的距離為1到1.5

同時還在原點周圍取樣一個看(look-at)的點和一個向上(up)的矢量,并將這些與攝像機的位置結合起來,創建一個攝像機的姿勢矩陣。同時對焦距乘數服從U(0.7, 1.35)進行采樣,點光位置是從以相機位置為中心的分布中采樣的。

使用廣泛的相機位置對合成連貫的三維場景至關重要,寬泛的相機距離也有助于提高學習場景的分辨率。

2、從該相機和燈光下渲染NeRF的圖像

考慮到相機的姿勢和光線的位置,以64×64的分辨率渲染陰影NeRF模型。在照明的彩色渲染、無紋理渲染和沒有任何陰影的反照率渲染之間隨機選擇。

3、計算SDS損失相對于NeRF參數的梯度

通常情況下,文本prompt描述的都是一個物體的典型視圖,在對不同的視圖進行采樣時,這些視圖并不是最優描述。根據隨機采樣的相機的位置,在提供的輸入文本中附加與視圖有關的文本是有益的。

對于大于60°的高仰角,在文本中添加俯視(overhead view),對于不大于60°的仰角,使用文本embedding的加權組合來添加前視圖、側視圖 或 后視圖,具體取決于方位角的值。

4、使用優化器更新NeRF參數

3D場景在一臺有4個芯片的TPUv4機器上進行了優化,每個芯片渲染一個單獨的視圖并評估擴散U-Net,每個設備的batch size為1。優化了15,000次迭代,大約需要1.5小時。

5a374ece-4f6d-11ed-a3b6-dac502259ad0.png

實驗部分評估了DreamFusion從各種文本提示中生成連貫的3D場景的能力。

與現有的zero-shot文本到3D生成模型進行比較后可以發現,DreamFusion模型中能夠實現精確3D幾何的關鍵組件。

5a65e2d4-4f6d-11ed-a3b6-dac502259ad0.png

通過對比DreamFusion和幾個基線的R-精度,包括Dream Fields、CLIP-Mesh和一個評估MS-COCO中原始字幕圖像的oracle,可以發現DreamFusion在彩色圖像上的表現超過了這兩個基線,并接近于ground-truth圖像的性能。

5b4f692c-4f6d-11ed-a3b6-dac502259ad0.png

雖然Dream Fields的實現在用無紋理渲染評估幾何圖形(Geo)時表現得很好,但DreamFusion在58.5%的情況里與標準一致。

5b7c807e-4f6d-11ed-a3b6-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1094

    瀏覽量

    41056
  • 3D模型
    +關注

    關注

    1

    文章

    72

    瀏覽量

    16338

原文標題:3D版DALL-E來了!谷歌發布文本3D生成模型DreamFusion,給一個文本提示就能生成3D模型!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA助力影眸科技3D生成工具Rodin升級

    。在 NVIDIA Omniverse 平臺、OpenUSD 以及 Isaac Lab 解決方案的助力下,影眸科技實現了 Rodin 平臺的升級,顯著提升了 3D 資產生成的速度、質量與用戶體驗,推動具身智能進步發展。
    的頭像 發表于 04-27 15:09 ?355次閱讀

    種以圖像為中心的3D感知模型BIP3D

    在具身智能系統中,3D感知算法是關鍵組件,它在端側幫助可以幫助智能體理解環境信息,在云端可以用來輔助生成3D場景和
    的頭像 發表于 03-17 13:44 ?372次閱讀
    <b class='flag-5'>一</b>種以圖像為中心的<b class='flag-5'>3D</b>感知<b class='flag-5'>模型</b>BIP<b class='flag-5'>3D</b>

    使用海爾曼太通/HellermannTyton 3D CAD 模型進行快速高效的設計

    網站源鏈接和每個產品的相應目錄頁面起出現在搜索結果列表中。用戶可以在線瀏覽查看相應的 3D CAD 模型及其數據信息。雙方通過合作,CADENAS能將3dfindit的三維
    發表于 03-14 16:55

    3D打印可以打印那種柔韌性好,能隨意變形的模型嗎?

    且具有回彈性產品的,比如使用柔性材料TPU(熱塑性聚氨脂),它就能夠承受掰折、拉扯或扭曲而不輕易斷裂、損壞。 為了驗證這特點,JLC3D小編用TPU材料打印了
    發表于 03-13 11:41

    對于結構光測量、3D視覺的應用,使用100%offset的lightcrafter是否能用于點云生成的應用?

    你好,我有些對于offset的疑問,希望能夠得到解答。 對于結構光測量、3D視覺的應用,使用100%offset的lightcrafter是否能用于點云生成的應用? 標定和三角重建算法和zero
    發表于 02-28 06:20

    騰訊混元3D AI創作引擎正式發布

    的AI技術,能夠根據用戶提供的提示詞或圖片,直接生成高質量的3D模型。這功能極大地降低了3D
    的頭像 發表于 01-23 10:33 ?525次閱讀

    騰訊混元3D AI創作引擎正式上線

    近日,騰訊公司宣布其自主研發的混元3D AI創作引擎已正式上線。這創新性的創作工具,標志著騰訊在3D內容生成領域邁出了重要步。 混元
    的頭像 發表于 01-22 10:26 ?507次閱讀

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen
    的頭像 發表于 01-03 10:38 ?820次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質量圖像

    Google DeepMind發布Genie 2:打造交互式3D虛擬世界

    的交互式體驗。 據了解,Genie 2是自回歸潛在擴散模型,它基于大型視頻數據集進行訓練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該
    的頭像 發表于 12-05 14:16 ?979次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現,取決于你是否愿意在本地運行模型或者使用現成的API
    的頭像 發表于 10-27 14:21 ?991次閱讀

    安寶特產品 安寶特3D Analyzer:智能的3D CAD高級分析工具

    安寶特3D Analyzer包含多種實用的3D CAD高級分析工具,包括自動比對模型、碰撞檢測、間隙檢查、壁厚檢查,以及拔模和底切分析,能夠有效提升3D CAD
    的頭像 發表于 08-07 10:13 ?691次閱讀
    安寶特產品  安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級分析工具

    歡創播報 騰訊元寶首發3D生成應用

    1 騰訊元寶首發3D生成應用 只需張照片,便能迅速打造獨無二的3D角色。7月16日,騰訊旗下大模型
    的頭像 發表于 07-18 11:39 ?1159次閱讀
    歡創播報 騰訊元寶首發<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應用

    裸眼3D筆記本電腦——先進的光場裸眼3D技術

    效果的用戶,這款筆記本電腦都能滿足你的需求。 、卓越的3D模型設計能力 英倫科技裸眼3D筆記本電腦采用最新的光場裸眼3D技術,使用戶無需佩
    的頭像 發表于 07-16 10:04 ?957次閱讀

    Meta推出革命性3D Gen AI模型:1分鐘內生成高質量3D內容

    在科技日新月異的今天,Meta再次引領創新潮流,宣布了項令人矚目的技術突破——3D Gen AI模型的誕生。這款先進的模型以其前所未有的高效性與卓越品質,重新定義了
    的頭像 發表于 07-04 18:12 ?1249次閱讀

    奧比中光3D相機打造高質量、低成本的3D動作捕捉與3D動畫內容生成方案

    高質量、低成本的3D動作捕捉與3D動畫內容生成方案。 Moverse公司總部位于希臘塞薩洛尼基,是三維動畫相關媒體和娛樂行業的家科技創業公司。基于奧比中光
    的頭像 發表于 06-25 16:37 ?1459次閱讀
    主站蜘蛛池模板: 亚洲人成电影在线播放 | 一级做a爰片久久毛片美女图片 | 最近2018中文字幕免费视频 | 一区在线视频 | 国产综合精品久久久久成人影 | 操美女的视频网站 | 色妞影视| 天天操天天插天天射 | 日韩欧美印度一级毛片 | 亚洲欧美在线精品一区二区 | va在线 | 五月综合色婷婷影院在线观看 | 亚洲a视频 | 国模沟沟一区二区三区 | a级男女性高爱潮高清试 | 天天爱夜夜做 | 日本污视频网站 | 拍拍拍无档又黄又爽视频 | 美国色综合 | 国产日韩精品一区二区在线观看 | 在线观看黄日本高清视频 | 色婷亚洲| 天天摸天天操免费播放小视频 | 性videofree极品另类 | 婷婷色站 | 亚洲欧美一区二区三区四区 | 一区二区美女视频 | 日本黄色免费网址 | 欧美特黄一区二区三区 | 久久涩综合 | 国产一级特黄a大片免费 | 热99精品视频 | 欧美色综合网站 | 在线精品国产成人综合第一页 | 日本一道高清不卡免费 | 精品视频一区二区三区 | 特大一级aaaaa毛片 | 性色网站| 夜夜爱视频 | 免费啪啪网| 欧美一级欧美三级在线观看 |