一
基于大模型的仿真系統(tǒng)框架
傳統(tǒng)的仿真測試驗(yàn)證普遍基于場景,而場景的構(gòu)建主要由道路和場景編輯器來人工搭建靜態(tài)場景和動態(tài)場景,這種方式費(fèi)時費(fèi)力,而且也大大限制了場景要素組合的豐富化。針對此痛點(diǎn)問題,賽目推出了基于大模型的仿真系統(tǒng),利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),不僅推出自動標(biāo)注大模型、多模態(tài)檢測大模型和場景生成大模型等模塊,并且引入三維重建大模型加強(qiáng)渲染畫面真實(shí)性。
通過上述模塊,賽目的路采場景轉(zhuǎn)換系統(tǒng)實(shí)現(xiàn)了以傳感器原始數(shù)據(jù)或者目標(biāo)集數(shù)據(jù)為輸入,通過感知融合、場景提取和生成等功能,輸出仿真測試所需的靜態(tài)路網(wǎng)和動態(tài)場景進(jìn)行仿真,大大提高了仿真測試的效率。
圖:基于大模型的仿真系統(tǒng)框架
二
三維重建大模型
本文首先介紹三維重建大模型。
三維重建是指根據(jù)單視圖或者多視圖重建三維信息、構(gòu)建三維模型的過程。傳統(tǒng)的計算機(jī)圖形學(xué)的核心通過復(fù)雜的物理模型求解渲染方程。需要的不僅僅是場景中物體的幾何和材質(zhì)信息、相機(jī)的內(nèi)外參信息,更需要復(fù)雜的光照模型來模擬自然光照的影響。
上述工作的重大突破來自Ben Mildenhall等人于2020發(fā)表的神經(jīng)輻射場(NeRF),根據(jù)對同一物體不同觀察視角的多張圖像,通過隱式的編碼表示場景實(shí)現(xiàn)三維重建的過程,利用體渲染生成新視角圖像。
NeRF訓(xùn)練渲染流程可以總結(jié)如下:
1. 對于給定的相機(jī)光線,在光線上進(jìn)行采樣,對采樣點(diǎn)的空間坐標(biāo)及觀察方向進(jìn)行編碼,用深度復(fù)雜網(wǎng)絡(luò)存獲得輻射場信息;
2. 輻射場輸出空間點(diǎn)的顏色和密度;
3. 根據(jù)2的輸出用體素渲染方程獲得生成視角圖片;
4. 在訓(xùn)練階段與原視角圖片計算損失更新網(wǎng)絡(luò)。
圖:NeRF訓(xùn)練管線[1]
下圖表示了輻射場的網(wǎng)絡(luò)結(jié)構(gòu),其中PE表示位置編碼,x為三維坐標(biāo)點(diǎn),d為觀察方向,MLP為多層感知機(jī),ReLU和Sigmoid分別為不同激活函數(shù)。輻射場網(wǎng)絡(luò)的輸入是空間坐標(biāo)及方差方向,輸出為對應(yīng)的顏色和密度值傳遞至體渲染模塊。
圖:NeRF網(wǎng)絡(luò)結(jié)構(gòu)
體渲染主要為解決云、煙、果凍等非剛性物體進(jìn)行渲染建模,將其抽象成一團(tuán)粒子群,表現(xiàn)了光線穿過時光子和粒子交互的過程,產(chǎn)生的輻亮度的變化。其物理過程包括吸收、外散射、內(nèi)散射、放射。忽略背景光的影響,體渲染方程為:
上述方法主要針對室內(nèi)小型場景進(jìn)行三維重建,對于戶外場景、特別是自駕場景還有許多優(yōu)化的空間,相關(guān)內(nèi)容將在下節(jié)討論。
三
三維重建大模型-挑戰(zhàn)和對應(yīng)
對于自駕場景,上述Baseline方法面臨的挑戰(zhàn)包括:
1. 訓(xùn)練和渲染速度:Baseline方法需要花費(fèi)數(shù)小時、甚至數(shù)天進(jìn)行訓(xùn)練和生成,這對于仿真來說是難以接受的,同樣不利于算法的迭代優(yōu)化;
2. 生成畫質(zhì)清晰度:自駕場景包括了靜態(tài)路網(wǎng)、動態(tài)環(huán)境參與者、背景建筑物、天空等等,需要同時將遠(yuǎn)景與近景清晰地渲染生成是一個極大的挑戰(zhàn);
3. 算法訓(xùn)練的過擬合現(xiàn)象:與Baseline對同一物體360°環(huán)視圖像獲取不同,路采車輛一般沿著固定采集路線前進(jìn),對于同一物體的信息收集不夠充沛,影響最終的渲染質(zhì)量。
4. 動態(tài)物體的添加和刪除:利用三維重建大模型能夠獲得不同主車視角的成像結(jié)果,但是對于測試場景生成需要靈活地控制環(huán)境參與者,因此需要模型能夠自由地對物體進(jìn)行添加和刪除。
基于上述問題,我們提出了下述的研究路線。
圖:三維重建技術(shù)路線
對于無邊界場景,由于可視范圍變大的原因通過NDC坐標(biāo)變化后的采樣過程會將近景采樣稀疏化,影響最終成像質(zhì)量導(dǎo)致物體模糊,保持近距離坐標(biāo)不變,遠(yuǎn)距離坐標(biāo)作非線性轉(zhuǎn)換是一種解決思路。坐標(biāo)轉(zhuǎn)換形式包括了[2-3]:
1.半徑為r的球面內(nèi)保持坐標(biāo)不變,球面外坐標(biāo)以單位向量以及逆半徑重新定義,具體如下
然后利用線性插值法獲得相應(yīng)分辨率下的特征,輸入至多層感知機(jī)中進(jìn)行訓(xùn)練。特征柵格主要流程如下。
通過上述三維重建大模型方法,可以在自動駕駛仿真領(lǐng)域提升模型的訓(xùn)練和渲染速度、重建畫質(zhì)的清晰度、輻射場中物體深度與表面的準(zhǔn)確度等等,同時能夠動態(tài)添加環(huán)境車、行人等交通參與者進(jìn)行場景泛化,實(shí)現(xiàn)更靈活的場景生成需求。
參考文獻(xiàn)
[1]Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.
[2]Zhang, Kai, et al. "Nerf++: Analyzing and improving neural radiance fields." arXiv preprint arXiv:2010.07492 (2020).
[3]Barron, Jonathan T., et al. "Mip-nerf 360: Unbounded anti-aliased neural radiance fields." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[4]Müller, Thomas, et al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM Transactions on Graphics (ToG) 41.4 (2022): 1-15.
賽目科技
專注智能網(wǎng)聯(lián)汽車測試
-
仿真系統(tǒng)
+關(guān)注
關(guān)注
1文章
99瀏覽量
20728 -
大模型
+關(guān)注
關(guān)注
2文章
2551瀏覽量
3172
原文標(biāo)題:基于大模型的仿真系統(tǒng)研究一——三維重建大模型
文章出處:【微信號:gh_c85a8e3c0f2a,微信公眾號:賽目科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論