有声,好看的玄幻小说,有声小说在线收听网

谷歌近日推出了在計算機視覺領域模擬重建人類視覺的新模型，與以往方法不同的是，新模型利用AI，通過普通Youtube視頻預測深度圖，可以在場景內的攝像頭和人同時運動的復雜情況下生成自然視頻。

人類的視覺系統(tǒng)具有非凡的能力，可以從2D投影中理解3D世界。即使在包含多個移動物體的復雜環(huán)境中，人也能夠對物體的幾何形狀和深度的排序進行可行的解釋。長期以來，計算機視覺領域都在研究如何通過2D圖像數(shù)據(jù)計算重建場景的幾何特征，來實現(xiàn)和人類類似的能力，但在許多情況下，仍然難以實現(xiàn)具備充分魯棒性的重建。

當攝像頭和場景中的物體都在自由移動時，是實現(xiàn)重建的最困難的情況。這種情況混淆了基于三角測量的傳統(tǒng)3D重建算法，該算法假設可以同時從至少兩個不同的觀察點觀察到相同的對象。滿足這個假設需要一個多攝像頭陣列，或者單攝像頭移動，但場景目標本身是靜止狀態(tài)。因此，現(xiàn)有的大多數(shù)方法要么需要過濾掉移動的目標（將移動目標的深度固定為“零”），要么直接忽略移動目標（會導致深度值發(fā)生錯誤）。

左圖：傳統(tǒng)的立體設置假設至少有兩個觀察點在同時捕捉場景。右圖：我們考慮攝像頭和拍攝對象都在移動的情況。

我們通過基于深度學習的方法來解決這個基本問題，該方法可以從普通視頻中生成深度圖，場景中的攝像頭和主體目標都可以自由移動。模型從數(shù)據(jù)中學習人體姿勢和形狀的先驗知識，無需直接3D三角測量。盡管最近使用機器學習進行深度預測逐漸興起，但這項工作是第一個針對同時在攝像頭和目標都在運動的狀態(tài)下的基于學習的方法。

本研究中的觀察目標是人類，人類是增強現(xiàn)實和3D視頻效果的有趣目標。

我們的模型可以預測深度圖（右圖，離攝像頭越近，圖中越亮），場景中的人和攝像頭都在自由移動。

訓練數(shù)據(jù)

我們以監(jiān)督學習的方式訓練深度預測模型，該模型需要通過移動的攝像頭捕獲的自然場景視頻以及精確的深度圖。關鍵問題是從何處獲取此類數(shù)據(jù)。綜合生成數(shù)據(jù)需要對各種場景和自然人類行為進行逼真的建模和渲染，這是很困難的任務。

此外，針對這樣的數(shù)據(jù)訓練的模型可能難以推廣到真實場景中。另一種方法可能是用RGBD傳感器（如微軟的Kinect）記錄真實場景，但深度傳感器通常僅限于室內環(huán)境，而且要面臨3D重建上的一系列問題。

我們利用現(xiàn)有的數(shù)據(jù)來進行監(jiān)督學習：即YouTube視頻，視頻中的人們通過自己定格在各種自然姿勢，模仿人體模特效果，而手持攝像機則在現(xiàn)場記錄。

因為整個場景是靜止的（只有攝像機在移動），所以基于三角測量的方法是行得通的，可以獲得包括其中人物在內的整個場景的精確深度圖。我們收集了大約2000個這樣的視頻，涵蓋了各種逼真的場景，場景中的人按照不同的分組配置自然分布。

人們在攝像頭在場景中移動時模仿人體模特，我們將其作為訓練數(shù)據(jù)。我們使用傳統(tǒng)的MVS算法來估計深度，并在深度預測模型的訓練中將其用于監(jiān)督。

推斷移動中的人的場景深度

Mannequin挑戰(zhàn)視頻對移動中的攝像機和“定格”的人進行深度監(jiān)控，但我們的目標是利用移動的攝像頭和移動的人來處理視頻。我們需要構建網(wǎng)絡輸入來彌補這一差距。

一種可能的方法是為視頻的每一幀都進行深度圖推斷（也就是對模型的輸入相當于單幀圖像）。雖然這種模型改進了用于深度預測的最先進的單幀方法，但是我們可以通過來自多幀的信息組合來進一步改善結果。比如運動視差，即兩個不同視點之間的靜態(tài)物體的明顯的相對運動，就對深度推斷提供了有力線索。為了充分利用這些信息，我們計算了視頻中每個輸入幀和另一幀之間的2D光流，用它表示兩幀之間的像素位移。

這些光流場取決于場景的深度和攝像頭的相對位置。但是，由于攝像頭位置是已知的，可以從流場中去除二者之間的依賴關系，由此生成初始深度圖。此初始深度僅對靜態(tài)場景區(qū)域有效。為了在測試時處理運動中的人，可以利用人工分割網(wǎng)絡來蓋住初始深度圖中的人類區(qū)域。這樣，我們網(wǎng)絡的完整輸入包括：RGB圖像、蓋住人類的區(qū)域，以及基于視差的遮蓋后的深度圖。

深度預測網(wǎng)絡：模型的輸入包括RGB圖像（第t幀），人類區(qū)域的遮蓋和非人類區(qū)域的初始深度，根據(jù)輸入幀與另一個之間的運動視差（光流）計算視頻中的幀。模型輸出第t幀的完整深度圖。由MVS算法計算出的深度圖負責對訓練過程的監(jiān)督。

該網(wǎng)絡的作用是“修復”人與場景的深度值，并在其他地方細化深度值。因為人類的外形和大小特征幾乎一致，網(wǎng)絡可以通過觀察多個訓練樣例，在模型內部學習這些先驗知識。經(jīng)過訓練后，模型就可以處理任意攝像頭和人體同時運動的視頻。

以下是基于視頻的深度預測模型結果的一些示例，并與最近基于最新學習的方法做了比較。

上圖：基于學習的單眼深度預測方法。下圖：基于學習的立體方法（DeMoN）和我們的估計深度圖的結果。

使用深度圖處理3D視頻效果

我們預測的深度圖可用于產(chǎn)生一系列3D感知視頻效

使用估計深度圖產(chǎn)生的散景效果

我們的深度圖也可用于其他方面的應用，包括利用單眼視頻生成立體視頻，將合成CG對象插入場景，還可以在視頻的其他幀中顯示內容的情況下進行場景區(qū)域的填充。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6211

瀏覽量
106268
計算機視覺

計算機視覺

+關注

關注
8

文章
1701

瀏覽量
46188
深度學習

深度學習

+關注

關注
73

文章
5523

瀏覽量
121719

原文標題：Google AI：機器學習預測場景深度圖，模擬人眼更進一步

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

計算機視覺有哪些優(yōu)缺點

計算機視覺作為人工智能領域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術的發(fā)展不僅推動了多個行業(yè)的變革，也

發(fā)表于 08-14 09:49 ?1219次閱讀

計算機視覺技術的AI算法模型

計算機視覺技術作為人工智能領域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標，

發(fā)表于 07-24 12:46 ?1171次閱讀

機器視覺和計算機視覺有什么區(qū)別

。機器視覺的研究目標是讓機器具有類似人類的視覺能力，能夠自動、準確地完成各種視覺任務。 計算機視覺

發(fā)表于 07-16 10:23 ?683次閱讀

計算機視覺與機器視覺的區(qū)別與聯(lián)系

隨著人工智能技術的飛速發(fā)展，計算機視覺和機器視覺作為該領域的兩個重要分支，逐漸引起了廣泛關注。盡管兩者在名稱上有所相似，但實際上它們

發(fā)表于 07-10 18:24 ?1808次閱讀

計算機視覺的工作原理和應用

計算機視覺（Computer Vision，簡稱CV）是一門跨學科的研究領域，它利用計算機和數(shù)學算法來模擬人類

發(fā)表于 07-10 18:24 ?2428次閱讀

機器人視覺與計算機視覺的區(qū)別與聯(lián)系

機器人視覺與計算機視覺是兩個密切相關但又有所區(qū)別的領域。 1. 引言在當今科技迅猛發(fā)展的時代，機器人和計算機

發(fā)表于 07-09 09:27 ?800次閱讀

計算機視覺與人工智能的關系是什么

引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學科。它涉及到圖像處理、模式識別、機器學習等多個領域的知識。人工智能則是研究如

發(fā)表于 07-09 09:25 ?821次閱讀

計算機視覺與智能感知是干嘛的

感知（Intelligent Perception）則是計算機視覺的一個分支，它強調計算機在處理視覺信息時的智能性和自適應性。隨著

發(fā)表于 07-09 09:23 ?1180次閱讀

計算機視覺和機器視覺區(qū)別在哪

計算機視覺和機器視覺是兩個密切相關但又有明顯區(qū)別的領域。一、定義 計算機視覺

發(fā)表于 07-09 09:22 ?567次閱讀

計算機視覺和圖像處理的區(qū)別和聯(lián)系

計算機視覺和圖像處理是兩個密切相關但又有明顯區(qū)別的領域。 1. 基本概念 1.1 計算機視覺 計算機

發(fā)表于 07-09 09:16 ?1580次閱讀

計算機視覺在人工智能領域有哪些主要應用?

計算機視覺是人工智能領域的一個重要分支，它主要研究如何讓計算機能夠像人類一樣理解和處理圖像和視頻數(shù)據(jù)。計

發(fā)表于 07-09 09:14 ?1788次閱讀

計算機視覺屬于人工智能嗎

屬于，計算機視覺是人工智能領域的一個重要分支。引言 計算機視覺是一門研究如何使計算機具有

發(fā)表于 07-09 09:11 ?1500次閱讀

深度學習在計算機視覺領域的應用

隨著人工智能技術的飛速發(fā)展，深度學習作為其中的核心技術之一，已經(jīng)在計算機視覺領域取得了顯著的成果。計算機

發(fā)表于 07-01 11:38 ?1072次閱讀

機器視覺與計算機視覺的區(qū)別

在人工智能和自動化技術的快速發(fā)展中，機器視覺（Machine Vision, MV）和計算機視覺（Computer Vision, CV）作為兩個重要的分支

發(fā)表于 06-06 17:24 ?1545次閱讀

計算機視覺的主要研究方向

計算機視覺（Computer Vision, CV）作為人工智能領域的一個重要分支，致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學習、大數(shù)據(jù)等技術的快速發(fā)展，

發(fā)表于 06-06 17:17 ?1243次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

谷歌推出了在計算機視覺領域模擬重建人類視覺的新模型

評論

計算機視覺有哪些優(yōu)缺點

計算機視覺技術的AI算法模型

機器視覺和計算機視覺有什么區(qū)別

計算機視覺與機器視覺的區(qū)別與聯(lián)系

計算機視覺的工作原理和應用

機器人視覺與計算機視覺的區(qū)別與聯(lián)系

計算機視覺與人工智能的關系是什么

計算機視覺與智能感知是干嘛的

計算機視覺和機器視覺區(qū)別在哪

計算機視覺和圖像處理的區(qū)別和聯(lián)系

計算機視覺在人工智能領域有哪些主要應用?

計算機視覺屬于人工智能嗎

深度學習在計算機視覺領域的應用

機器視覺與計算機視覺的區(qū)別

計算機視覺的主要研究方向