在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Wayve:從源頭講起,如何實現以對象為中心的自監督感知方法?

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-07-29 14:54 ? 次閱讀

Wayve:從源頭講起,如何實現以對象為中心的自監督感知方法?

1. 摘要

以對象中心的表示使自主駕駛算法能夠推理大量獨立智能體和場景特征之間的交互。傳統上,這些表示是通過監督學習獲得的,但會使感知與下游駕駛任務分離,可能會降低模型的泛化能力。在這項工作中,我們設計了一個以對象為中心的自監督視覺模型,僅使用RGB視頻和車輛姿態作為輸入來實現進行對象分割。我們在Waymo公開感知數據集上證明了我們的方法取得了令人滿意的結果。我們發現我們的模型能夠學習一種隨時間推移融合多個相機姿勢的表示,并在數據集中成功跟蹤大量車輛和行人。我們介紹了該方法的起源和具體實現方法,并指明了未來的發展方向,為了幫助大家更好地復現代碼,我們將詳細地參數列入附表。

論文地址:https://arxiv.org/abs/2307.07147

模型代碼:https://github.com/wayveai/SOCS。

2. 方法起源

人類和機器人有一種傾向,即認為對象的行為是單一連貫的,這是一種與生俱來的感知法則。對象在人類視覺中發揮著核心作用。我們根據特征將對象分組,用它們來描述我們周圍的環境,同時,為我們不熟悉的對象尋找語義標簽。當使用視覺表示進行下游任務時,如機器人技術等,對象中心模型是令人滿意的:因為它們比端到端模型更容易被人類理解——這對驗證安全性和贏得人類對視覺系統的信任非常重要。除此之外,以對象為中心的表示還提供了一套多樣而強大的推理真實世界的工具,如物理理解模型、多智能體預測和規劃模型以及因果推理模型。支持這類模型的表示可能對自動駕駛至關重要,因為在自動駕駛中,使用這些表示對大量相互作用的智能體和物理因素進行推理,可以獲得車輛的最佳運動軌跡。

傳統上,以對象中心的表示是通過訓練監督對象檢測模型,并從中提取對象屬性(如位置和速度)來實現的。這種方法有兩大缺點。首先,它需要與檢測對象相匹配的帶標簽數據集,而大規模獲取帶標簽數據集的成本很高,而且可能會引入不必要的偏差。另外,為了使系統能夠處理新的對象或新的環境,必須收集新的帶標簽的數據。沒有足夠正確標注的數據會影響這類方法的泛化能力,但這正是以對象為中心的自監督模型的關鍵優勢之一。

其次,根據有監督的視覺模型預測創建的對象表示,會使感知和決策組件之間脫節。例如,騎自行車的人應該被視為一個對象還是兩個對象?兩人乘雙人自行車又如何?他們在向人行道上的行人揮手重要嗎?如果他們正在打轉向手勢呢?這些問題的正確答案取決于如何使用信息做出決策。理想情況下,感知行為的結果應該反饋并改善感知本身,利用端到端學習,可以找到比手工設計更好的以對象為中心的表示。

這些考慮激發了以對象為中心的自監督感知模型的設計,這種模型將圖像編碼到一個將相關信息劃分為多個“槽”的潛在空間中,然后這些槽中的信息被解碼為自監督目標,如例如重建原始RGB輸入,以及用于下游任務。已經有不少論文提出了各種方法,來鼓勵模型在單個槽中編碼關于不同對象的信息,例如通過使用使槽在像素上競爭注意力的編碼器,或者通過不同的自動編碼器損失來鼓勵槽解碼。然而,這些方法在復雜的現實世界數據中難以獲得良好的結果。最近,SAVi++算法在Waymo真實世界駕駛視頻公開數據集上顯示了其分割能力。然而,這些結果需要額外的深度監督,而且需要初始對象與周圍環境邊界的槽,才能夠獲得最佳性能。

基于上述考慮,我們提出了一種僅使用RGB視頻和相機運動信息進行自監督分割的模型,并在真實駕駛視頻上獲得了良好的的結果。相機運動信息在自動駕駛車輛中容易獲得(例如來自同時定位與建圖(SLAM)或輪組測距),而且不需要專用激光雷達等傳感器,因此是一種特別經濟的方法。

3. 方法實現

我們的模型架構建立在SIMONe的視圖監督變體上。該模型的目標是將場景分割為一組K個對象槽,對場景中每個對象的信息進行編碼。通過以下步驟可以獲得這些槽。首先,輸入X(F幀圖像序列,可選擇從多相機視點)由標準卷積神經網絡(CNN)并行處理,得到一組特征補丁。補丁與位置嵌入連接,位置嵌入在每個補丁源圖像內的位置,以及與源圖像相關的時間和視點變換矩陣進行編碼。然后,它們作為僅解碼transformer的輸入信號。輸出標記在整個圖像維度上的平均值。在原始SIMONe模型中,這個維度對應于單個相機在幾個時間點上拍攝的圖像;但在這項工作中,我們使用了三個不同的姿勢的相機,在時間和視點上進行取平均值。最后,通過MLP將每個信號解碼為m維向量和,這兩個向量分別包含單個槽中潛預測平均值和方差。如果輸入信號的數量與所需的槽的數量不同,則在transformer層的中途可選地進行跨信號特征的空間池化操作。具體模型如下圖所示。

5432909c-2dc5-11ee-815d-dac502259ad0.png

3.1. 訓練和損失

為了鼓勵模型在不同的槽中存儲不同對象的信息,在訓練期間我們應用三個互補的損失。第一項是每個槽潛在向量與單位正態分布之間的KL散度之和,對所有槽求和:

其中是輸入幀,是槽 的m維正態分布,均值和方差由模型預測,先驗分布是一個單位球面正態分布。直觀地,這個損失鼓勵模型避免使用多個槽表示同一對象,因為與使用單個槽表示對象并讓其他槽保持接近單位正態分布相比,這樣做會導致更大的懲罰。這個損失還鼓勵潛在向量的每個維度之間解耦。

第二個損失基于模型執行對象級重建任務的能力。首先,根據每個槽 的潛在分布獲取對象的潛在向量。然后,每個被獨立解碼到空間廣播解碼器進行逐像素預測。為了滿足模型計算要求和內存需求,在訓練期間每個輸入序列中僅對N個隨機像素進行解碼。每個槽 對每個像素的預測結果用RGB分布表示。和邏輯單元 (經過槽歸一化)表示槽 表示像素的可能性。為了獲得每個像素的最終預測,我們取每個槽預測的加權混合:

其中針對像素的每槽分布經softmax后的值加權:

的分布在第3.3節中進行了更詳細的討論。

最后,重建損失是每個像素在混合分布下的真實RGB值的對數概率:

由于每個槽的對象潛變量被獨立解碼,模型被迫在預測每個像素的RGB值時一次只使用單個槽中編碼的信息。因此,直觀地,這個損失鼓勵模型將預測像素的顏色所需的所有信息存儲在單個槽中。

另外,學習到的槽表示還可以用于各種輔助任務。在本文中,受到對象與自動駕駛環境中相關的表示與用于預測良好駕駛動作的表示之間的密切聯系的啟發,我們實驗使用預測車輛自身的未來路徑作為輔助任務。在圖像池化步驟之后,槽信息經過兩個Transformer 解碼器層,求平均值,并通過單層MLP解碼成一系列預測偏移量,在自我參考幀的xy平面上。然后我們應用以下任務損失:

其中匯總是對每個未來時間點。我們使用以10Hz頻率開始于最后圖像幀之后0.1秒的自我參考幀中的16個未來路徑。

最終訓練損失與負ELBO損失類似,增加了輔助任務損失:

其中和超參數平衡不同的損失項。

3.2. 附加的模型輸出

除了參數化加權混合像素分布,權重還作為每一個槽 的α 掩碼,使我們可以非常直觀地看到每個槽關注場景的哪些像素。為每個槽取最大值可以得到場景的預測分割。這種分割可以幫助模型調試和解釋。例如,如果無法用掩碼跟蹤特定車輛,表明模型沒有從場景的其他特征中區分出該對象的特征,因此沒有獨立表示其運動狀態。

對象的槽或潛在向量也可以解碼為圖像重建或軌跡預測以外的其他輸出。其他潛在下游任務可能包括視頻預測、生產系統模型或有運動條件世界模型。在端到端機器學習中,哪些輔助任務可以協同提升性能,是一個激動人心的開放問題。

3.3. 對象槽解碼分布

原始SIMONe模型采用正態分布預測的像素RGB值。(注意,在本節中,我們將RGB元組稱為正態,但在現實中,R、G和B通道是獨立對待的。)我們發現,在進行場景中分割時,這個分布會導致模型過度依賴顏色差異。這會導致一些失敗的案例,如無法分割車身和擋風玻璃、無法識別出與背景顏色相似的對象等。我們猜測這是因為在兩個不同顏色的區域邊界附近,模型不確定為給定像素分配什么顏色。為了用正態分布表示這種不確定性,模型被迫將不同顏色的區域分配給不同的槽,并使用每個槽的權重給出每種顏色的可能性 。

對于我們的體系結構,我們使用多頭正態分布替換SIMONe中的正態分布,來減輕這個問題。定性的說,我們發現這能夠更好地反映對象運動的分割。對于每個像素和每個槽 k,解碼器輸出H個模式,其中預測平均RGB元組和邏輯單元 決定每個模式的權重。(注意,此外還有一個單獨的“全局” 回歸,它控制第k個槽對總混合分布的貢獻,如方程2所示。) 因此,每個槽的分布是:

其中正常分布的方差是一個超參數。當時,這簡化為SIMONe中的解碼分布:

在我們的實驗中,我們使用和。

最后,模型的分割結果和軌跡預測如下圖所示:

547eb8dc-2dc5-11ee-815d-dac502259ad0.png54da9c9c-2dc5-11ee-815d-dac502259ad0.png

4. 結論

最近,以對象為中心的自我監督表示學習方法,在具有明確定義對象的人工數據集上表現出了很強的性能,但在具有復雜紋理和模糊對象的復雜真實世界數據上仍然舉步維艱。在本文中,我們已展示的結果表明,通過使用相機姿態作為附加輸入,有可能在RGB駕駛視頻中獲得合理的動態、以對象中心的表示。與3D深度傳感器不同,姿態估計是自動駕駛汽車的一個普遍特征,因此我們認為我們的方法是在自動駕駛領域實現可擴展的、實用的,以對象中心的表示學習的一個很有前途的途徑。此外,我們的研究結果表明,預測車輛自身的未來姿態是一項協同任務,它不會阻礙學習表達的質量。這對端到端駕駛模型來說尤其令人興奮,因為它打開了駕駛性能和表示學習共同建立良性循環的可能性,同時保留了以對象為中心的表示的關鍵優勢,如可解釋性。

我們認為仍有可能進一步提高對象分割質量,例如,通過擴大模型規模和采取數據增強策略(這兩點對SAVi++的性能非常重要)。我們還注意到,Waymo 公開感知數據集包含三個前向攝像頭的480,000幀圖像,對于理想的表示學習而言相比,該數據集的規模與其復雜性可能不夠大。相比之下,最近的對象場景表示transformer模型是在1000萬幀合成數據集上訓練的。

最后,我們注意到,我們模型中的KL-發散損失鼓勵學習理順的對象潛在特征。更詳細地研究這些特征是未來工作的一個令人興奮的方向。

5. 論文中的超參數

參數
權重, β (帶路徑預報任務) 5e-7
β (無路徑預報任務) 4.5e-7
權重, 1e-4
對象槽的方差, 0.08
對象槽數量 21
對象潛在維度 32
Transformer 層數 6
Transformer 頭數 4
Transformer 特征維度 512
Transformer 前饋維度 1024
重建 MLP 層數 3
重構MLP的隱藏維度 1536
圖像序列長度 8
圖像尺寸(高、寬) (96, 224)
每個訓練序列解碼的像素數量,N 2016
批大小 8
學習率 1e-4



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3775

    瀏覽量

    137186
  • 算法
    +關注

    關注

    23

    文章

    4699

    瀏覽量

    94766
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25280

原文標題:Wayve:從源頭講起,如何實現以對象為中心的自監督感知方法?(附代碼)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    實現以太網通信硬件電路方法

    實現以太網通信硬件電路方法很多,一般情況是CPU+MAC+PHY+網絡變壓器+RJ45。整個硬件電路最多用5個電子器件完成。
    發表于 10-20 09:25 ?1132次閱讀
    <b class='flag-5'>實現以</b>太網通信硬件電路<b class='flag-5'>方法</b>

    基于transformer和監督學習的路面異常檢測方法分享

    鋪設異常檢測可以幫助減少數據存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer和監督學習的新方法,有助于定位異常區域。
    的頭像 發表于 12-06 14:57 ?2240次閱讀
    基于transformer和<b class='flag-5'>自</b><b class='flag-5'>監督</b>學習的路面異常檢測<b class='flag-5'>方法</b>分享

    有誰是做認知無線電頻譜感知方向的嗎

    本人研二,研究方向認知無線電頻譜感知方法的研究,主要是處理數字端,有哪位童鞋跟我是同方向,一起探討探討啊
    發表于 09-11 22:13

    智能感知方案怎么幫助實現安全的自動駕駛?

    未來,自動駕駛將不再是科幻電影里的橋段,這是未來汽車的一個趨勢,感知是自動駕駛的重要組成部分,同時安全性至關重要。作為全球第7大汽車半導體供應商,安森美半導體提供全面的智能感知方案,包括圖像傳感器
    發表于 07-31 07:11

    有什么方法以對USB實現隔離嗎?

    有什么方法以對USB實現隔離嗎?
    發表于 06-02 06:40

    認知無線電中基于循環平穩特征的頻譜感知方法

    認知無線電中基于循環平穩特征的頻譜感知方法.
    發表于 03-16 15:55 ?35次下載
    認知無線電中基于循環平穩特征的頻譜<b class='flag-5'>感知方法</b>

    智能機器人多傳感器融合感知方法

    智能機器人多傳感器融合感知方法,感興趣的小伙伴們可以瞧一瞧。
    發表于 09-20 16:10 ?19次下載

    一種基于智能終端的環境與接近度感知方法

    提出一種基于智能終端的環境與接近度感知方法。首先,基于智能終端多種內置傳感器采集的環境數據,提出一種環境感知算法,可以有效地識別不同場景切換;其次,以log-normal衰落模型得到的藍牙信號
    發表于 11-16 11:17 ?7次下載
    一種基于智能終端的環境與接近度<b class='flag-5'>感知方法</b>

    基于信道歷史狀態信息的頻譜感知方法

    針對衛星認知網絡環境中待檢測信號強度不斷變化的特點,為了突破傳統能量檢測的性能極限,提出一種基于信道歷史狀態信息的頻譜感知方法。首先,通過建立具有遺忘機制的信道歷史狀態判決模型實現對當前時刻信道狀態
    發表于 01-15 15:33 ?0次下載
    基于信道歷史狀態信息的頻譜<b class='flag-5'>感知方法</b>

    一種監督同變注意力機制,利用監督方法來彌補監督信號差異

    本文提出了一種監督同變注意力機制(self-supervised equivariant attention mechanism,簡稱SEAM),利用監督
    的頭像 發表于 05-12 10:16 ?8077次閱讀
    一種<b class='flag-5'>自</b><b class='flag-5'>監督</b>同變注意力機制,利用<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>方法</b>來彌補<b class='flag-5'>監督</b>信號差異

    新的工業應用智能感知方

    推動高能效創新的安森美半導體(ON Semiconductor,美國納斯達克上市代號:ON),將于 7 月 3 日至 5 日在 2020 中國(上海)機器視覺展展示廣泛的智能圖像感知方案。
    發表于 07-03 11:40 ?1041次閱讀

    極目智能產品方案亮相上海車展 攜手地平線、楚航科技發力智能駕駛感知方

    地平線征程5的極目L2+級JMBEV融合感知方案及“雙循環”數據閉環 JMBEV是極目智能推出的L2+級別智能駕駛感知方案,采用BEV感知、3D目標跟蹤等技術,通過多模態傳感器實現車身
    的頭像 發表于 04-26 09:38 ?1955次閱讀
    極目智能產品方案亮相上海車展 攜手地平線、楚航科技發力智能駕駛<b class='flag-5'>感知方</b>案

    基于純視覺的感知方法

    ? ? ?背景? 近年來,基于純視覺的感知方法由于其較高的信噪比和較低的成本,在自動駕駛領域占有重要地位。其中,鳥瞰圖(BEV)感知已成為主流的方法。在以視覺
    的頭像 發表于 06-15 14:20 ?1444次閱讀
    基于純視覺的<b class='flag-5'>感知方法</b>

    4分鐘了解吸頂燈具智能感知方案測試方法

    視頻版吸頂燈智能感知方案測試方法照明燈具、家電家居、安防系統、健康看護系統到商業設備,我們身邊的智能設備變得越來越聰明。在這場智能化革命中,富奧星雷達傳感器賦予了這些設備感知、檢測和
    的頭像 發表于 12-01 10:20 ?1465次閱讀
    4分鐘了解吸頂燈具智能<b class='flag-5'>感知方</b>案測試<b class='flag-5'>方法</b>

    奧迪威CES展出智能皮膚預警感知方案,賦予汽車“觸覺皮膚”!

    在2025年CES國際大展上奧迪威展出其突破性的智能皮膚預警感知方案,汽車安全和交互功能帶來了革命性的變革。
    的頭像 發表于 02-27 15:01 ?504次閱讀
    奧迪威CES展出智能皮膚預警<b class='flag-5'>感知方</b>案,賦予汽車“觸覺皮膚”!
    主站蜘蛛池模板: 国产婷婷| xxxx性xxxx| 黄色大全片 | 中文字幕网资源站永久资源 | 日韩免费看 | 黄色一及毛片 | 综合色天天 | 免费网站日本永久免费观看 | jinv在线视频 | 久久98精品久久久久久婷婷 | www色综合| 多男一女一级淫片免费播放口 | 色爱区综合激情五月综合色 | 97夜夜澡人人爽人人喊一欧美 | 亚洲伊人99综合网 | 中文天堂最新版资源新版天堂资源 | 午夜影视免费完整高清在线观看网站 | 操女网站 | 国产一级做a爰大片免费久久 | 黄页在线播放网址 | 5月婷婷6月丁香 | 88av免费| 97久久综合区小说区图片专区 | 午夜理伦片免费 | 特黄特色大片免费视频大全 | 天天操天天擦 | 韩国三级中文字幕hd | 一区二区三区四区视频 | 四虎影视在线观看 | 午夜影院色 | 爱爱网站免费 | 国产成人永久在线播放 | 四虎国产精品永久在线看 | 欧美午夜寂寞影院安卓列表 | 日本不卡毛片一二三四 | 伊人成年综合网 | 韩日一级毛片 | 亚洲色图17p| www亚洲成人 | 日本黄色大片在线播放视频免费观看 | ⅹxxxx68日本老师hd |