在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何打造BEV + Transformer的技術(shù)架構(gòu)?

Nullmax紐勱 ? 來源:Nullmax紐勱 ? 作者:Nullmax紐勱 ? 2022-11-18 14:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Nullmax感知部總監(jiān)兼計算機視覺首席科學(xué)家成二康博士,前段時間做客汽車之心·行家說欄目,就行泊一體的感知能力話題進行了分享。

當(dāng)中,成二康博士就自動駕駛的數(shù)據(jù)閉環(huán)以及虛擬樣本生成等數(shù)據(jù)話題進行了概括性的介紹,并對當(dāng)前備受關(guān)注的BEV感知,尤其是BEV + Transformer技術(shù)架構(gòu),從總結(jié)和實踐兩方面進行了簡明易懂的闡述。

我們將成二康博士分享的主體內(nèi)容進行了整理,本篇是關(guān)于BEV + Transformer的精簡介紹。目前,Nullmax已經(jīng)完成了BEV感知的一系列工作,并在量產(chǎn)項目開始了相關(guān)技術(shù)的運用。

行泊一體是一個很熱的話題,簡單來講就是用一個域控或者嵌入式平臺同時實現(xiàn)行車、泊車兩大功能。因此,行泊一體的方案對于整個系統(tǒng)的感知架構(gòu)也有著極高的要求。

比如,需要處理包括相機、毫米波雷達等多個傳感器的輸入,需要支持行泊一體中的融合、定位、規(guī)劃和感知等多個任務(wù)。尤其是視覺感知方面,需要支持360度覆蓋的相機配置,為下游的規(guī)劃、控制任務(wù)輸出目標(biāo)檢測、車道線檢測等感知結(jié)果。

為此,Nullmax開發(fā)了一套強大的感知架構(gòu),它最大的優(yōu)勢就在于可以同時融合時間、空間信息,很好地支持多傳感器、多任務(wù)的協(xié)同工作。

在整個感知架構(gòu)的設(shè)計中,Nullmax對BEV + Transformer的技術(shù)架構(gòu)進行了充分的考慮,在技術(shù)研發(fā)和項目落地兩方面同步進行了大量工作,取得了不錯進展。

在自動駕駛中,BEV(鳥瞰圖)視角下的感知輸出,能夠更好地為規(guī)劃、控制等下游任務(wù)服務(wù),因此設(shè)計一個BEV-AI的技術(shù)架構(gòu),對于行泊一體方案來說很有意義。

這個架構(gòu)的輸入,是多個相機拍攝的圖像,輸出則是自動駕駛的一系列任務(wù),當(dāng)中包含了動態(tài)障礙物的檢測和預(yù)測,靜態(tài)場景的理解,以及這兩個基礎(chǔ)之上的一系列下游規(guī)控任務(wù)。

1c46b1b4-6709-11ed-8abf-dac502259ad0.png

當(dāng)中的挑戰(zhàn)就在于:圖像是二維的平面空間,但是BEV空間以及自動駕駛的車體坐標(biāo)系是三維的立體空間,如何才能去實現(xiàn)圖像空間和三維空間的影射?

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

1、BEV-CNN架構(gòu)

在傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò))層面,天然的想法就是去做純粹的端到端方法。輸入一張圖片,直接輸出三維結(jié)果,不利用相機參數(shù)。

1c85fff4-6709-11ed-8abf-dac502259ad0.png

但是,相機對三維世界的成像遵循著一些原理,相機參數(shù)其實也能派上用場。比如,三維世界中的一個點,它可以通過相機的外參投到相機的三維坐標(biāo)系中,然后再通過透視變換投到圖像平面,完成3D到2D的轉(zhuǎn)換。

在CNN當(dāng)中,利用相機參數(shù)和成像原理,實現(xiàn)3D和2D信息關(guān)聯(lián)的方法可以總結(jié)為兩種。一種是在后端,利用3D到2D的投影,即一個光心射線上面所有的3D點都會投影到一個2D像素上,完成3D和2D信息的關(guān)聯(lián)。知名的OFT算法,就是這一類方法的代表性工作。

1cc7477a-6709-11ed-8abf-dac502259ad0.png

另外一種是在前端,讓每一個像素學(xué)習(xí)三維深度的分布,把2D空間lift成3D空間。這當(dāng)中又可以細(xì)分為兩種方式,一種是隱式的學(xué)習(xí),典型的算法有LSS,對每個點都要學(xué)一個特征,同時隱式地學(xué)習(xí)該點深度的概率分布;另一種則是顯式估計每個像素的深度,比如CaDNN。

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

2、BEV-Transformer架構(gòu)

在有了Transformer之后,它天然提供了一種機制,可以利用decoder中的cross-attention(交叉注意力)機制,架接3D空間和2D圖像空間的關(guān)系。

1d7a8a7e-6709-11ed-8abf-dac502259ad0.png

BEV-Transformer的實現(xiàn)方式也可分為兩類,一類是通過cross-attention機制,在后端加入3D信息和2D特征的關(guān)聯(lián),它可以進一步細(xì)分為利用相機參數(shù)、不利用相機參數(shù)兩種方式,比如Nullmax提出的BEVSegFormer,就是不利用相機參數(shù)的形式。

另一類是在前端,通過Frustum(視錐)的方式,2D特征上面直接加入3D信息,PETR的一系列工作就是這方面的研究。

1d98ec08-6709-11ed-8abf-dac502259ad0.png

此外,在BEV + Transformer的基礎(chǔ)上,也可以加入temporal(時間)的信息。

具體來說,就是利用temporal當(dāng)中的ego motion(自運動)信息。比如,三維世界通過ego motion在后端去關(guān)聯(lián);或者在前端,通過兩個相機坐標(biāo)系之間的ego motion將3D信息疊加進去,然后在2D特征上面去做任務(wù)。

1dc6c01a-6709-11ed-8abf-dac502259ad0.png

目前BEV + Transformer的方法比較多,我們對比較主流的幾種方式做了一個簡單的總結(jié)。

1dfa47c8-6709-11ed-8abf-dac502259ad0.png

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

3、Nullmax的多相機BEV方案

Nullmax正在開發(fā)多相機BEV方案,這些工作與前述的工作有所不同,面臨一些獨特的挑戰(zhàn)。

1e3206cc-6709-11ed-8abf-dac502259ad0.png

當(dāng)中有兩個非常關(guān)鍵的問題:一是支持任意多個相機,二是不依賴相機參數(shù)。

此前,Nullmax提出的BEVSegFormer就是當(dāng)中的一項工作(現(xiàn)已被WACV 2023錄用),面向任意數(shù)量相機的BEV語義分割,為自動駕駛在線實時構(gòu)建局部地圖。它在不利用相機參數(shù)的情況下,可以完成二維圖像和三維感知的關(guān)聯(lián)。「點擊查看詳盡解讀」

1e5d08e0-6709-11ed-8abf-dac502259ad0.png

在nuScenes數(shù)據(jù)集上,BEVSegFormer相比于HDMapNet,效果提升了10個百分點。

除此之外,顯式構(gòu)建BEV是一個難點,對于空間中只有少數(shù)幾個目標(biāo)的任務(wù),例如車道線,Nullmax提出了不顯式構(gòu)建BEV的方法,直接計算三維車道線的新范式。

這是Nullmax近期在3D車道線檢測方面的工作之一,通過設(shè)計sparse的curve query來完成車道線檢測。在Apollo數(shù)據(jù)集上,Nullmax的3D車道線檢測方法對比PersFormer,效果進一步提升。「點擊查看詳盡解讀」

1e9666f8-6709-11ed-8abf-dac502259ad0.png

同樣的,Nullmax也將3D目標(biāo)檢測的一些工作擴展到了量產(chǎn)應(yīng)用中,特別是在低算力平臺上進行BEV視角的檢測。比如近期交付的一個量產(chǎn)方案,就是用8 TOPS算力實現(xiàn)4個周視相機的3D障礙物檢測,當(dāng)中的優(yōu)化工作,非常具有挑戰(zhàn)。

1ec58104-6709-11ed-8abf-dac502259ad0.png

在3D障礙物檢測方面,BEV + Transformer架構(gòu)融合多個相機信息,可以帶來一些明顯的優(yōu)勢。

在多相機的感知系統(tǒng)中,如果進行障礙物檢測,比較傳統(tǒng)的方案是每個相機單獨工作。這會導(dǎo)致系統(tǒng)的工作量比較大,每個相機都要完成目標(biāo)檢測、跟蹤、測距,還要完成不同相機的ReID(重識別)。同時,這也給跨相機的融合帶來很大挑戰(zhàn),比如截斷車輛的檢測或者融合。

1efa5e6a-6709-11ed-8abf-dac502259ad0.png

如果技術(shù)架構(gòu)的輸出是BEV視角,或者車體坐標(biāo)下的三維感知結(jié)果的話,那么這個工作就可以簡化,準(zhǔn)確率也能提升。

總體而言,Nullmax目前已經(jīng)在基于BEV的多相機感知方面完成了系列工作,包括BEV + Transformer的局部地圖、3D車道線檢測、3D目標(biāo)檢測,以及在高、中、低算力嵌入式平臺的上線。

Nullmax希望做出的BEV + Transformer架構(gòu)能夠適配多個相機、不同相機,以及不同相機的選型、內(nèi)參、外參等等因素,提供一個真正平臺化的產(chǎn)品。

1f38e5f4-6709-11ed-8abf-dac502259ad0.png

同時,我們還在進行一些這里沒有介紹的工作,包括BEV視角下的規(guī)劃控制,以及支撐BEV + Transformer技術(shù)架構(gòu)的關(guān)鍵任務(wù),比如離線的4D Auto-GT(自動化4D標(biāo)注真值)。

最終,我們希望完成一套可在車端實時運行BEV + Transformer基礎(chǔ)架構(gòu)的整體方案,同時支持感知、預(yù)測、規(guī)劃任務(wù),并在高、中、低算力平臺上完成落地。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 嵌入式
    +關(guān)注

    關(guān)注

    5146

    文章

    19597

    瀏覽量

    316216
  • 自動駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14266

    瀏覽量

    170171
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6465
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    323

    瀏覽量

    767

原文標(biāo)題:Nullmax研習(xí)社 | 面向行泊一體,如何打造BEV + Transformer的技術(shù)架構(gòu)?

文章出處:【微信號:Nullmax,微信公眾號:Nullmax紐勱】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    淺析4D-bev標(biāo)注技術(shù)在自動駕駛領(lǐng)域的重要性

    ?自動駕駛技術(shù)的發(fā)展日新月異。從最初簡單的輔助駕駛功能,逐步邁向高度自動化甚至完全自動駕駛的階段。其中,海量且精準(zhǔn)的數(shù)據(jù)是訓(xùn)練高性能自動駕駛模型的基石。4D-BEV(四維鳥瞰視角)標(biāo)注技術(shù)作為環(huán)境
    的頭像 發(fā)表于 06-12 16:10 ?295次閱讀

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?228次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?278次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    正力新能助力零跑汽車打造全球平價智能電動車標(biāo)桿

    近日,零跑汽車召開預(yù)售發(fā)布會,正式宣布旗下首款全球化戰(zhàn)略車型?零跑B10?預(yù)售上市。新車定位純電緊湊型SUV,基于LEAP 3.5技術(shù)架構(gòu)打造,配套正力新能高性能BEV電芯,憑借全球化
    的頭像 發(fā)表于 03-12 14:53 ?641次閱讀

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1087次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    淺析基于自動駕駛的4D-bev標(biāo)注技術(shù)

    4D-bev標(biāo)注技術(shù)是指在3D空間中以時間作為第四個維度進行標(biāo)注的過程。4D-bev通常在地場景較為復(fù)雜的自動駕駛場景中使用,其可以通過精準(zhǔn)地跟蹤和記錄動態(tài)對象的運動軌跡、姿勢變化以及速度等信息,全面理解和分析動態(tài)對象在連續(xù)的時
    的頭像 發(fā)表于 12-06 15:01 ?3029次閱讀
    淺析基于自動駕駛的4D-<b class='flag-5'>bev</b>標(biāo)注<b class='flag-5'>技術(shù)</b>

    電裝新技術(shù)助力BEV電池循環(huán)再利用

    隨著全球?qū)p少溫室氣體排放和提高能源效率的迫切需求,電動汽車(Battery Electric Vehicle,簡稱BEV)已經(jīng)成為推動交通行業(yè)轉(zhuǎn)型的關(guān)鍵力量。然而,隨著電動汽車的普及,車載電池
    的頭像 發(fā)表于 12-05 14:22 ?456次閱讀

    Transformer是機器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為將徹底改變機器人技術(shù)。但實際應(yīng)用中,GPT需要龐大且昂貴的計算資源、冗長的訓(xùn)練時間以及(通常)非機載無線控制,諸多限制之下,GPT技術(shù)真的
    的頭像 發(fā)表于 12-05 10:54 ?639次閱讀
    <b class='flag-5'>Transformer</b>是機器人<b class='flag-5'>技術(shù)</b>的基礎(chǔ)嗎

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1504次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?946次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    在很多車企的自動駕駛介紹中,都會聽到一個關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企在自動駕駛技術(shù)中都十分追捧這項
    的頭像 發(fā)表于 11-07 11:19 ?1305次閱讀
    自動駕駛中一直說的<b class='flag-5'>BEV+Transformer</b>到底是個啥?

    英偉達推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達20倍。這一顯著的性能提升,無疑將極大地推動AI技術(shù)的發(fā)展和應(yīng)用。 在nGPT中,所有的向量(包
    的頭像 發(fā)表于 10-23 11:30 ?844次閱讀

    Transformer語言模型簡介與實現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?2908次閱讀

    Transformer架構(gòu)在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer
    的頭像 發(fā)表于 07-09 11:42 ?1577次閱讀

    Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    當(dāng)Transformer模型發(fā)布時,它徹底革新了機器翻譯領(lǐng)域。雖然最初是為特定任務(wù)設(shè)計的,但這種革命性的架構(gòu)顯示出它可以輕松適應(yīng)不同的任務(wù)。隨后成為了Transformer一個標(biāo)準(zhǔn),甚至用于它最
    的頭像 發(fā)表于 07-02 08:27 ?534次閱讀
    <b class='flag-5'>Transformer</b> 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?
    主站蜘蛛池模板: 尤物蜜芽福利国产污在线观看 | 国产毛片农村妇女aa板 | 特级黄色免费片 | 天天澡天天摸天天添视频 | 永久免费视频网站在线观看 | 2021久久精品国产99国产 | 精品视频网站 | 婷婷国产成人久久精品激情 | 久久综合爱 | 日本三级吹潮 | 欧美性另类 | www.干| 色激情综合网 | 四虎影视在线影院4hutv | 丁香亚洲综合五月天婷婷 | 伊人手机在线观看 | 亚洲综合区图片小说区 | 四虎精品永久在线网址 | 在线观看黄网 | 黄色男人的天堂 | 午夜免费福利片观看 | 久久婷婷影院 | 日韩插插 | 午夜视频一区二区 | 国产美女叼嘿视频免费看 | 5x视频在线观看 | 国产拳头交一区二区 | www.男人的天堂 | 午夜婷婷网| 成年片免费网址网站 | 五月婷花| 成人xx视频免费观看 | 日韩三级视频在线观看 | 天天干天天拍 | 男人操女人视频网站 | 精品手机在线 | sss欧美华人整片在线观看 | 美女一级牲交毛片视频 | 免费看啪| 色爱区综合激情五月综合色 | 双性受粗大撑开白浊 |