在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

詳解E2E-MFD多模態融合檢測端到端算法

CVer ? 來源:量子位 ? 2024-10-28 13:52 ? 次閱讀

轉載自:量子位(QbitAI

惡劣天氣下,自動駕駛汽車也能準確識別周圍物體了?!

西安電子科大、上海AI Lab等提出多模態融合檢測算法E2E-MFD,將圖像融合和目標檢測整合到一個單階段、端到端框架中,簡化訓練的同時,提升目標解析性能。

相關論文已入選頂會NeurlPS 2024 Oral,代碼、模型均已開源。

其中圖像融合是指,把不同來源(比如可見光和紅外相機)的圖像合并成一張,這樣就能在一張圖像中同時看到不同相機捕捉到的信息;目標檢測即找出并識別圖像中的物體。

端到端意味著,E2E-MFD算法可以一次性處理這兩個任務,簡化訓練過程。

而且,通過一種特殊的梯度矩陣任務對齊(GMTA)技術,這兩個任務還能互幫互助,互相優化。

最終實驗結果顯示,E2E-MFD在信息傳遞、圖像質量、訓練時間和目標檢測方面均優于現有方法。

E2E-MFD:多模態融合檢測端到端算法

眾所周知,精確可靠的目標解析在自動駕駛和遙感監測等領域至關重要。

僅依賴可見光傳感器可能會導致在惡劣天氣等復雜環境中的目標識別不準確。

可見光-紅外圖像融合作為一種典型的多模態融合(MF)任務,通過利用不同模態的信息互補來解決這些挑戰,從而促進了多種多模態圖像融合技術的快速發展。

諸如CDDFuse和DIDFuse方法采用兩步流程:

首先訓練多模態融合網絡(MF),然后再訓練目標檢測(OD)網絡,用來分別評估融合效果。

盡管深度神經網絡在學習跨模態表征能力上取得了顯著進展,并帶來了多模態融合的良好結果,但大多數研究主要集中在生成視覺上吸引人的圖像,而往往忽略了改進下游高級視覺任務的能力,如增強的目標解析。

最近的研究開始設計聯合學習方法,將融合網絡與目標檢測和圖像分割等高級任務結合在一起。

其中,多模態融合檢測(MFD)方法中MF與OD的協同已成為一個活躍的研究領域。

這種協同作用使得MF能夠生成更豐富、更有信息量的圖像,從而提升OD的性能,而OD則為MF提供了有價值的目標語義信息,從而準確地定位和識別場景中的物體。

通常,MFD網絡采用一種級聯設計,其中聯合優化技術使用OD網絡來引導MF網絡創建便于目標檢測的圖像。

但是依舊存在以下問題:

1)當前的優化方法依賴于多步驟、漸進的聯合方法,影響訓練效率;

2)這些方法過于依賴目標檢測(OD)信息來增強融合,導致參數平衡困難并易于陷入單個任務的局部最優解。

3d2df3d6-94db-11ef-a511-92fbcf53809c.png

因此,尋求一個統一的特征集,同時滿足每個任務的需求,仍然是一項艱巨的任務。

為此,研究提出了一種名為E2E-MFD的端到端多模態融合檢測算法。

(1)這是一種高效同步聯合學習的方法,將圖像融合和目標檢測創新性地整合到一個單階段、端到端的框架中,這種方法顯著提升了這兩項任務的成果。

(2)引入了一種新的GMTA技術,用于評估和量化圖像融合與目標檢測任務的影響,幫助優化訓練過程的穩定性,并確保收斂到最佳的融合檢測權重配置。

(3)通過對圖像融合和目標檢測的全面實驗驗證,展示了所提出方法的有效性和穩健性。在水平目標檢測數據集M3FD和有向目標檢測數據集DroneVehicle上與最先進的融合檢測算法相比,E2E-MFD表現出強大的競爭力。

其整體架構如下:

3d332e5a-94db-11ef-a511-92fbcf53809c.png

展開來說,E2E-MFD通過同步聯合優化,促進來自兩個領域的內在特征的交互,從而實現簡化的單階段處理。

為了協調細粒度的細節與語義信息,又提出了一種全新的對象-區域-像素系統發育樹(ORPPT)概念,并結合粗到細擴散處理(CFDP)機制。

該方法受視覺感知自然過程的啟發,專為滿足多模態融合(MF)和目標檢測(OD)的具體需求而設計。

此外,研究引入了梯度矩陣任務對齊(GMTA)技術,以微調共享組件的優化,減少傳統優化過程中固有的挑戰。

這確保了融合檢測權重的最優收斂,增強了多模態融合檢測任務的準確性和有效性。

實驗

實驗細節

E2E-MFD在多個常用數據集(TNO、RoadScene、M3FD 和 DroneVehicle)上進行了實驗,實驗運行在一張 GeForce RTX 3090 GPU上。

模型基于PyTorch框架實現,部分代碼在M3FD數據集上使用了Detectron2框架,并通過預訓練的DiffusionDet初始化目標檢測網絡。

優化器采用AdamW,批量大小為1,學習率設為2.5×10??,權重衰減為1e-4。

模型共訓練了15,000次迭代。

在DroneVehicle數據集上,實驗基于MMRotate 0.3.4框架,使用預訓練的LSKNet模型進行初始化,并通過12個 epoch的微調進行優化,批量大小為4。

實驗結果

研究提供了不同融合方法在TNO、RoadScene和M3FD數據集上的定量結果。

模型的訓練(Tr.)和測試(Te.)時間均在NVIDIA GeForce RTX 3090上統計。

3d38400c-94db-11ef-a511-92fbcf53809c.png

可以看出,E2E-MFD在MI指標上普遍獲得了最佳度量值,表明其在信息傳遞方面比其他方法從兩個源圖像中提取了更多有用的信息。

EN值進一步顯示,E2E-MFD能夠生成包含清晰邊緣細節且對象與背景對比度最高的圖像。

較高的VIF值則表明,E2E-MFD的融合結果不僅具有高質量的視覺效果,同時在失真度方面較低。

此外,該方法的訓練時間最快,表明在新的數據集上能夠實現更快速的迭代更新。

生成融合圖像的測試時間在所有方法中排名第三。

定性結果如下圖所示,所有融合方法均在一定程度上融合了紅外和可見光圖像的主要特征,但E2E-MFD具備兩個顯著優勢。

首先,它能夠有效突出紅外圖像的顯著特征,例如在M3FD數據集中,E2E-MFD捕捉到了騎摩托車的人員。

與其他方法相比,E2E-MFD展示了更高的物體對比度和識別能力。

其次,它保留了可見圖像中的豐富細節,包括顏色和紋理。

在M3FD數據集中,E2E-MFD的優勢尤為明顯,比如能夠清晰顯示白色汽車的后部以及騎摩托車的人。

E2E-MFD在保留大量細節的同時,保持了圖像的高分辨率,并且沒有引入模糊現象。而其他方法則未能同時實現這些優勢。

為了更有效地評估融合圖像對下游檢測任務的影響,研究在M3FD數據集上使用了YOLOv5s檢測器對所有SOTA方法進行了測試,結果如表所示。

3d657c70-94db-11ef-a511-92fbcf53809c.png

與單模態檢測相比,SOTA方法在融合圖像上的表現明顯提升,表明良好融合的圖像能夠有效地支持下游檢測任務。

E2E-MFD生成的融合圖像在YOLOv5s檢測器上表現最佳,同時在DiffusionDet檢測器上也取得了出色的成績。

即使與端到端目標檢測方法(E2E-OD)相比,E2E-MFD的方法仍顯示出了顯著的性能提升,充分證明了其訓練范式和方法的有效性。

檢測結果的可視化如下圖所示。

當僅使用單模態圖像作為輸入時,檢測結果較差,常常漏檢諸如摩托車和騎手等目標,尤其是在圖像右側靠近汽車和行人的區域。

幾乎所有的融合方法都通過融合兩種模態的信息,減少了漏檢現象并提升了檢測的置信度。

通過設計端到端的融合檢測同步優化策略,E2E-MFD生成了在視覺上和檢測上都非常友好的融合圖像,尤其在處理遮擋和重疊的目標時表現出色,比如圖像右側藍色橢圓中的摩托車和重疊的行人。

在DroneVehicle數據集上的目標檢測定量結果多模態如表所示,E2E-MFD達到了最高的精度。

3d771b7e-94db-11ef-a511-92fbcf53809c.png

此外,使用生成的融合圖像在YOLOv5s-OBB和LSKNet上進行檢測時,較單一模態至少提高了5.7%和3.1%的AP值,驗證了方法的魯棒性。

這證明了融合圖像的優異質量,表明它們不僅在視覺上令人滿意,還為檢測任務提供了豐富的信息。

小結

研究提出了多模態融合檢測算法E2E-MFD,僅以單步訓練過程同時完成融合和檢測任務。

引入了一個系統發育樹結構和粗到細擴散處理機制,來模擬在不同任務需求下,不同視覺感知中需要完成的這兩項任務。

此外,研究對融合檢測聯合優化系統中的任務梯度進行了對齊,消除聯合優化過程中兩個任務的梯度優化沖突。

通過將模型展開到一個設計良好的融合網絡和檢測網絡,可以以高效的方式生成融合與目標檢測的視覺友好結果,而無需繁瑣的訓練步驟和固有的優化障礙。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4701

    瀏覽量

    94853
  • 目標檢測
    +關注

    關注

    0

    文章

    223

    瀏覽量

    15920
  • 自動駕駛
    +關注

    關注

    788

    文章

    14225

    瀏覽量

    169735

原文標題:NeurlPS 2024 Oral | 多模態融合檢測端到端算法E2E-MFD來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    技術分享 |模態自動駕駛混合渲染HRMAD:將NeRF和3DGS進行感知驗證和AD測試

    模態自動駕駛混合渲染HRMAD,融合NeRF與3DGS技術,實現超10萬㎡場景重建,傳感器實時輸出,仿真更接近真實數據!然而,如何用高保真仿真場景快速驗證自動駕駛
    的頭像 發表于 03-26 16:05 ?3277次閱讀
    技術分享 |<b class='flag-5'>多</b><b class='flag-5'>模態</b>自動駕駛混合渲染HRMAD:將NeRF和3DGS進行感知驗證和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AD測試

    姿態融合算法是什么

    2.數字濾波算法的選擇根據運動傳感器噪聲模型,一般以下濾波算法可供融合算法選擇: a)互補濾波算法 b)擴展卡爾曼濾波
    發表于 07-19 06:47

    物聯網轉向E2E解決方案

    據外媒報道,物聯網連接解決方案已經轉向E2E()了。 據分析師Mullooly預測,物聯網據說在未來數年內從附加服務中將比接駁費獲得更多的收益。預計這將額外超過非連接的M
    發表于 12-05 18:26 ?569次閱讀

    ADPD4000/ADPD4001:模態傳感器數據Sheet

    ADPD4000/ADPD4001:模態傳感器數據Sheet
    發表于 05-11 11:24 ?3次下載
    ADPD4000/ADPD4001:<b class='flag-5'>多</b><b class='flag-5'>模態</b>傳感器<b class='flag-5'>端</b>數據Sheet

    模態MR和特征融合的GBM自動分割算法

    模態MR和特征融合的GBM自動分割算法
    發表于 06-27 11:45 ?32次下載

    羅德與施瓦茨成功驗證10Gbps(E2E)峰值下行鏈路IP數據吞吐量

    基于高通方案,羅德與施瓦茨使用R&S CMX500 5G無線綜測儀平臺驗證了10 GbpsE2E) IP數據性能。
    發表于 10-27 16:28 ?2122次閱讀
    羅德與施瓦茨成功驗證10Gbps<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>(<b class='flag-5'>E2E</b>)峰值下行鏈路IP數據吞吐量

    的無人機導航模擬演示

    借助現代人工智能算法旋翼無人機可以成為智能代理,在未知環境中導航。給定目的地,無人機可以控制環境,重建環境地圖并動態規劃到目的地的軌跡。這項工作的目的是構建一個
    的頭像 發表于 04-06 15:00 ?4972次閱讀

    E2EMail加密系統

    ./oschina_soft/e2email.zip
    發表于 05-20 09:27 ?0次下載
    <b class='flag-5'>E2</b>EMail<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>加密系統

    T3M系列寬帶自組網電臺速率測試

    自組網電臺速率測試
    的頭像 發表于 10-24 17:53 ?1582次閱讀
    T3M系列寬帶自組網電臺<b class='flag-5'>多</b>跳<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>速率測試

    Autosar E2E介紹及其實現

    E2E(End-to-End)保護存在于安全性較高的信號,在信號傳遞的過程中,受軟硬件的影響,發送和接收的數據可能不一致,此時E2E的作用就體現出來,系統可以快速
    的頭像 發表于 09-22 10:28 ?4207次閱讀
    Autosar <b class='flag-5'>E2E</b>介紹及其實現

    實現自動駕駛,唯有

    ,去年行業主流方案還是輕高精地圖城區智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發表于 08-12 09:14 ?1329次閱讀
    實現自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    InfiniBand網絡解決LLM訓練瓶頸

    ChatGPT對技術的影響引發了對人工智能未來的預測,尤其是模態技術的關注。OpenAI推出了具有突破性的模態模型GPT-4,使各個領域取得了顯著的發展。 這些AI進步是通過大規模
    的頭像 發表于 10-23 11:26 ?1159次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網絡解決LLM訓練瓶頸

    讓智駕強者愈強時代來臨?

    到來,智能駕駛技術也成為眾多車企研究的重點方向。而在這個過程中,架構(End-to-End, E2E)作為核心技術,逐漸嶄露頭角,成為推動智能駕駛的關鍵力量。 ? 汽車智能化:從
    的頭像 發表于 10-24 09:25 ?887次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>讓智駕強者愈強時代來臨?

    黑芝麻智能算法參考模型公布

    黑芝麻智能計劃推出支持華山及武當系列芯片的算法參考方案。該方案采用One Model架構,并在決策規劃單元引入了VLM視覺語言大模型和PRR行車規則的概率化表征子模塊,進一步提升
    的頭像 發表于 12-03 12:30 ?819次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>算法</b>參考模型公布

    在自動泊車的應用

    要做到15Hz以上。這樣就對存儲和算力需求降低很多。 上海交通大學的五位學生發表了一篇自動泊車的論文:《ParkingE2E: Camera-based End-to-end P
    的頭像 發表于 12-18 11:38 ?855次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自動泊車的應用
    主站蜘蛛池模板: 人与牲动交xxxxbbb | 国产理论视频在线观看 | 黄色录像欧美 | 男女免费在线视频 | 成人欧美精品一区二区不卡 | 一级片在线观看视频 | 伊人久久影院大香线蕉 | 久久夜色精品国产噜噜小说 | 国产农村妇女毛片精品久久 | 性人久久久久 | 天天色天天色天天色 | 人人插人人艹 | 国产精品性 | 特级全黄一级毛片免费 | 伊人狼人综合网 | 综合免费一区二区三区 | 日日操夜夜骑 | 久久国产免费观看精品 | 欧美色图888 | 久久影视免费体验区午夜啪啪 | 老色歌uuu26 老湿成人影院 | 午夜看大片 | 丁香婷婷基地 | 99热网址| 成熟女人免费一级毛片 | 国产精品视频久久久 | 狠狠干激情 | 亚洲综合一区二区 | 亚洲免费视频观看 | 男人一级片 | 久久久久免费观看 | 日韩三级视频在线观看 | 网色 | h视频在线观看视频观看 | 日本黄色视屏 | 日本污污视频 | 午夜aaaaaaaaa视频在线 | 狠狠操人人| 色偷偷88欧美精品久久久 | 成人欧美一区二区三区小说 | 伊人久久大香线蕉观看 |