在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于全景分割的全場景圖生成任務(wù)

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-08-24 10:33 ? 次閱讀

【導(dǎo)讀】本文提出基于全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務(wù)。相比于傳統(tǒng)基于檢測框的場景圖生成,PSG任務(wù)要求全面地輸出圖像中的所有關(guān)系(包括物體與物體間關(guān)系,物體與背景間關(guān)系,背景與背景間關(guān)系),并用準確的分割塊來定位物體。PSG任務(wù)旨在推動計算機視覺模型對場景最全面的理解和感知,用全面的識別結(jié)果更好地支撐場景描述、視覺推理等下游任務(wù)。同時PSG數(shù)據(jù)集提供的關(guān)系標注和全景分割也為解決當前圖像生成領(lǐng)域?qū)﹃P(guān)系不敏感的問題創(chuàng)造了新的機遇。

現(xiàn)在已經(jīng)2022年了,但是當下大多數(shù)的計算機視覺任務(wù)卻仍然只關(guān)注于圖像感知。比如說,圖像分類任務(wù)只需要模型識別圖像中的物體物體類別。

雖然目標檢測,圖像分割等任務(wù)進一步要求找到物體的位置,然而,此類任務(wù)仍然不足以說明模型獲得了對場景全面深入的理解。

以下圖1為例,如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會認為模型已經(jīng)理解了圖片,而該模型也無法根據(jù)理解做出更高級的決策,例如發(fā)出「禁止投喂」的警告。

事實上,在智慧城市、自動駕駛智能制造等許多現(xiàn)實世界的AI場景中,除了對場景中的目標進行定位外,我們通常還期待模型對圖像中各個主體之間的關(guān)系進行推理和預(yù)測。

例如,在自動駕駛應(yīng)用中,自動車需要分析路邊的行人是在推車還是在騎自行車。根據(jù)不同的情況,相應(yīng)的后續(xù)決策可能都會有所不同。而在智能工廠場景中,判斷操作員是否操作安全正確也需要監(jiān)控端的模型有理解主體之間關(guān)系的能力。

大多數(shù)現(xiàn)有的方法都是手動設(shè)置一些硬編碼的規(guī)則。這使得模型缺乏泛化性,難以適應(yīng)其他特定情況。

場景圖生成任務(wù)(scene graph generation,或SGG)就旨在解決如上的問題。在對目標物體進行分類和定位的要求之上,SGG任務(wù)還需要模型預(yù)測對象之間的關(guān)系(見圖 2)。

a77441c4-22e5-11ed-ba43-dac502259ad0.jpg

圖2:場景圖生成

傳統(tǒng)場景圖生成任務(wù)的數(shù)據(jù)集通常具有對象的邊界框標注,并標注邊界框之間的關(guān)系。但是,這種設(shè)置有幾個固有的缺陷:

(1)邊界框無法準確定位物體:如圖2所示,邊界框在標注人時不可避免地會包含人周圍的物體;

(2)背景無法標注:如圖2所示,大象身后的樹木用bounding box標注,幾乎覆蓋了整個圖像,所以涉及到背景的關(guān)系無法準確標注,這也使得場景圖無法完全覆蓋圖像,無法達到全面的場景理解。

因此,作者提出全場景圖生成(PSG)任務(wù),攜同一個精細標注的大規(guī)模PSG數(shù)據(jù)集。

a790abd4-22e5-11ed-ba43-dac502259ad0.png

圖3:全場景圖生成

如圖 3 所示,該任務(wù)利用全景分割來全面準確地定位對象和背景,從而解決場景圖生成任務(wù)的固有缺點,從而推動該領(lǐng)域朝著全面和深入的場景理解邁進。

論文信息

a7b9525a-22e5-11ed-ba43-dac502259ad0.png

Paper link: https://arxiv.org/abs/2207.11247

Project Page: https://psgdataset.org/

OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG

Competition Link: https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/

HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數(shù)據(jù)集包含近五萬張coco的圖片,并基于coco已有的全景分割標注,標注了分割塊之間的關(guān)系。

作者精細地定義了56種關(guān)系,包括了位置關(guān)系(over,in front of,等),常見的物體間關(guān)系(hanging from等),常見的生物動作(walking on,standing on,等),人類行為(cooking等),交通場景中的關(guān)系(driving,riding等),運動場景中的關(guān)系(kicking等),以及背景間關(guān)系(enclosing等)。

作者要求標注員能用更準確的動詞表達就絕不用更模糊的表達,并且盡可能全地標注圖中的關(guān)系。

a7c4f952-22e5-11ed-ba43-dac502259ad0.gif

PSG模型效果展示

任務(wù)優(yōu)勢

作者通過下圖的例子再次理解全場景圖生成(PSG)任務(wù)的優(yōu)勢:

a8536520-22e5-11ed-ba43-dac502259ad0.png

左圖來自于SGG任務(wù)的傳統(tǒng)數(shù)據(jù)集Visual Genome (VG-150)。可以看到基于檢測框的標注通常不準確,而檢測框覆蓋的像素也不能準確定位物體,尤其是椅子,樹木之類的背景。同時,基于檢測框的關(guān)系標注通常會傾向于的標注一些無聊的關(guān)系,如「人有頭」,「人穿著衣服」。

相比之下,右圖中提出的 PSG 任務(wù)提供了更全面(包括前景和背景的互動)、更清晰(合適的物體粒度)和更準確(像素級準確)的場景圖表示,以推動場景理解領(lǐng)域的發(fā)展。

兩大類PSG模型

為了支撐提出的PSG任務(wù),作者搭建了一個開源代碼平臺OpenPSG,其中實現(xiàn)了四個雙階段的方法和兩個單階段的方法,方便大家開發(fā)、使用、分析。

a877c10e-22e5-11ed-ba43-dac502259ad0.png

雙階段的方法利用Panoptic-FPN在第一階段中對圖像進行全景分割。

接下來作者提取全景分割得到的物體的特征以及每一對物體融合的關(guān)系特征,送至下一階段的關(guān)系預(yù)測階段。框架已集成復(fù)現(xiàn)了傳統(tǒng)場景圖生成的經(jīng)典方法IMP,VCTree,Motifs,和GPSNet。

a890fe62-22e5-11ed-ba43-dac502259ad0.png

PSGFormer是基于雙decoder DETR的單階段方法。

模型首先在a)中通過卷積神經(jīng)網(wǎng)絡(luò)backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時初始化一組用以表示三元組的queries。

與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進行cross-attention操作。

隨后模型在c)中將解碼完成的每個query分別輸入主謂賓三元組對應(yīng)的預(yù)測模塊,最后得到對應(yīng)的三元組預(yù)測結(jié)果。

a8a60924-22e5-11ed-ba43-dac502259ad0.png

PSGFormer基于雙decode的DETR的單階段方法。

模型在a) 通過CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時初始化了兩組queries分別代表物體和關(guān)系。

接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關(guān)系編碼器中通過cross-attention解碼學習物體query和關(guān)系query。

當兩類query均學習完畢后,在c)中通過映射后匹配,得到成對的三元組query。

最后在d)中通過預(yù)測頭分別完成關(guān)于物體query和關(guān)系query的預(yù)測,并根據(jù)c)中的匹配結(jié)果得到最終的三元組預(yù)測結(jié)果。

PSGTR與PSGFormer都是在DETR的基礎(chǔ)上進行擴展和改進的模型,不同的地方在于PSGTR用一組query對于三元組直接建模而PSGFormer則通過兩組query分別對物體和關(guān)系建模,兩種方法各有利弊,具體可參考論文中實驗結(jié)果。

結(jié)論分享

大部分在SGG任務(wù)上有效的方法在PSG任務(wù)上依舊有效。然而有一些利用較強的數(shù)據(jù)集統(tǒng)計先驗,或主謂賓中謂語方向先驗的方法可能沒那么奏效。這可能是由于PSG數(shù)據(jù)集相較于傳統(tǒng)VG數(shù)據(jù)集的bias沒有那么嚴重,并且對謂語動詞的定義更加清晰可學。因此,作者希望后續(xù)的方法關(guān)注視覺信息的提取和對圖片本身的理解。統(tǒng)計先驗可能在刷數(shù)據(jù)集上有效,但不本質(zhì)。

相比于雙階段模型,單階段模型目前能達到更好的效果。這可能得益于單階段模型有關(guān)于關(guān)系的監(jiān)督信號可以直接傳遞到feature map端,使得關(guān)系信號參與了更多的模型學習,有利于對關(guān)系的捕捉。但是由于本文只提出了若干基線模型,并沒有針對單階段或雙階段模型進行調(diào)優(yōu),因此目前還不能說單階段模型一定強于雙階段模型。這還希望參賽選手繼續(xù)探索。

相比于傳統(tǒng)的SGG任務(wù),PSG任務(wù)基于全景分割圖進行關(guān)系配對,要求對于每個關(guān)系中主賓物體的id 進行確認。相比于雙階段直接預(yù)測全景分割圖完成物體id 的劃分,單階段模型需要通過一系列后處理完成這一步驟。若基于現(xiàn)有單階段模型進一步改進升級,如何在單階段模型中更有效的完成物體id的確認,生成更好的全景分割圖,仍是一個值得探索的話題。

最后,歡迎大家試用HuggingFace:

a8d5786c-22e5-11ed-ba43-dac502259ad0.gif

Demo:https://huggingface.co/spaces/ECCV2022/PSG

關(guān)于圖像生成的展望

最近大火的基于文字輸入的生成模型(如DALL-E2) 著實令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個實體粘合在一起,甚至都沒有理解文本中表述的空間關(guān)系。

如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。

a92c6f14-22e5-11ed-ba43-dac502259ad0.png

正巧,PSG數(shù)據(jù)集標注了基于mask的scene graph關(guān)系。

作者可以利用scene graph和全景分割mask作為訓練對,得到一個text2mask的模型,在基于mask生成更細致的圖片。

因此,PSG數(shù)據(jù)集有可能也為注重關(guān)系的圖像生成提供了潛在的解決方案。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1706

    瀏覽量

    46621
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25321
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5855

    瀏覽量

    77556

原文標題:南洋理工提出全場景圖生成PSG任務(wù),像素級定位物體,還得預(yù)測56種關(guān)系

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    圓滿收官!科士達全場景光儲生態(tài)點燃全球追光者盛宴

    6月13日,SNECPV+2025圓滿收官。科士達以600㎡雙層全景展臺、二十余款硬核產(chǎn)品及智慧能源解決方案,為全球“追光者”呈現(xiàn)了一場集技術(shù)高度、場景深度與互動熱度的光儲充盛宴。展會期間人潮
    的頭像 發(fā)表于 06-18 09:56 ?240次閱讀
    圓滿收官!科士達<b class='flag-5'>全場景</b>光儲生態(tài)點燃全球追光者盛宴

    芯資訊|廣州唯創(chuàng)電子語音識別芯片:全場景覆蓋與長效品質(zhì)

    在人工智能與物聯(lián)網(wǎng)技術(shù)深度融合的今天,語音識別技術(shù)已成為智能設(shè)備交互的核心入口。作為國內(nèi)語音芯片領(lǐng)域的佼佼者,廣州唯創(chuàng)電子憑借其全場景覆蓋的產(chǎn)品矩陣、超長生命周期保障及嚴苛的品質(zhì)管理體系,在語音識別
    的頭像 發(fā)表于 05-20 08:36 ?131次閱讀
    芯資訊|廣州唯創(chuàng)電子語音識別芯片:<b class='flag-5'>全場景</b>覆蓋與長效品質(zhì)

    DuxCam G2S全景相機,提供360°全景測繪解決方案

    DuxCam G2S是一款采用全局快門傳感器的高分辨率高幀率全景相機,可用于全天候條件下在各類移動平臺上采集全景影像。其采用全新計算平臺,至高能夠以7200萬滿分辨率、20FPS幀速率采集全景
    發(fā)表于 04-07 16:26

    敏捷合成器的技術(shù)原理和應(yīng)用場景

    ,在多個領(lǐng)域具有廣泛的應(yīng)用場景: 通信測試:在通信設(shè)備的研發(fā)和生產(chǎn)過程中,敏捷合成器可用于生成各種調(diào)制信號和測試信號,以驗證設(shè)備的性能和穩(wěn)定性。 雷達系統(tǒng):雷達系統(tǒng)需要高精度和高穩(wěn)定性的信號源來生成雷達
    發(fā)表于 02-20 15:25

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多畫面顯示等場景。調(diào)試畫面
    的頭像 發(fā)表于 10-17 09:32 ?985次閱讀

    億緯鋰能全場景鋰電池方案,加速萬物互聯(lián)

    日前,The smarter E Europe盛大開幕,億緯鋰能攜全場景鋰電池解決方案驚艷亮相,協(xié)同全球伙伴,展全方位實力。
    的頭像 發(fā)表于 08-20 11:15 ?953次閱讀

    惠普AI PC全場景AI解決方案重磅發(fā)布, AI一步到位,智能觸手可及

    產(chǎn)品組合,并與本土軟件合作伙伴攜手,共同構(gòu)建惠普專屬的AI生態(tài),力求滿足用戶在工作、生活、娛樂全場景下的使用需求,實現(xiàn)AI技術(shù)在日常生活中的無縫融入,助力用戶在工作效率和生活體驗上實現(xiàn)雙重提升。 (:2024惠普AI PC 全場景
    的頭像 發(fā)表于 08-02 17:53 ?950次閱讀
    惠普AI PC<b class='flag-5'>全場景</b>AI解決方案重磅發(fā)布, AI一步到位,智能觸手可及

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    的頭像 發(fā)表于 07-21 10:15 ?942次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態(tài)

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    發(fā)表于 07-19 20:46 ?490次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態(tài)

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學圖像分析、機器人導(dǎo)航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?848次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    圖像分割和語義分割是計算機視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
    的頭像 發(fā)表于 07-17 09:55 ?1801次閱讀

    圖像分割與目標檢測的區(qū)別是什么

    圖像分割與目標檢測是計算機視覺領(lǐng)域的兩個重要任務(wù),它們在許多應(yīng)用場景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們在某些方面有相似之處,但它們的目標、方法和應(yīng)用場景有很大的不同。本文將介紹圖像
    的頭像 發(fā)表于 07-17 09:53 ?2268次閱讀

    機器學習中的數(shù)據(jù)分割方法

    在機器學習中,數(shù)據(jù)分割是一項至關(guān)重要的任務(wù),它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數(shù)據(jù)分割的方法,包括常見的分割方法、各自的優(yōu)缺點、
    的頭像 發(fā)表于 07-10 16:10 ?3052次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學習的一種核心模型,在圖像分割與語義
    的頭像 發(fā)表于 07-09 11:51 ?1835次閱讀

    機器人視覺技術(shù)中常見的圖像分割方法

    場景理解、導(dǎo)航和交互等任務(wù)至關(guān)重要。以下是一些常見的圖像分割方法: 閾值分割法(Thresholding) 閾值分割法是一種基于像素強度的
    的頭像 發(fā)表于 07-09 09:31 ?1313次閱讀
    主站蜘蛛池模板: 日本黄色网址免费 | 天堂资源在线官网 | 亚洲国产一区二区三区在线观看 | 又长又大又粗又硬3p免费视 | 亚洲成在人线久久综合 | 日本口工全彩无遮拦漫画大 | 久久久久久久久综合影视网 | 狠狠色噜噜狠狠狠狠97影音先锋 | 99久久久久国产精品免费 | 午夜一级 | 成人综合婷婷国产精品久久免费 | 五月婷丁香 | 澳门久久 | 欧美激情二区三区 | 生活片一级性 | 一级色视频 | 四虎久久精品国产 | 日本中文字幕在线播放 | 亚洲视频在线一区二区三区 | 热99热| 黄色片网站大全 | 四虎影院一级片 | cao草棚视频网址成人 | 亚洲午夜久久久精品影院 | 末成年一级在线看片 | 视频免费黄色 | 国产三片高清在线观看 | 朋友夫妇和交换性bd高清 | 天天干伊人 | 日日摸人人看97人人澡 | 91色在线观看| 亚洲不卡免费视频 | 国产女主播在线播放一区二区 | 人人干人人爱 | 色播五月激情 | 国产亚洲人成a在线v网站 | 久久伊人精品青青草原高清 | 你懂得福利 | 日韩欧美黄色 | 日日做日日摸夜夜爽 | 天天干天天拍天天操 |