在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多模態新任務和新數據集!NTU提出廣義引用分割問題GRES

CVer ? 來源:CVer ? 2023-06-08 15:06 ? 次閱讀

引用表達分割(Referring Expression Segmentation,簡稱引用分割或RES)是一個基礎的視覺語言多模態任務。給定一張圖像和一個描述該圖像中某個對象的自然語言表達式,RES旨在找到該目標對象并將其分割?,F有的引用分割數據集和方法通常僅支持單目標表達式,即一個表達式指代一個目標對象。而對于多目標和無目標表達式的情況,則沒有考慮在內。嚴重限制了引用分割的實際應用。 基于這個問題,來自新加坡南洋理工大學的研究者們定義了一個名為廣義引用分割(Generalized Referring Expression Segmentation,GRES)的新任務,將經典的引用分割擴展到允許表達式指代任意數量的目標對象。同時,文章還構建了第一個大規模的GRES數據集gRefCOCO,其同時包含多目標、無目標和單目標表達式。

411137b2-056a-11ee-8a94-dac502259ad0.png

論文地址:https://arxiv.org/abs/2306.00968

項目主頁:https://henghuiding.github.io/GRES/

RES在圖形編輯、視頻制作、人機交互和機器人等眾多應用領域具有巨大潛力。目前,大多數現有方法都遵循在知名數據集ReferIt和RefCOCO中定義的RES規則,并在近年來取得了巨大進展。然而,大多數經典的引用分割方法對任務有預定義的強約束:

1.傳統的RES不考慮無目標表達式,即在圖像中沒有匹配對象的自然表達語句。這意味著如果語句描述的目標在輸入圖像中不存在,現有的RES方法的行為是未定義的。在這種假設下,輸入表達式必須與圖像中的某個對象匹配,否則會不可避免地出現錯誤。

2.大多數現有數據集,例如最流行的RefCOCO,幾乎不包含多目標表達式,即在一句話中同時指向多個目標物體的表達式。這意味著如果需要同時查找多個目標,用戶需要分多次鍵入查詢指令且每次只能指向一個目標物體。

41235c9e-056a-11ee-8a94-dac502259ad0.png

圖1:引用分割的實例,使用“The kid in red”來指示并分割圖片中的紅衣服小男孩

新任務:廣義引用表達式分割

在文章中,為了解決傳統RES存在的問題,研究者們提出了一個名為廣義引用表達分割(Generalized Referring Expression Segmentation,簡稱GRES或廣義引用分割)的新任務,允許表達式指向任意數量的目標對象。與經典的RES類似,GRES接受一張圖像和一句自然語言表達式作為輸入。但與傳統RES不同,GRES進一步支持了多目標表達式,即在單個表達式中指定多個目標對象,例如圖2中的“Everyone except the kid in white”,以及無目標表達式,即表達式沒有指向圖像中的任何對象,例如圖2中的“the kid in blue”。GRES為輸入表達式提供了更大的靈活性,可以更好地支撐引用分割的實際應用。

412bcbf4-056a-11ee-8a94-dac502259ad0.png

圖2:多目標表達式和無目標表達式示例

新數據集:gRefCOCO

然而,現有的幾個引用表達數據集,如RefCOCO系列,幾乎不包含多目標表達式或無目標表達式樣本,只有單目標表達式樣本,如表1所示。

413a57e6-056a-11ee-8a94-dac502259ad0.png

表1:gRefCOCO與其他引用表達式數據集的比較

為了促進對GRES的研究工作,本文構建了新的大規模引用分割數據集gRefCOCO。它進一步包含多目標表達式和無目標表達式。該數據集共有278,232個表達式,其中包括80,022個多目標表達式和32,202個無目標表達式,涉及19,994張圖像中的60,287個不同物體。

gRefCOCO數據集的多目標表達式主要有以下難點:

1.計數表達式:處理包含計數的表達式,需要區分基數詞和序數詞,如“two”和“second”,并具備對象計數能力。

2.復合句結構:理解復合句結構中的多個元素之間的關系,包括“A and B”、“A except B”和“A with B or C”。如圖3中的第一個表達式。

3.屬性的范圍:要處理多目標表達式中的不同目標之間的屬性共享或差異,需深入理解各個屬性以及它們與相應對象之間的關系。

4.復雜關系:多目標表達式中的關系描述更復雜,需要理解并推斷目標之間的關系,例如通過關鍵詞“and”來指示目標數量。模型需對圖像和表達式中的所有實例及其相互作用有深入理解。如圖3中的第二個表達式,使用了復雜的句子來表達目標與非目標之間的關系。

41498446-056a-11ee-8a94-dac502259ad0.png

圖3:gRefCOCO樣本示例

無目標表達式的構建主要遵循兩個原則:

1.表達式不能與圖像完全無關。例如,給定圖1中的圖像,“the kid in blue”是可以接受的,因為圖像中確實存在“kid”和“blue”,但沒有一個“kind in blue”。但是像“狗”、“汽車”、“河流”等與該圖像中的任何內容都完全無關的表達式是不可接受的。

2.如果規則1中所要求的表達式很難想出,標注員可以選擇從RefCOCO同一split中的其他圖像中選取具有迷惑性的表達式。

新模型:ReLA

GRES中多目標表達式中的關系和屬性描述更加復雜。與經典的引用分割(RES)相比,對于廣義引用表達分割(GRES)來說,更具挑戰性的是對圖像中區域之間的復雜交互關系進行建模,并捕捉所有對象的細粒度屬性。本文提出了一個新的基準模型ReLA,明確地對圖像的不同部分和表達式中的不同單詞進行信息交換和相互作用,以分析它們之間的依賴關系。通過這種方式,我們能夠更好地理解圖像和表達式之間的復雜交互。

415e21b2-056a-11ee-8a94-dac502259ad0.png

所提出的關系(ReLAtionship)建模方法具有兩個主要模塊,即區域-圖像交叉注意力(Region-Image Cross Attention,RIA)和區域-語言交叉注意力(Region-Language Cross Attention,RLA)。RIA模塊靈活地收集區域圖像特征,而RLA模塊則捕捉區域之間的關系以及區域與語言之間的依賴關系。通過這兩個模塊,我們能夠更好地建模圖像和表達式之間的復雜交互,并提高引用表達分割的性能。

實驗

根據GRES任務的特性,文章提出了新的測評指標:gIoU、N-acc、T-acc,分別用來衡量整體分割性能、正確識別無目標表達式的性能、和無目標表達式對引用分割的影響。

提出的基準方法ReLA在GRES和傳統單目標RES上均取得了最佳性能。這證明了顯式建模不同圖像區域和詞語之間的關系對引用分割的有效性。

416c7c62-056a-11ee-8a94-dac502259ad0.png

417e69f4-056a-11ee-8a94-dac502259ad0.png

對多目標表達式的分割結果可視化如下:

41867298-056a-11ee-8a94-dac502259ad0.png

41945548-056a-11ee-8a94-dac502259ad0.png

對無目標表達式的分割結果可視化如下:

41a24a04-056a-11ee-8a94-dac502259ad0.png

41aec70c-056a-11ee-8a94-dac502259ad0.png

總結

本文分析并解決了經典引用分割(RES)任務的局限性,即無法處理多目標和無目標表達式?;诖?,本文定義了一個名為廣義引用表達分割(GRES)的新任務,允許表達式中包含任意數量的目標。為支持GRES的研究,本文構建了一個大規模的數據集gRefCOCO、提出了基準方法ReLA,用于顯式建模不同圖像區域和詞語之間的關系。該方法在經典的RES任務和新提出的GRES任務上取得了最佳結果。GRES降低了對自然語言輸入的限制,擴大了引用分割的應用范圍,如多實例和無正確對象的情況,期待GRES能夠打開了新的應用領域。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28745

    瀏覽量

    208883
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40600
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24862
收藏 人收藏

    評論

    相關推薦

    請問UCOSIII如何切換到新任務?

    UCOS/III 是在PendSV中斷里切換任務的,最后BXLR(見紅色字體),LR是舊任務返回地址, 所以應該跳到舊任務繼續執行,為什么會跳轉到新任務了呢?希望高手能解惑。PendS
    發表于 05-09 06:35

    黑莓10更多細節曝光:全新任務管理器

    “BlackBerry Remember”的全新任務管理器,根據資料介紹該任務管理器可讓用戶以某種方式更高效地安排和組織任務計劃,并可對任務進行分組、進追蹤,直到
    發表于 12-30 18:23

    廣義概率Tsallis熵的快速閾值圖像分割_張新明

    廣義概率Tsallis熵的快速閾值圖像分割_張新明
    發表于 01-08 10:40 ?1次下載

    文化場景下的模態情感識別

    學習的特征,并通過多模態融合方法結合不同的模態。比較不同單模態特征和模態特征融合的情感識別性能.我們在CHEAVD中文
    發表于 12-18 14:47 ?0次下載

    美國宇航局朝著發射新任務邁出了一大步

    美國宇航局已經朝著發射新任務邁出了一大步,這將有助于我們更好地了解太陽與地球周圍空間環境的相互作用。該機構已經挑選了五個方案,并分別給了他們125萬美元,讓他們在其太陽物理項目下進行為期9個月的任務
    的頭像 發表于 09-12 10:04 ?1800次閱讀

    模態MR和特征融合的GBM自動分割算法

    模態MR和特征融合的GBM自動分割算法
    發表于 06-27 11:45 ?32次下載

    DocumentAI的模型、任務和基準數據

    隨著最近幾年模態大火的,越來越多的任務都被推陳出新為模態版本。譬如,傳統對話任務,推出了考慮
    的頭像 發表于 08-22 09:55 ?1914次閱讀

    基于圖文模態領域典型任務

    圖文模態領域典型任務如img-text retrieval、VQA、captioning、grounding等,目前的學術設定難度尚可。但是, 一旦知識范圍擴展,到了open-ended
    的頭像 發表于 09-01 17:14 ?2467次閱讀

    一個真實閑聊模態數據TikTalk

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。
    的頭像 發表于 02-09 09:31 ?2040次閱讀

    中文模態對話數據

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。目前已經
    的頭像 發表于 02-22 11:03 ?1448次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態</b>對話<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    如何利用LLM做模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放模態輸入接口并且不會透露任何模型上技術細節
    的頭像 發表于 05-11 17:09 ?966次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>任務</b>?

    自動駕駛深度模態目標檢測和語義分割:數據、方法和挑戰

    了許多解決深度模態感知問題的方法。 然而,對于網絡架構的設計,并沒有通用的指導方針,關于“融合什么”、“何時融合”和“如何融合”的問題仍然沒有定論。本文系統地總結了自動駕駛 中深度模態
    發表于 06-06 10:37 ?0次下載
    自動駕駛深度<b class='flag-5'>多</b><b class='flag-5'>模態</b>目標檢測和語義<b class='flag-5'>分割</b>:<b class='flag-5'>數據</b><b class='flag-5'>集</b>、方法和挑戰

    廣義引用分割問題GRES的應用案例解析

    RES在圖形編輯、視頻制作、人機交互和機器人等眾多應用領域具有巨大潛力。目前,大多數現有方法都遵循在知名數據ReferIt和RefCOCO中定義的RES規則,并在近年來取得了巨大進展。
    發表于 06-08 15:09 ?980次閱讀
    <b class='flag-5'>廣義</b><b class='flag-5'>引用</b><b class='flag-5'>分割</b>問題<b class='flag-5'>GRES</b>的應用案例解析

    模態上下文指令調優數據MIMIC-IT

    然而,一個理想的 AI 對話助手應該能夠解決涉及多種模態任務。這需要獲得一個多樣化和高質量的模式指令跟隨數據。比如,LLaVAInst
    的頭像 發表于 06-12 16:36 ?816次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>上下文指令調優<b class='flag-5'>數據</b><b class='flag-5'>集</b>MIMIC-IT

    2025未來產業創新任務 | 清潔氫

    據悉,1月17日,工業和信息化部辦公廳發布《關于組織開展2025年未來產業創新任務揭榜掛帥工作的通知》(簡稱《通知》)?!锻ㄖ凤@示,揭榜任務內容面向量子科技、原子級制造、清潔氫3個未來產業,布局
    的頭像 發表于 01-22 08:19 ?134次閱讀
    2025未來產業創<b class='flag-5'>新任務</b> | 清潔氫
    主站蜘蛛池模板: 老汉色视频| 四虎新地址 | h小视频在线观看网 | 中国女人a毛片免费全部播放 | 国产一线在线观看 | 婷婷亚洲综合一区二区 | 午夜大片男女免费观看爽爽爽尤物 | 亚洲经典乱码在线播 | 国产精品视频一区国模私拍 | 3p性小说| 激情六月色 | 国产三级在线免费观看 | www深夜视频在线观看高清 | avtt亚洲一区中文字幕 | 欧美成人在线影院 | 色www永久免费 | sihu国产午夜精品一区二区三区 | 一级做a爱片久久毛片 | 色综合88 | 91亚洲免费视频 | 色香视频首页 | aaa级片| 亚洲三级视频 | 狠狠干2019 | 妹子干综合网 | 国产乱子伦一区二区三区 | 午夜资源站 | 国产免费久久精品 | 欧美黑人性受xxxx精品 | 永久免费在线视频 | 成人三级毛片 | 日本三级成人中文字幕乱码 | 福利区在线观看 | 精品视频一区在线观看 | 欧美一级黄色录相 | 日本免费黄色网 | 1024手机看片国产 | 综合五月| 视频一区视频二区在线观看 | 色综合天天综合中文网 | 国产在线视频你懂的 |