在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

未來實例分割中更具挑戰性的一個問題 將單個對象進行細分

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-04-30 17:17 ? 次閱讀

近日,Yann LeCun 等人發表了一篇針對未來實例分割預測的論文。該論文提出了一種預測模型,可通過預測卷積特征來對未來實例分割進行預測。該算法有以下幾大優勢:

可以處理模型輸出大小不固定的情況,如對象檢測和實例分割;

不需要使用帶有標記的視頻序列進行訓練,可以直接從未標記的數據中計算出中間的 CNN 特征映射圖;

支持可生成多個場景解釋的模型,如曲面法線、對象邊界框和人體部分標簽,而不需要針對這些任務設計合適的編碼器和損失函數。

▌簡介

預測未來事件是實現智能行為的一個重要的先決條件,而視頻預測就是其中一項任務。最近的研究表明,在對未來幀進行語義分割時,在語義層面上的預測,比先預測 RGB 幀,然后將其分段更加有效。本文考慮了未來實例分割中更具挑戰性的一個問題——將單個對象進行細分。為了處理各圖像中不同數量的輸出標簽,我們在 Mask R-CNN 實例分割模型的固定尺寸卷積特征空間中開發了一個預測模型。

我們將 Mask R-CNN 框架的“探測頭(detection head)”應用于預測特征,以產生未來幀的實例分割。實驗表明,與基于光流(optical flow)的基線相比,該算法在性能上有顯著提升。

圖 1:預測未來 0.5 秒。 光流基線 (a) 和本文算法 (b) 的實例分割比較。來自文獻 [8] 的算法 (c) 和本文的實例語義分割算法 (d) 的語義分割比較。實例建模顯著提高了單個行人的分割精度。

我們的貢獻如下:

引入未來實例預測這一新任務,在語義上比之前研究的預期識別任務更為豐富。

基于預測未來幀的高維卷積神經網絡特征的自監督算法,支持多種預期識別任務。

實驗結果表明我們的特征學習算法相對于強光流基線有所改進。

預測未來實例分割的特征

本節簡要回顧了 Mask R-CNN 框架實例分割框架,然后介紹了如何通過預測未來幀的內部 CNN 特征,將該框架用于預期識別(anticipated recognition)。

使用 Mask R-CNN 進行實例分割

Mask R-CNN 模型主要由三個主要階段組成。首先,使用一個 CNN 主干框架結構提取高層特征映射圖。其次,候選區域生成網絡 (RPN) 利用這些特征以包含實例邊界框坐標的形式產生興趣區域(ROI)。候選邊界框用作興趣區域層的輸入,通過在每個邊界框中插入高級特征,為每個邊界框獲取固定大小的表示(不管大小)。 將每個興趣區域的特征輸入到檢測分支,并產生精確的邊界框坐標、類別預測以及用于預測類別的固定二進制掩碼。最后,在預測的邊界框內將掩碼插入到圖像分辨率中,并報告為預測類的一個實例分割。

圖2 :左,自上而下的特征采樣結合相同分辨率吧的自下而上的特征,從而獲得的 FPN(feature pyramid network) 算法主干框架中的特征。右,為了得到未來實例分割,我們從 t-τ 到 t 幀提取 FPN 特征,并預測 t + 1 幀的 FPN 特征。

預測卷積特征

對處于不同 FPN 層級的特征進行訓練,并將其作為共享“探測頭(detection head)”的輸入。然而,由于分辨率在不同層級上會發生改變,每層上的“空間-時間”動態特性也會不同。 因此,我們提出了一種多尺度算法,對每一級采用單獨的網絡進行預測。每級網絡都經過訓練,彼此完全獨立地工作。對于每一級,我們關注的是特征維度輸入序列的特征。

實驗評估

我們使用的是 Cityscapes 數據集,數據來自于汽車在駕駛過程中錄制的城市環境視頻,每個視頻片段時長 1.8 秒,一共分為 2,975 個訓練集,500 個驗證集和 1,525 個測試集。

我們使用在 MS-COCO 數據集上預先訓練好的的 Mask R-CNN 模型,并在 Cityscapes 數據集上以端到端的形式對其進行微調。

未來實例分割:表1為未來特征預測算法 (F2F) 的實例分割結果,并將其與 Oracle、Copy 和光流基線的性能做比較。由表可知,F2F 算法效果最好,比最佳的中期基線提高了 74% 以上。

表1:Cityscapes val.數據集上實例分割的精確度

未來語義分割:我們發現,F2F 算法在 IoU 方面比所有的短期分割方法都有明顯的改進,以61.2 %的成績排名第一。

表2: 不同算法在 Cityscapes val. 數據集上的移動對象( 8 類)短期和中期語義分割表現。

圖4顯示,與 Warp 基線相比, F2F 算法能夠與對象的實際布局更好地對齊,這表明該算法已經學會了對場景和對象的動態建模,且效果比基線好。如預期所示,預測的掩碼也比那些 S2S 算法更加精確。

圖4:對三個序列的中期預測(未來 0.5 秒)。

通過圖5展示的示例,我們可以更好地理解,為什么在語義分割度量標準方面,F2F 和 Warp 基線之間的差異比實例分割度量標準要小很多。

圖5:用 Warp 基線和 F2F 模型獲得的中期預測的實例和語義分割。不準確的實例分割會導致精確的語義分割區域,請看圖中的橙色矩形高光部分。

失敗案例討論

在圖6(a) 的第一個例子中,由于前面的所有模型認為白色轎車完全被另一輛車遮擋,因此沒有檢測到。這是不可避免的一種情況,除非對象在較早的幀中可見,在這種情況下,長期記憶機制可能會避免不必要的錯誤。

在圖 6(b) 中,卡車和行人的預測掩碼在形狀和位置上都不連貫。用明確建模遮擋機制或許可以獲得更一致的預測。

最后,由于對象本身比較模糊,某些運動和形狀轉換很難得到準確的預測,如圖 6(c)中的行人的腿部,對于這種情況,確切的姿勢存在高度的不確定性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3747

    瀏覽量

    136466
  • 圖像
    +關注

    關注

    2

    文章

    1091

    瀏覽量

    40891
  • 人工智能
    +關注

    關注

    1803

    文章

    48406

    瀏覽量

    244603

原文標題:Yann LeCun等最新研究:如何對未來實例分割進行預測?

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何選擇LTE系統測試方法,存在哪些挑戰

    TD-LTE、FDD-LTE和LTE-Advanced(LTE-A)無線技術使用了幾種不同的多種輸入多路輸出(MIMO)技術。鑒于MIMO系統的復雜正在日益提高,因此相關的測試方法也更具
    發表于 02-28 11:18

    設計了定制形狀的圣誕樹

    描述圣誕樹我們設計了定制形狀的 PCB,并將其發送到 PCBWAY 進行制造。它是從美國俄亥俄州到中國的往返行程,8 天后返回。為了制作我們的自定義形狀,我們繪圖導入 PCB 設
    發表于 08-02 07:58

    如何使用Wemos D1 mini制作款簡單但具有挑戰性的游戲?

    我使用 Wemos D1 mini 制作了款簡單但具有挑戰性的游戲。 我盡量使說明盡可能詳細,但如果您對此有任何疑問,請告訴我。 您所要做的就是魔杖從電線的端拿到另
    發表于 05-23 06:14

    KiCad如何分割平面?

    ”、“負片”之分。如果需要創建完整的電源平面或者分割電源平面,都必須以“敷銅”的方式進行。 注意,在某些EDA工具(比如Altium
    發表于 06-26 11:50

    基于視頻對象的區域分割及其應用

    為適應MPEG-4 基于對象的應用,提出種基于視頻對象的區域分割算法。在視頻對象的指導下,利用均值漂移
    發表于 10-04 14:06 ?12次下載

    音頻設計:比你所想象的更富挑戰性

    音頻設計:比你所想象的更富挑戰性 通常會認為20 Hz ~20 kHz常規頻段的音頻設計是基本的、不具挑戰性的。但是本篇特別報道的作者----音頻工程(audio engineering)的專家們對
    發表于 09-16 10:02 ?862次閱讀

    聚焦語義分割任務,如何用卷積神經網絡處理語義圖像分割

    一對象。作者沿著該領域的研究脈絡,說明如何用卷積神經網絡處理語義圖像分割的任務。 更具體地講,語義圖像分割的目標在于標記圖片中每
    發表于 09-17 15:21 ?627次閱讀

    Facebook AI使用單神經網絡架構來同時完成實例分割和語義分割

    新架構“全景 FPN ”在 Facebook 2017 年發布的 Mask R-CNN 的基礎上添加了用于語義分割的分支。這新架構
    的頭像 發表于 04-22 11:46 ?3028次閱讀
    Facebook AI使用單<b class='flag-5'>一</b>神經網絡架構來同時完成<b class='flag-5'>實例</b><b class='flag-5'>分割</b>和語義<b class='flag-5'>分割</b>

    深度學習在視頻對象分割的應用及相關研究

    視頻對象分割是指在給定的段視頻序列的各幀圖像,找岀屬于特定前景對象的所有像素點位置區域。隨著硬件平臺計算能力的提升,深度學習受到了越來越
    發表于 03-24 15:47 ?9次下載
    深度學習在視頻<b class='flag-5'>對象</b><b class='flag-5'>分割</b><b class='flag-5'>中</b>的應用及相關研究

    什么是圖像實例分割?常見的圖像實例分割有哪幾種?

    圖像實例分割是在對象檢測的基礎上進步細化,分離對象的前景與背景,實現像素級別的對象分離。
    的頭像 發表于 06-17 11:15 ?2.7w次閱讀
    什么是圖像<b class='flag-5'>實例</b><b class='flag-5'>分割</b>?常見的圖像<b class='flag-5'>實例</b><b class='flag-5'>分割</b>有哪幾種?

    深度學習部分監督的實例分割環境

    實例分割的任務是圖像的像素分組為單個事物的實例,并用類標簽(可計數的
    的頭像 發表于 10-21 14:05 ?1940次閱讀

    點云分割相較圖像分割的優勢是啥?

    自動駕駛領域的下游任務,我認為主要包括目標檢測、語義分割實例分割和全景分割。其中目標檢測是指在區域中提取目標的候選框并分類,語義分割是對區
    的頭像 發表于 12-14 14:25 ?3075次閱讀

    每日課 | 在智慧燈桿視覺技術實例分割技術簡介

    3.2.5實例分割圖3-9所示為實例分割示意圖。圖3-9實例分割
    的頭像 發表于 03-08 09:19 ?543次閱讀
    每日<b class='flag-5'>一</b>課 | 在智慧燈桿視覺技術<b class='flag-5'>中</b>的<b class='flag-5'>實例</b><b class='flag-5'>分割</b>技術簡介

    圖像分割和語義分割的區別與聯系

    、亮度等。圖像分割的目的是圖像感興趣的部分與背景分離,以便進行進一步的處理和分析。 1.1 圖像分割的類型 圖像
    的頭像 發表于 07-17 09:55 ?1554次閱讀

    康謀分享 | 在基于場景的AD/ADAS驗證過程,識別挑戰性場景!

    基于場景的驗證是AD/ADAS系統開發過程的重要步驟,然而面對海量駕駛記錄數據時,如何實現自動且高效地識別、分類和提取駕駛記錄挑戰性場景?本文康謀為您介紹IVEX軟件識別挑戰性
    的頭像 發表于 08-28 10:16 ?1296次閱讀
    康謀分享 | 在基于場景的AD/ADAS驗證過程<b class='flag-5'>中</b>,識別<b class='flag-5'>挑戰性</b>場景!
    主站蜘蛛池模板: 一区二区三区四区五区 | 花怜write. as| 天天爱天天做天天爽天天躁 | 成人亚洲视频 | 亚洲视频一区在线观看 | 三级在线国产 | 视频在线观看网站免费 | yy4080午夜理论一级毛片 | 亚洲成人观看 | 国产午夜免费一区二区三区 | 色老头久久久久久久久久 | 欧美a免费 | 欧美女同网站 | 视频在线观看一区二区三区 | 欧美日韩a级a| 一级欧美在线的视频 | 激情爱爱的免费视频 | 特级毛片s级全部免费 | 久久婷五月综合 | 午夜亚洲国产精品福利 | 国产日韩三级 | 被cao到合不拢腿腐男男 | 一女被两男吃奶玩乳尖口述 | 日日碰狠狠添天天爽五月婷 | 丁香视频在线 | 久久婷婷综合五月一区二区 | 日本精品一在线观看视频 | 久久人人做人人玩人精品 | 国产三级日本三级韩国三级在线观看 | 久久久久久国产精品mv | 国产caob | 免费观看黄视频网站 | 中文字幕一区二区三 | 色老头久久久久久久久久 | 亚洲伦理中文字幕一区 | 欧美网站视频 | 中文字幕久久精品波多野结 | 美女久久久 | 一个色在线 | 视频在线一区二区 | 一级黄色片欧美 |