在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦開源LVOS:面向真實(shí)場(chǎng)景的長(zhǎng)時(shí)視頻目標(biāo)分割數(shù)據(jù)集

CVer ? 來源:CVer ? 2023-09-04 16:33 ? 次閱讀

本文介紹復(fù)旦大學(xué)提出的面向真實(shí)場(chǎng)景的長(zhǎng)時(shí)視頻目標(biāo)分割數(shù)據(jù)集LVOS,論文被ICCV2023收錄

653a1c14-4ae1-11ee-97a6-92fbcf53809c.png

現(xiàn)有的視頻目標(biāo)分割(VOS)數(shù)據(jù)集主要關(guān)注于短時(shí)視頻,平均時(shí)長(zhǎng)在3-5秒左右,并且視頻中的物體大部分時(shí)間都是可見的。然而在實(shí)際應(yīng)用過程中,用戶所需要分割的視頻往往時(shí)長(zhǎng)更長(zhǎng),并且目標(biāo)物體常常會(huì)消失。現(xiàn)有的VOS數(shù)據(jù)集和真實(shí)場(chǎng)景存在一定的差異,真實(shí)場(chǎng)景中的視頻更加困難。

雖然現(xiàn)在的SOTA的視頻目標(biāo)分割方法在短時(shí)的VOS數(shù)據(jù)集上已經(jīng)取得了90%的分割準(zhǔn)確率,但是這些算法在真實(shí)場(chǎng)景中的表現(xiàn)如何卻由于缺少相關(guān)的數(shù)據(jù)集不得而知。

6541eec6-4ae1-11ee-97a6-92fbcf53809c.png

因此,為了探究VOS模型在真實(shí)場(chǎng)景下的表現(xiàn),彌補(bǔ)現(xiàn)有數(shù)據(jù)集的缺失,我們提出了第一個(gè)面向真實(shí)場(chǎng)景的長(zhǎng)時(shí)視頻目標(biāo)分割數(shù)據(jù)集Long-term Video Object Segmentation (LVOS)。

背景介紹:

視頻目標(biāo)分割(VOS)旨在根據(jù)視頻中第一幀的物體的掩膜,在視頻之后每一幀中準(zhǔn)確地跟蹤并分割目標(biāo)物體。視頻目標(biāo)分割有著十分廣泛的應(yīng)用,比如:視頻編輯、現(xiàn)實(shí)增強(qiáng)等。在實(shí)際應(yīng)用場(chǎng)景中,待分割的視頻長(zhǎng)度常常大于一分鐘,且視頻中的目標(biāo)物體會(huì)頻繁地消失和重新出現(xiàn)。對(duì)于VOS模型來說,在任意長(zhǎng)的視頻中準(zhǔn)確地重檢測(cè)和分割目標(biāo)物體是一個(gè)十分重要的能力。

但是,現(xiàn)有的VOS模型主要是針對(duì)于短時(shí)視頻設(shè)計(jì)的,并不能很好的處理長(zhǎng)時(shí)的物體消失和錯(cuò)誤累計(jì)。并且部分VOS算法依賴于不斷增長(zhǎng)的記憶模塊,當(dāng)視頻長(zhǎng)度較長(zhǎng)時(shí),存在著低效率甚至顯存不夠的問題。

目前的視頻目標(biāo)分割數(shù)據(jù)集主要關(guān)注于短時(shí)視頻,平均視頻長(zhǎng)度為六秒左右,和真實(shí)場(chǎng)景存在著較大差異。與現(xiàn)有的數(shù)據(jù)集相比,LVOS的視頻長(zhǎng)度更長(zhǎng),對(duì)于VOS算法的要求更高,能夠更高地評(píng)估VOS模型在真實(shí)場(chǎng)景下的性能。

LVOS數(shù)據(jù)集介紹:

658426e2-4ae1-11ee-97a6-92fbcf53809c.png

LVOS包含220個(gè)視頻,總時(shí)長(zhǎng)達(dá)421分鐘,平均每個(gè)視頻時(shí)長(zhǎng)為1.59分鐘,遠(yuǎn)遠(yuǎn)大于現(xiàn)有的VOS數(shù)據(jù)集。LVOS中的視頻更加復(fù)雜,且有著在短時(shí)視頻中不存在的挑戰(zhàn),比如長(zhǎng)時(shí)消失重現(xiàn)和跨時(shí)序混淆。這些挑戰(zhàn)更難,且對(duì)VOS模型的性能影響更大。LVOS中涉及27個(gè)類別的物體,其中包含了7種只有測(cè)試集中存在的未見類別,能夠很好地衡量VOS模型的泛化性。

LVOS分為120個(gè)訓(xùn)練視頻,50個(gè)驗(yàn)證視頻和50個(gè)測(cè)試視頻,其中測(cè)試視頻和驗(yàn)證視頻已經(jīng)全部開源,而測(cè)試視頻目前只開源了視頻圖像和第一幀中目標(biāo)物體的掩膜,需要將預(yù)測(cè)結(jié)果上傳到測(cè)試服務(wù)器中進(jìn)行在線評(píng)測(cè)。

方法介紹:

6588d66a-4ae1-11ee-97a6-92fbcf53809c.png

針對(duì)于長(zhǎng)時(shí)視頻,我們提出了一個(gè)新穎的VOS算法,Diverse Dynamic Memory (DDMemory)。DDMemory包含三個(gè)固定大小的記憶模塊,分別是參考記憶,全局記憶和局部記憶。通過記憶模塊,DDMemory將全局的時(shí)序信息壓縮到三個(gè)固定大小的記憶特征中,在保持高準(zhǔn)確率的同時(shí)實(shí)現(xiàn)了低GPU顯存占用和高效率。在分割當(dāng)前幀時(shí),當(dāng)前幀圖像特征會(huì)與三個(gè)記憶模塊特征進(jìn)行匹配,并根據(jù)匹配結(jié)果輸出掩膜預(yù)測(cè)。參考記憶存儲(chǔ)第一幀的圖像和掩膜信息,參考記憶負(fù)責(zé)物體消失或者遮擋之后的找回。局部記憶會(huì)隨著視頻不斷更新,存儲(chǔ)前一幀的圖像和掩膜,為當(dāng)前幀的分割提供位置和形狀的先驗(yàn)。而全局記憶利用了全局記憶編碼器,通過循環(huán)網(wǎng)絡(luò)的形式,有效地將全局歷史信息存儲(chǔ)在一個(gè)固定大小的特征中,實(shí)現(xiàn)對(duì)于時(shí)序信息的高效壓縮和對(duì)冗余噪聲干擾的排除。

實(shí)驗(yàn):

65cfb88c-4ae1-11ee-97a6-92fbcf53809c.png

在驗(yàn)證集和測(cè)試集上,我們對(duì)現(xiàn)有的VOS模型和DDMemory進(jìn)行了分別評(píng)測(cè)。從表中可以看到,現(xiàn)有僅在短時(shí)視頻上訓(xùn)練的VOS模型在長(zhǎng)時(shí)視頻上表現(xiàn)不如人意,而在長(zhǎng)時(shí)視頻上進(jìn)行了微調(diào)之后,性能均有一定的提升。我們提出的DDMemory能夠使用最小的GPU顯存,在實(shí)現(xiàn)最好性能的同時(shí),實(shí)現(xiàn)實(shí)時(shí)的速度(30.3FPS)。實(shí)驗(yàn)結(jié)果表明,現(xiàn)有的VOS模型對(duì)于真實(shí)場(chǎng)景表現(xiàn)較差,且由于缺少面向真實(shí)場(chǎng)景的數(shù)據(jù)集,在一定程度上限制了現(xiàn)有VOS模型的發(fā)展,也證明了LVOS數(shù)據(jù)集的價(jià)值。

65f23c0e-4ae1-11ee-97a6-92fbcf53809c.png

我們也進(jìn)行了oracle實(shí)驗(yàn),給定真實(shí)的位置和掩膜,模型的性能都會(huì)有所提升。在分割當(dāng)前幀時(shí),給定目標(biāo)物體的真實(shí)位置,性能能夠提升8.3%。而在記憶模塊更新時(shí),使用真實(shí)掩膜來代替預(yù)測(cè)掩膜進(jìn)行更新,預(yù)測(cè)性能能夠提升20.8%。但是即使給定目標(biāo)物體的真實(shí)位置和掩膜,模型預(yù)測(cè)結(jié)果仍然和真實(shí)結(jié)果存在較大差距。實(shí)驗(yàn)表明,錯(cuò)誤累計(jì)以及真實(shí)場(chǎng)景視頻中復(fù)雜的物體運(yùn)動(dòng)對(duì)VOS模型仍然是尚未解決的挑戰(zhàn),且這些挑戰(zhàn)在現(xiàn)有短時(shí)視頻數(shù)據(jù)集中并不明顯,卻在真實(shí)場(chǎng)景下對(duì)VOS算法性能有著巨大的影響。

總結(jié)

針對(duì)于真實(shí)場(chǎng)景,我們構(gòu)建了一個(gè)新的長(zhǎng)時(shí)視頻目標(biāo)分割數(shù)據(jù)集LVOS,LVOS中的視頻物體運(yùn)動(dòng)更加復(fù)雜,對(duì)于VOS模型的能力有著更高的要求,且比現(xiàn)有的短時(shí)數(shù)據(jù)集更加貼近實(shí)際應(yīng)用。我們對(duì)現(xiàn)有的VOS算法進(jìn)行了測(cè)試和比較,發(fā)現(xiàn)現(xiàn)有的VOS模型并不能很好地解決長(zhǎng)時(shí)視頻中的挑戰(zhàn)?;贚VOS,我們也分析了現(xiàn)有方法的缺陷以及一些可能的改進(jìn)方向。希望LVOS能夠?yàn)槊嫦蛘鎸?shí)場(chǎng)景的視頻理解研究提供一個(gè)平臺(tái)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4630

    瀏覽量

    93364
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24835
  • VOS
    VOS
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    8140

原文標(biāo)題:?ICCV 2023 | 復(fù)旦開源LVOS:面向真實(shí)場(chǎng)景的長(zhǎng)時(shí)視頻目標(biāo)分割數(shù)據(jù)集

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    鴻蒙開源場(chǎng)景應(yīng)用開發(fā)資料匯總

    1、鴻蒙開源場(chǎng)景應(yīng)用開發(fā)——視頻編解碼面對(duì)鴻蒙這一全新的生態(tài),廣大消費(fèi)者在積極嘗鮮的同時(shí),家中不可避免會(huì)出現(xiàn)安卓設(shè)備和鴻蒙設(shè)備并存的現(xiàn)象,短期內(nèi)可能不會(huì)形成全鴻蒙的生態(tài)環(huán)境。因此,在未來的一段時(shí)間
    發(fā)表于 03-23 10:09

    復(fù)旦微電子學(xué)院楊帆:介紹openDACS物理設(shè)計(jì)&建模驗(yàn)證SIG,發(fā)布開源Verilog Parser

    物理設(shè)計(jì)&建模驗(yàn)證SIG組長(zhǎng),介紹了SIG總體情況,包括四個(gè)方面內(nèi)容:SIG研究方向介紹技術(shù)趨勢(shì)和相關(guān)業(yè)界產(chǎn)品開源目標(biāo)與計(jì)劃開源版本發(fā)布最后代表復(fù)旦微電子學(xué)院,發(fā)布了openD
    發(fā)表于 07-01 14:35

    3D視頻目標(biāo)分割與快速跟蹤

    3D視頻目標(biāo)分割與快速跟蹤_朱仲杰
    發(fā)表于 01-07 16:00 ?0次下載

    廣泛應(yīng)用的城市語義分割數(shù)據(jù)整理

    這是最早用于自動(dòng)駕駛領(lǐng)域的語義分割數(shù)據(jù),發(fā)布于2007年末。他們應(yīng)用自己的圖像標(biāo)注軟件在一段10分鐘的視頻中連續(xù)標(biāo)注了700張圖片,這些視頻
    的頭像 發(fā)表于 05-29 09:42 ?8432次閱讀

    如何在信息熵約束下進(jìn)行視頻目標(biāo)分割資料詳細(xì)概述

    大部分基于圖論的視頻分割方法往往先通過分析運(yùn)動(dòng)和外觀信息獲得先驗(yàn)顯著性區(qū)域,然后用最小化能量模型來進(jìn)一步分割,這些方法常常忽略對(duì)外觀信息精細(xì)化分析,建立的目標(biāo)模型對(duì)復(fù)雜
    發(fā)表于 12-06 11:53 ?4次下載

    深度學(xué)習(xí)在視頻對(duì)象分割中的應(yīng)用及相關(guān)研究

    視頻對(duì)象分割的主要任務(wù),并總結(jié)了該任務(wù)所面臨的挑戰(zhàn)。其次,對(duì)開放的視頻對(duì)象分割常用數(shù)據(jù)進(jìn)行了
    發(fā)表于 03-24 15:47 ?9次下載
    深度學(xué)習(xí)在<b class='flag-5'>視頻</b>對(duì)象<b class='flag-5'>分割</b>中的應(yīng)用及相關(guān)研究

    動(dòng)態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分割方法

    針對(duì)復(fù)雜場(chǎng)景視頻日標(biāo)分割質(zhì)量不佳和時(shí)間效率低下的問題,提岀了一種動(dòng)態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)
    發(fā)表于 04-07 15:44 ?8次下載
    動(dòng)態(tài)外觀模型和高階能量的雙邊<b class='flag-5'>視頻</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>分割</b>方法

    基于深度學(xué)習(xí)的場(chǎng)景分割算法研究

    場(chǎng)景分割目標(biāo)是判斷場(chǎng)景圖像中每個(gè)像素的類別.場(chǎng)景分割是計(jì)算機(jī)視覺領(lǐng)域重要的基本問題之一,對(duì)
    發(fā)表于 02-12 11:28 ?600次閱讀

    港中大IDEA開源首個(gè)大規(guī)模全場(chǎng)景人體數(shù)據(jù)Human-Art

    然而,現(xiàn)有的計(jì)算機(jī)視覺任務(wù)、訓(xùn)練的數(shù)據(jù)等大多只關(guān)注到了真實(shí)世界的照片,這導(dǎo)致相關(guān)模型在更豐富的場(chǎng)景下,常常出現(xiàn)性能下降甚至完全失效的問題。即使是SOTA性能的人體檢測(cè)模型,面對(duì)虛擬
    的頭像 發(fā)表于 04-11 14:13 ?1001次閱讀

    語義分割數(shù)據(jù):從理論到實(shí)踐

    語義分割是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要問題,它的目標(biāo)是將圖像或視頻中的語義信息(如人、物、場(chǎng)景等)從背景中分離出來,以便于進(jìn)行目標(biāo)檢測(cè)、識(shí)別和
    的頭像 發(fā)表于 04-23 16:45 ?983次閱讀

    PyTorch教程14.9之語義分割數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.9之語義分割數(shù)據(jù).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:10 ?0次下載
    PyTorch教程14.9之語義<b class='flag-5'>分割</b>和<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    PyTorch教程-14.9. 語義分割數(shù)據(jù)

    14.9. 語義分割數(shù)據(jù)? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的頭像 發(fā)表于 06-05 15:44 ?702次閱讀
    PyTorch教程-14.9. 語義<b class='flag-5'>分割</b>和<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    最全自動(dòng)駕駛數(shù)據(jù)分享系列一:目標(biāo)檢測(cè)數(shù)據(jù)

    自動(dòng)駕駛數(shù)據(jù)分享是整數(shù)智能推出的一個(gè)全新分享系列,在這個(gè)系列中,我們將介紹目前為止各大科研機(jī)構(gòu)和企業(yè)推出的所有公開自動(dòng)駕駛數(shù)據(jù)。數(shù)據(jù)
    發(fā)表于 06-06 11:15 ?2次下載
    最全自動(dòng)駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>分享系列一:<b class='flag-5'>目標(biāo)</b>檢測(cè)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    SAM-PT:點(diǎn)幾下鼠標(biāo),視頻目標(biāo)分割出來了!

    這些視頻中包含訓(xùn)練之外的物體。而表現(xiàn)一般的原因就是沒有特定的視頻分割數(shù)據(jù)進(jìn)行微調(diào),這些模型就很難在各種場(chǎng)景中保持一致的性能。
    的頭像 發(fā)表于 07-10 15:28 ?784次閱讀
    SAM-PT:點(diǎn)幾下鼠標(biāo),<b class='flag-5'>視頻</b><b class='flag-5'>目標(biāo)</b>就<b class='flag-5'>分割</b>出來了!

    圖像分割目標(biāo)檢測(cè)的區(qū)別是什么

    圖像分割目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的兩個(gè)重要任務(wù),它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們?cè)谀承┓矫嬗邢嗨浦?,但它們?b class='flag-5'>目標(biāo)、方法和應(yīng)用
    的頭像 發(fā)表于 07-17 09:53 ?1516次閱讀
    主站蜘蛛池模板: 中文字幕天天干 | 失禁h啪肉尿出来高h健身房 | 精品影视网站入口 | 国产在线视频你懂的 | 狠狠色噜噜综合社区 | 天堂中文在线免费观看 | 天天撸夜夜操 | 免费 在线观看 视频 | 美女被免费网站91色 | 天天爽天天色 | 国产黄色在线视频 | 欧美黄色片 一级片 | 午夜性爽快 | 色老久久精品偷偷鲁一区 | 九九精品久久久久久噜噜 | 香蕉视频国产在线观看 | 亚洲黄色在线网站 | 欧美成人免费午夜全 | 国产亚洲精品免费 | 免费人成在线观看视频播放 | 免费大片黄国产在线观看 | 97国产精品人人爽人人做 | 毛片毛片毛片毛片毛片毛片 | 啪啪午夜| 欧美一区二区三区免费看 | 精品国产三级a∨在线 | 国产激烈床戏无遮挡在线观看 | 男人午夜禁片在线观看 | 超h 高h 污肉男男 | 免费不卡毛片 | 亚洲综合图片人成综合网 | 国产精品www视频免费看 | 激情五月综合网 | 免费欧美黄色网址 | 成年午夜一级毛片视频 | 精品国产午夜久久久久九九 | 国产成人精品曰本亚洲77美色 | 国产香港三级理论在线 | 色之综合天天综合色天天棕色 | 亚洲伊人久久大香线蕉啊 | 成人亚洲电影 |