在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

張康康 ? 2018-10-25 19:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者 | Video++極鏈科技AI實驗室張奕

整理 | 包包

背景

聲音和圖像是視頻中最重要的兩類基礎信息,能反映視頻中出現(xiàn)的主要內(nèi)容。以往大量的視頻內(nèi)容分析研究都是基于聲音和視覺特征來展開,其中很多研究工作會基于聲音視覺多模態(tài)特征來進行語義建模。人們清楚地意識到聲音和視覺特征直接存在著某種對應關系,因為當某種語義內(nèi)容在視頻中出現(xiàn)時,其相應的視覺圖像和聲音必然相伴出現(xiàn),那么該如何利用這個對應關系來幫助我們進行視頻語義內(nèi)容分析與識別呢?

讓我們先來看看當前機器學習與視頻分析研究的痛點。機器學習按照對樣本的標注要求不同可分為有監(jiān)督和無監(jiān)督兩大類。隨著深度學習的興起,基于大量標注樣本訓練的深度網(wǎng)絡模型在各領域中都取得了遠超其它模型的準確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標注樣本,樣本標注是一項很高成本的工作,需要耗費大量的人力資源,使人工智能成為真正基于“人工”的智能。在視頻內(nèi)容分析領域,為了達到識別視頻內(nèi)容的目的,也需要對視頻進行大量的樣本標注,這些標注包括目標、語義在時間空間上出現(xiàn)的位置、類別標簽等,非常繁瑣。如何能夠減少對標注數(shù)據(jù)的依賴一直是一個機器學習的重要研究方向。

回到先前的問題,既然視頻中的視覺和聲音之間存在著對應關系,那么是否可以用這個對應關系來解決數(shù)據(jù)的標注問題,從而減少對人工標注的依賴呢?DeepMind大膽的提出了這一設想,通過視覺和聲音的對應實現(xiàn)它們之間的互標注,不需要人工標注,就可以獲得大量的帶有自標注對應關系的聲音視覺樣本,提供給深度網(wǎng)絡進行訓練,從而實現(xiàn)視頻中相關事件的檢測識別。

方法


1540455999859b7947c71c8



數(shù)據(jù)

以上網(wǎng)絡通過如下的方式產(chǎn)生正負樣本對:負樣本對來自于兩段不同視頻中隨機選取的圖像幀和聲音片段,正樣本對來自于聲音片段和同一視頻中對應該聲音時間中點處的圖像幀。訓練數(shù)據(jù)集規(guī)模為40萬段時長為10秒的視頻,來自于Flickr-SoundNet和Kinetics-Sounds數(shù)據(jù)集。

實驗結果

15404559963591c914eb0d8


154045599801135808fe0c8


作者還給出了訓練聲音視覺對應網(wǎng)絡中得到的視覺子網(wǎng)絡和聲音子網(wǎng)絡模型在視覺分類和聲音分類任務中的性能,并與現(xiàn)有算法進行了比較。在聲音分類benchmark數(shù)據(jù)集ESC-50和DCASE上本文的聲音子網(wǎng)絡取得了最好的結果,如表2所示。圖像分類在benchmark數(shù)據(jù)集ImageNet上本文的視覺子網(wǎng)絡取得了與當前最好的自監(jiān)督學習算法相同的結果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通過以上網(wǎng)絡和學習方式,究竟學到了什么內(nèi)容?作者給出了直觀的實例,選取視覺子網(wǎng)絡pool4層響應最高的各類的5個樣本(圖3),并將對應的conv_2層響應熱力圖顯示出來(圖4),可見網(wǎng)絡能夠在視覺概念相關區(qū)域獲得高響應,表明學習是有效的,并且該網(wǎng)絡對聲音源具有定位能力。



結論與討論

本文利用聲音視覺對應關系提出了一種深度網(wǎng)絡,可免除對樣本的標注,通過自監(jiān)督學習,實現(xiàn)視頻內(nèi)容的檢測分類。實驗表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監(jiān)督算法持平。

本文算法在聲音分類上的優(yōu)異表現(xiàn)表明,視覺特征在聲音特征的相關性使其在描述聲音特征中起到了幫助作用。同時本文算法在圖像分類上的表現(xiàn)也表明聲音特征對圖像特征描述也存在有效的幫助。目前視覺特征僅采用了聲音片段對應的圖像序列中的一個采樣幀作為輸入,尚無法完全反映聲音和圖像之間在時間上的對應關系,如能利用聲音對應的整個圖像序列作為視覺輸入,將可能進一步利用聲音和視覺之間的并發(fā)性,提升模型效果。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8500

    瀏覽量

    134420
  • 視頻分析
    +關注

    關注

    0

    文章

    37

    瀏覽量

    11006
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領域的頂級學術會議,每兩年舉辦一次
    的頭像 發(fā)表于 07-03 13:58 ?158次閱讀

    同步電機失步淺析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:同步電機失步淺析.pdf【免責聲明】本文系網(wǎng)絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 06-20 17:42

    FK10-18S18E2C3 FK10-18S18E2C3

    電子發(fā)燒友網(wǎng)為你提供AIPULNION(AIPULNION)FK10-18S18E2C3相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有FK10-18S18E2C3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,F(xiàn)K10-18S18E2C3真值表,
    發(fā)表于 03-20 18:49
    FK10-<b class='flag-5'>18S18</b>E2C3 FK10-<b class='flag-5'>18S18</b>E2C3

    PFD6-18D18E2(C)3 PFD6-18D18E2(C)3

    電子發(fā)燒友網(wǎng)為你提供AIPULNION(AIPULNION)PFD6-18D18E2(C)3相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有PFD6-18D18E2(C)3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,PFD6-18D18E2(C
    發(fā)表于 03-20 18:47
    PFD6-<b class='flag-5'>18D18</b>E2(C)3 PFD6-<b class='flag-5'>18D18</b>E2(C)3

    FK6-18D18E2C3 FK6-18D18E2C3

    電子發(fā)燒友網(wǎng)為你提供AIPULNION(AIPULNION)FK6-18D18E2C3相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有FK6-18D18E2C3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,F(xiàn)K6-18D18E2C3真值表,F(xiàn)K6
    發(fā)表于 03-20 18:40
    FK6-<b class='flag-5'>18D18</b>E2C3 FK6-<b class='flag-5'>18D18</b>E2C3

    美報告:中國芯片研究論文全球領先

    論文方面同樣表現(xiàn)出色。 報告數(shù)據(jù)顯示,2018年至2023年間,全球發(fā)布約47.5萬篇與芯片設計和制造相關的論文。其中34%的論文有來自中國機構的作者參與,15%的論文有美國作者參與
    的頭像 發(fā)表于 03-05 14:32 ?1033次閱讀

    DeepMind創(chuàng)始人預計年內(nèi)有AI設計藥物進入臨床試驗

    近日,英國人工智能公司DeepMind的創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)透露,預計在今年年底前,將有人工智能(AI)設計的藥物進入臨床試驗階段。
    的頭像 發(fā)表于 01-24 15:46 ?2174次閱讀

    谷歌加速AI部門整合:AI Studio團隊并入DeepMind

    近日,谷歌正緊鑼密鼓地推進其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領英頁面上的透露,谷歌已將AI Studio團隊整體轉移至DeepMind
    的頭像 發(fā)表于 01-13 14:40 ?688次閱讀

    商湯科技徐立論文再獲“時間檢驗獎”

    十幾年前的論文為何還能獲獎?因為經(jīng)過了時間的檢驗。
    的頭像 發(fā)表于 12-12 10:23 ?631次閱讀

    NVIDIA Research在ECCV 2024上展示多項創(chuàng)新成果

    在米蘭舉行的歐洲計算機視覺國際會議 (ECCV) 上,NVIDIA Research 展示了多項突破性的創(chuàng)新成果,共發(fā)表了 14 篇論文
    的頭像 發(fā)表于 11-19 15:07 ?732次閱讀

    技術科普 | 芯片設計中的LEF文件淺析

    技術科普 | 芯片設計中的LEF文件淺析
    的頭像 發(fā)表于 11-13 01:03 ?736次閱讀
    技術科普 | 芯片設計中的LEF文件<b class='flag-5'>淺析</b>

    Nullmax視覺感知能力再獲國際頂級學術會議認可

    日前,歐洲計算機視覺國際會議 ECCV 2024公布論文錄用結果,Nullmax感知團隊的目標檢測論文《SimPB: A Single Model for 2D and 3D Object Detection from Mult
    的頭像 發(fā)表于 09-02 14:07 ?742次閱讀

    地平線科研論文入選國際計算機視覺頂會ECCV 2024

    近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?1446次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國際計算機視覺頂會<b class='flag-5'>ECCV</b> 2024

    ERAY (FlexRay) 模塊卡在INTEGRATION_LISTEN狀態(tài),為什么?

    的配置(我將附上 ErayDemo 和我的項目)。 通過調試,我得出結論:兩個模塊都卡在 INTEGRATION_LISTEN 狀態(tài)。 電氣連接圖片:
    發(fā)表于 07-24 06:54

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會議

    谷歌DeepMind一篇中了頂流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項研究。開源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?857次閱讀
    谷歌<b class='flag-5'>DeepMind</b>被曝抄襲開源成果,<b class='flag-5'>論文</b>還中了頂流會議
    主站蜘蛛池模板: www.夜夜骑| 成人国产亚洲欧美成人综合网 | 羞羞答答91麻豆网站入口 | 狠狠色噜噜狠狠狠狠米奇7777 | 你懂的福利 | 天堂视频在线免费观看 | 亚洲综合色视频 | 免费观看黄视频网站 | 国产小视频在线观看www | 国产精品臀控福利在线观看 | 美欧毛片 | 奇米影视777四色米奇影院 | 能看的黄网| 亚洲国产丝袜精品一区杨幂 | 手机在线观看你懂得 | 黄色网址日本 | 日本精品一卡二卡≡卡四卡 | 在线免费看黄视频 | 青草青草视频2免费观看 | 日本黄色美女视频 | 狠狠色噜噜狠狠狠狠奇米777 | 国产精品最新资源网 | 四虎永久在线视频 | 国产天天操 | 一区二区精品 | 久久的色偷偷 | 欧美一级视频免费 | 激情开心婷婷 | 日韩午夜免费 | 特黄色片| 午夜影视福利 | 成人欧美一区二区三区的电影 | 国产欧美另类第一页 | 91高清在线成人免费观看 | 国产一区二区丁香婷婷 | 8090yy理论三级在线观看 | 热久久久久久 | 很黄很黄叫声床戏免费视频 | 免费大片黄在线观看 | 大色综合色综合资源站 | 伊人久久大香线蕉观看 |