在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023論文總結(jié)!CV最熱領(lǐng)域頒給多模態(tài)、擴(kuò)散模型

OpenCV學(xué)堂 ? 來源:新智元 ? 2023-05-24 15:25 ? 次閱讀

【導(dǎo)讀】CVPR 2023有哪些亮點?從錄用論文中我們又能看到CV領(lǐng)域有哪些趨勢?

一年一度的CVPR即將在6月18-22日加拿大溫哥華正式開幕。

每年,來自世界各地的成千上萬的CV研究人員和工程師聚集在一起參加頂會。這個久負(fù)盛名的會議可以追溯到1983年,它代表了計算機(jī)視覺發(fā)展的巔峰。

目前,CVPR的h5指數(shù)所有會議或出版物中位列第四,僅次于《自然》、《科學(xué)》和《新英格蘭醫(yī)學(xué)雜志》。

e4a2cecc-f8f4-11ed-90ce-dac502259ad0.png

前段時間,CVPR公布了論文接收結(jié)果。根據(jù)官網(wǎng)上統(tǒng)計數(shù)據(jù),一共接受論文9155篇,錄用2359篇,接受率為25.8%。

此外,還公布了12篇獲獎候選論文。

那么,今年的CVPR有哪些亮點?從錄用論文中我們又能看到CV領(lǐng)域有哪些趨勢?

接下來一并揭曉。

CVPR一覽

初創(chuàng)公司Voxel51就所有被接收論文列表中進(jìn)行了分析。

先來整體看一張論文標(biāo)題的匯總圖,每個字的大小與數(shù)據(jù)集中出現(xiàn)的頻率成正比。

簡要說明

- 2359篇論文被接收(9155份論文提交)

- 1724篇Arxiv論文

- 68份文件提交到其他地址

每篇論文的作者

- CVPR論文的平均作者約為5.4人

- 論文當(dāng)中作者最多的是: 「Why is the winner the best?」有125位作者

- 有13篇論文只有一個作者。

主要Arxiv分類

在1724篇Arxiv論文中,有1545篇,或者說接近90%的論文將cs.CV列為主要類別。

cs.LG位列第二,有101篇。eess.IV (26)和 cs.RO (16)也分得一杯羹。

CVPR 論文的其他類別包括: cs.HC,cs.CV,cs.AR,cs.DC,cs.NE,cs.SD,cs.CL,cs.IT,cs.CR,cs.AI,cs.MM,cs.GR,eess.SP,eess.AS,math.OC,math.NT,physics.data-an和stat.ML。

「Meta」數(shù)據(jù)

- 「數(shù)據(jù)集」和「模型」這2個詞共同出現(xiàn)在567篇摘要中。「數(shù)據(jù)集」在265篇論文摘要中單獨出現(xiàn),而「模型」則單獨出現(xiàn)了613次。只有16.2%的 CVPR接收論文沒有包含這兩個詞。

- 根據(jù)CVPR論文摘要,今年最受歡迎的數(shù)據(jù)集是ImageNet(105),COCO(94),KITTI(55)和CIFAR(36)。

- 28篇論文提出了一個新的「基準(zhǔn)」。

縮寫詞比比皆是

似乎沒有首字母縮略詞就沒有機(jī)器學(xué)習(xí)項目。2359篇論文中,1487篇的標(biāo)題有多個大寫字母的縮略詞或復(fù)合詞,占比63%。

這些首字母縮略詞中有一些很容易記住,甚至可以脫口而出:

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

有些則要復(fù)雜得多:

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

他們中的一些人似乎在首字母縮略詞構(gòu)建上借鑒了別人的創(chuàng)意

- SCOTCH and SODA: A Transformer Video Shadow Detection Framework(荷蘭流行潮牌Scotch & Soda)

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration(Ex咖喱棒,笑)

什么最熱?

除了2023年的論文標(biāo)題,我們抓取了2022年所有接受的論文標(biāo)題。從這兩個列表中,我們計算了各種關(guān)鍵詞的相對頻率,從讓大家對什么是上升趨勢、什么是下降趨勢有更深入的了解。

模型

2023年,擴(kuò)散模型(Diffusion models)占據(jù)了主導(dǎo)地位。

e4d05e00-f8f4-11ed-90ce-dac502259ad0.png

擴(kuò)散模型

隨著Stable Diffusion和Midjourney等圖像生成模型的走紅,擴(kuò)散模型發(fā)展的火熱趨勢也就不足為奇了。

擴(kuò)散模型在去噪、圖像編輯和風(fēng)格轉(zhuǎn)換方面也有應(yīng)用。把所有這些加起來,到目前為止,它是所有類別中最大的贏家,比去年同期增長了573% 。

輻射場

神經(jīng)輻射場(NERF)也越來越受歡迎,論文中使用單詞「radiance」增加了80% ,「NERF」增加了39% 。NeRF已經(jīng)從概念驗證轉(zhuǎn)向編輯、應(yīng)用和訓(xùn)練過程優(yōu)化。

Transformers

「Transformer」和「ViT」的使用率下降并不意味著Transformer模型過時,而是反映了這些模型在2022年的主導(dǎo)地位。2021年,「Transformer」這個詞只出現(xiàn)在37篇論文中。2022年,這個數(shù)字飆升至201。Transformer不會很快消失。

CNN

CNN曾經(jīng)是計算機(jī)視覺的寵兒,到了2023年,似乎失去了它們的優(yōu)勢,使用率下降了68%。許多提到 CNN 的標(biāo)題也提到了其他模型。例如,這些論文提到了CNN和Transformer:

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- Learned Image Compression with Mixed Transformer-CNN Architectures

任務(wù)

掩碼任務(wù)和掩碼圖像建模相結(jié)合,在CVPR中占據(jù)了主導(dǎo)地位。

e4db6624-f8f4-11ed-90ce-dac502259ad0.png

生成

傳統(tǒng)的判別任務(wù),如檢測、分類和分割并沒有失寵,但是由于生成應(yīng)用的一系列進(jìn)步,它們在CV的份額正在縮小,包括「編輯」、「合成」以及「生成」的上升就證明這點。

掩碼

關(guān)鍵字「mask」比去年同期增長了263% ,在2023年被接收的論文中出現(xiàn)了92次,有時在一個標(biāo)題中出現(xiàn)了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask

但大多數(shù)(64%)實際上指的是「掩碼」任務(wù),包括8個「掩碼圖像建模」和15個「掩碼自動編碼器」任務(wù)。此外,還有8篇出現(xiàn)「掩碼」。

同樣值得注意的是,3篇帶有單詞「mask」的論文標(biāo)題實際上指的是「無掩碼」任務(wù)。

零樣本vs小樣本

隨著遷移學(xué)習(xí)、生成方法、提示和通用模型的興起,「零樣本」學(xué)習(xí)正在獲得關(guān)注。與此同時,「小樣本」學(xué)習(xí)比去年有所下降。然而,就原始數(shù)字而言,至少目前而言,「小樣本」(45)比「零樣本」(35)略有優(yōu)勢。

模態(tài)

2023年,多模態(tài)和跨模態(tài)應(yīng)用加速發(fā)展。

e4f291fa-f8f4-11ed-90ce-dac502259ad0.png

邊界模糊

雖然傳統(tǒng)計算機(jī)視覺關(guān)鍵詞如「圖像」和「視頻」的頻率相對保持不變,但「文本」/「語言」和「音頻」出現(xiàn)的頻率更高。

即使「多模態(tài)」這個詞本身沒有在論文標(biāo)題中出現(xiàn),也很難否認(rèn)計算機(jī)視覺正在走向多模態(tài)的未來。

這在視覺-語言任務(wù)中尤其明顯,正如「開放」、「提示」和「詞匯」的急劇上升所表明的那樣。

這種情況最極端的例子是「開放詞匯」這個復(fù)合詞,它在2022年只出現(xiàn)了3次,但在2023年出現(xiàn)了18次。

e50320d8-f8f4-11ed-90ce-dac502259ad0.png

深入挖掘CVPR 2023論文標(biāo)題中的關(guān)鍵詞

點云9

三維計算機(jī)視覺應(yīng)用正在從以二維圖像推斷3D信息(「深度」和「立體」)轉(zhuǎn)向直接在3D點云數(shù)據(jù)上進(jìn)行工作的計算機(jī)視覺系統(tǒng)。

CV標(biāo)題的創(chuàng)造力

如果不將ChatGPT納入其中,2023年任何與機(jī)器學(xué)習(xí)相關(guān)的全面報道都是不完整的。我們決定讓事情變得有趣,并使用ChatGPT來尋找CVPR 2023中最有創(chuàng)意的標(biāo)題。

對于每一篇上傳到Arxiv的論文,我們抓取了摘要,并要求 ChatGPT (GPT-3.5 API)為相應(yīng)的CVPR論文生成一個標(biāo)題。

然后,我們將這些由ChatGPT生成的標(biāo)題和實際的論文標(biāo)題,使用OpenAI的text-embedding-ada-002模型生成嵌入向量,并計算ChatGPT生成的標(biāo)題和作者生成的標(biāo)題之間的余弦相似度。

這可以告訴我們什么?ChatGPT越接近實際的論文標(biāo)題,這個標(biāo)題就越可預(yù)測。換句話說,ChatGPT的預(yù)測越「偏」,作者給論文命名的「創(chuàng)造性」就越強(qiáng)。

嵌入和余弦相似度為我們提供了一個有趣的,盡管遠(yuǎn)非完美的,量化方法。

我們按照這個指標(biāo)對論文進(jìn)行了排序。話不多說,下面是最具創(chuàng)造性的標(biāo)題:

實際的標(biāo)題:Tracking Every Thing in the Wild

預(yù)測的標(biāo)題:Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

實際的標(biāo)題:Learning to Bootstrap for Combating Label Noise

預(yù)測的標(biāo)題:Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

實際的標(biāo)題:Seeing a Rose in Five Thousand Ways

預(yù)測的標(biāo)題:Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

實際的標(biāo)題:Why is the winner the best?

預(yù)測的標(biāo)題:Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2021

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3371

    瀏覽量

    49293
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1701

    瀏覽量

    46168
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1210

    瀏覽量

    24858

原文標(biāo)題:CVPR 2023論文總結(jié)!CV最熱領(lǐng)域頒給多模態(tài)、擴(kuò)散模型

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗】2.具身智能機(jī)器人大模型

    中取得了令人矚目的效果。 閱讀感悟 從傳統(tǒng)的手動編程到借助大模型實現(xiàn)智能化、自主化,從單一模態(tài)的交互到模態(tài)信息的深度融合,再到擴(kuò)散
    發(fā)表于 12-29 23:04

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?382次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言
    的頭像 發(fā)表于 12-03 15:18 ?231次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

    一文理解模態(tài)大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)大語言模型論文和博客,在此基礎(chǔ)上,推薦了一篇解
    的頭像 發(fā)表于 12-02 18:29 ?505次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——上

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?725次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?602次閱讀

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實現(xiàn)了對圖像內(nèi)容的精準(zhǔn)理解,標(biāo)志著Met
    的頭像 發(fā)表于 09-27 11:44 ?460次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨運的山海模態(tài)
    的頭像 發(fā)表于 08-27 15:20 ?446次閱讀

    依圖模態(tài)模型伙伴CTO精研班圓滿舉辦

    模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日, “依圖科技模態(tài)模型伙伴CTO精研班”在杭州圓滿舉辦,讓更多的伙伴們深度體驗了依圖
    的頭像 發(fā)表于 07-23 15:16 ?490次閱讀

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對于大型語言
    的頭像 發(fā)表于 06-07 09:17 ?844次閱讀

    人大系初創(chuàng)公司智子引擎發(fā)布全新模態(tài)模型Awaker 1.0

    人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代模態(tài)模型Awaker 1.0,這一里程碑式的成果標(biāo)志著公司在通用人工智能(AGI)領(lǐng)域取得了重要突破。與前代ChatImg序列
    的頭像 發(fā)表于 05-06 09:59 ?683次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI
    發(fā)表于 04-18 17:01 ?673次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>

    蘋果發(fā)布300億參數(shù)MM1模態(tài)模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態(tài)模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的
    的頭像 發(fā)表于 03-19 11:19 ?971次閱讀

    螞蟻集團(tuán)推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成,是迄今為止國際上參數(shù)規(guī)模
    的頭像 發(fā)表于 03-04 11:22 ?907次閱讀
    主站蜘蛛池模板: 国产一级做a爰片久久毛片男 | 性做久久久久久久免费观看 | 欲色影视香色天天影视来 | 女性一级全黄生活片在线播放 | 欧美一级鲁丝片 | 男女在线观看视频 | 2018国产精品 | 都市激情亚洲综合 | 久久亚洲国产欧洲精品一 | 成人精品福利 | 亚洲成a人伦理 | 深爱激情成人 | 成人欧美网站 | 永久免费看毛片 | 午夜1000集| 亚洲卡1卡2卡新区网站 | 成人伊人亚洲人综合网站222 | 日本免费不卡一区 | ts人妖国产一区 | 天天爽夜夜爽每晚高澡 | 孩交精品xxxx视频视频 | 亚洲性影院 | bt 另类 专区 欧美 制服 | 综合久久婷婷 | 亚洲男人天堂2020 | 婷婷激情小说 | 午夜女同影院 | 国产精品三区四区 | 色播视频网站 | h视频免费看 | 久久久久性 | 美女操网站 | 亚洲人成电影在线观看网 | 嘿嘿嘿视频在线观看 | 国产在线干 | 精品精品国产高清a毛片牛牛 | 中文字幕v视界影院 | 免费国产一区二区三区 | 三级网址在线播放 | 欧美国产黄色 | 卡2卡三卡四卡精品公司 |