在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2025-01-15 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景簡介

隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過處理后不可避免的會留下偽影(操作痕跡),這些偽影可分為語義和非語義特征。因此目前幾乎所有的圖像篡改檢測模型(IML)都遵循“語義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語義特征提取”相結(jié)合的設(shè)計,這種方法嚴重限制了模型在未知場景的偽影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

論文標題: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者單位:

四川大學(呂建成團隊),澳門大學

論文鏈接:

https://arxiv.org/abs/2412.14598

代碼鏈接:

https://github.com/scu-zjz/SparseViT

研究內(nèi)容

利用非語義信息往往在局部和全局之間保持一致性,同時相較于語義信息在圖像不同區(qū)域表現(xiàn)出更大的獨立性,SparseViT 提出了以稀疏自注意力為核心的架構(gòu),取代傳統(tǒng) Vision Transformer(ViT)的全局自注意力機制,通過稀疏計算模式,使得模型自適應(yīng)提取圖像篡改檢測中的非語義特征。

研究團隊在統(tǒng)一的評估協(xié)議下復現(xiàn)并對比多個現(xiàn)有的最先進方法,系統(tǒng)驗證了 SparseViT 的優(yōu)越性。同時,框架采用模塊化設(shè)計,用戶可以靈活定制或擴展模型的核心模塊,并通過可學習的多尺度監(jiān)督機制增強模型對多種場景的泛化能力。

此外,SparseViT 極大地降低了計算量(最高減少 80% 的 FLOPs),實現(xiàn)了參數(shù)效率與性能的兼顧,展現(xiàn)了其在多基準數(shù)據(jù)集上的卓越表現(xiàn)。SparseViT 有望為圖像篡改檢測領(lǐng)域的理論與應(yīng)用研究提供新視角,為后續(xù)研究奠定基礎(chǔ)。

SparseViT 總體架構(gòu)的設(shè)計概覽圖如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖1:SparseViT 總體架構(gòu)

主要的組件包含:

1. 負責高效特征捕獲的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心組件,專注于在減少計算復雜度的同時高效捕獲篡改圖像中的關(guān)鍵特征即非語義特征。傳統(tǒng)的自注意力機制由于 patch 進行 token-to-token 的注意力計算,導致模型對語義信息過度擬合,使得非語義信息在受到篡改后表現(xiàn)出的局部不一致性被忽視。 為此,Sparse Self-Attention 提出了基于稀疏編碼的自注意力機制,如圖 2 所示,通過對輸入特征圖施加稀疏性約束,設(shè)輸入的特征圖 ,我們不是對 的整個特征上應(yīng)用注意力,而是將特征分成形狀為的張量塊,表示將特征圖分解為 個大小為的不重疊的張量塊,分別在這些張量塊上進行自注意力計算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖2:稀疏自注意力

這一機制通過對特征圖進行區(qū)域劃分,使模型在訓練中專注于非語義特征的提取,提升了對圖像篡改偽影的捕捉能力。相比傳統(tǒng)自注意力,Sparse Self-Attention 減少了約 80% 的 FLOPs,同時保留了高效的特征捕獲能力,特別是在復雜場景中表現(xiàn)卓越。模塊化的實現(xiàn)方式還允許用戶根據(jù)需求對稀疏策略進行調(diào)整,從而滿足不同任務(wù)的需求。

2. 負責多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模塊,旨在通過多尺度特征融合機制提高模型的泛化能力和對復雜場景的適應(yīng)性。不同于傳統(tǒng)的固定規(guī)則特征融合方法,LFF 模塊通過引入可學習參數(shù),動態(tài)調(diào)整不同尺度特征的重要性,從而增強了模型對圖像篡改偽影的敏感度。

LFF 通過從稀疏自注意力模塊輸出的多尺度特征中學習特定的融合權(quán)重,優(yōu)先強化與篡改相關(guān)的低頻特征,同時保留語義信息較強的高頻特征。模塊設(shè)計充分考慮了 IML 任務(wù)的多樣化需求,既能針對微弱的非語義偽影進行細粒度處理,又能適應(yīng)大尺度的全局特征提取。

LFF 的引入顯著提升了 SparseViT 在跨場景、多樣化數(shù)據(jù)集上的性能,同時減少了無關(guān)特征對模型的干擾,為進一步優(yōu)化 IML 模型性能提供了靈活的解決方案。

研究總結(jié)

簡而言之,SparseViT 具有以下四個貢獻:

1. 我們揭示了篡改圖像的語義特征需要連續(xù)的局部交互來構(gòu)建全局語義,而非語義特征由于其局部獨立性,可以通過稀疏編碼實現(xiàn)全局交互。

2. 基于語義和非語義特征的不同行為,我們提出使用稀疏自注意機制自適應(yīng)地從圖像中提取非語義特征。

3. 為了解決傳統(tǒng)多尺度融合方法的不可學習性,我們引入了一種可學習的多尺度監(jiān)督機制。

4. 我們提出的 SparseViT 在不依賴手工特征提取器的情況下保持了參數(shù)效率,并在四個公共數(shù)據(jù)集上實現(xiàn)了最先進的(SoTA)性能和出色的模型泛化能力。

SparseViT 通過利用語義特征和非語義特征之間的差異性,使模型能夠自適應(yīng)地提取在圖像篡改定位中更為關(guān)鍵的非語義特征,為篡改區(qū)域的精準定位提供了全新的研究思路。

相關(guān)代碼和操作文檔、使用教程已完全開源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。該代碼有著完善的更新計劃,倉庫將被長期維護,歡迎全球研究者使用和提出改進意見。

SparseViT 的主要科研成員來自四川大學呂建成團隊,合作方為澳門大學潘治文教授團隊。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41132
  • IML
    IML
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    11572
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6465

原文標題:AAAI 2025 | SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解

    小型數(shù)據(jù)中心的定義與應(yīng)用 小型數(shù)據(jù)中心通常是中小型企業(yè)、邊緣計算、物聯(lián)網(wǎng)(IoT)設(shè)備及其他特定業(yè)務(wù)需求提供計算、存儲和網(wǎng)絡(luò)服務(wù)的設(shè)施。與大型數(shù)據(jù)中心相比,小型數(shù)據(jù)
    發(fā)表于 06-11 13:37

    奇瑞汽車整合相關(guān)業(yè)務(wù)成立智能中心

    加快推進智能戰(zhàn)略,奇瑞汽車于近日將旗下子公司雄獅科技、大卓智能與研發(fā)總院相關(guān)業(yè)務(wù)進行整合,統(tǒng)一成立“奇瑞智能中心”。奇瑞智能
    的頭像 發(fā)表于 06-04 15:29 ?316次閱讀

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    的Cartographer以其高效的子地圖管理和回環(huán)檢測能力著稱。書中通過實例演示了如何配置Cartographer的Lua參數(shù)文件,適應(yīng)不同場景。 在真實機器人測試中,運動噪聲(如輪子打滑)可能導致建圖漂移,因此需要
    發(fā)表于 05-03 19:41

    融媒體IP新標桿:千視助力武威市融媒體中心打造全新遺直播體驗

    遺文化的獨特風采,更是融媒體IP轉(zhuǎn)型的標桿案例,傳統(tǒng)文化的音視頻傳播開辟了全新路徑。1大規(guī)模遺直播的挑戰(zhàn)隨著遺直播活動的蓬勃發(fā)展,直播場地的擴大和信號數(shù)量
    的頭像 發(fā)表于 03-11 19:58 ?379次閱讀
    融媒體IP<b class='flag-5'>化</b>新標桿:千視助力武威市融媒體<b class='flag-5'>中心</b>打造全新<b class='flag-5'>非</b>遺直播體驗

    OpenVINO? Toolkit中如何保持模型稀疏性?

    OpenVINO? Toolkit 中支持的優(yōu)化方法,保持模型稀疏性。
    發(fā)表于 03-06 06:47

    華為發(fā)布AI中心的網(wǎng)絡(luò)解決方案

    在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為董事、ICT BG CEO楊超斌發(fā)布了AI中心的網(wǎng)絡(luò)解決方案(AI-Centric Network)。
    的頭像 發(fā)表于 03-05 10:02 ?491次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關(guān)系時變得高效。因此 Vaswani 等人的論文強調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?3846次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    王欣然教授團隊提出基于二維材料的高效稀疏神經(jīng)網(wǎng)絡(luò)硬件方案

    。 ? 稀疏性 (Sparsity)?是人腦中的神經(jīng)突觸的本征屬性。在大腦發(fā)育過程中,超過一半的突觸會細粒度和結(jié)構(gòu)的方式被剪枝?(Pruning),這是人腦具有高能效的關(guān)鍵因素。
    的頭像 發(fā)表于 01-13 10:41 ?511次閱讀
    王欣然教授團隊提出基于二維材料的<b class='flag-5'>高效</b><b class='flag-5'>稀疏</b>神經(jīng)網(wǎng)絡(luò)硬件方案

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預示著將視覺表征學習轉(zhuǎn)換為線性復雜度視覺序列表征學習具有巨大的潛力。盡管Vision Mamba代表的線性視覺
    的頭像 發(fā)表于 01-08 09:33 ?584次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網(wǎng)絡(luò)

    港大提出SparX:強化Vision Mamba和Transformer稀疏跳躍連接機制

    本文分享香港大學計算和數(shù)據(jù)科學學院俞益洲教授及其研究團隊發(fā)表于 AAAI 2025 的論文——SparX,一種強化 Vision Mamba 和 Transformer稀疏跳躍連接機制,性能強大
    的頭像 發(fā)表于 01-03 09:28 ?653次閱讀
    港大提出SparX:強化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳躍連接機制

    利用VLM和MLLMs實現(xiàn)SLAM語義增強

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺
    的頭像 發(fā)表于 12-05 10:00 ?1250次閱讀
    利用VLM和MLLMs實現(xiàn)SLAM<b class='flag-5'>語義</b>增強

    使用ReMEmbR實現(xiàn)機器人推理與行動能力

    視覺語言模型(VLM)通過將文本和圖像投射到同一個嵌入空間,將基礎(chǔ)大語言模型(LLM)強大的語言理解能力與視覺 transformer(ViT)的視覺能力相結(jié)合。VLM 可以處理
    的頭像 發(fā)表于 11-19 15:37 ?817次閱讀
    使用ReMEmbR實現(xiàn)機器人推理與行動能力

    使用語義線索增強局部特征匹配

    視覺匹配是關(guān)鍵計算機視覺任務(wù)中的關(guān)鍵步驟,包括攝像機定位、圖像配準和運動結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點的技術(shù)包括使用經(jīng)過學習的稀疏或密集匹配器,這需要成對的圖像。這些神經(jīng)網(wǎng)絡(luò)對兩幅圖像的特征有很好的總體理解,但它們經(jīng)常難以匹配不同
    的頭像 發(fā)表于 10-28 09:57 ?838次閱讀
    使用<b class='flag-5'>語義</b>線索增強局部特征匹配

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學圖像分析、機器人導航等。 一、圖像語義分割的基
    的頭像 發(fā)表于 07-17 09:56 ?875次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學習的一種核心模型,在圖像分割與語義分割中發(fā)揮著至關(guān)重要的
    的頭像 發(fā)表于 07-09 11:51 ?1912次閱讀
    主站蜘蛛池模板: www.五月婷婷.com | 欧美黄色片在线 | 婷婷了五月色香综合缴情 | 99成人国产精品视频 | 色婷婷精品大全在线视频 | 天堂网在线www最新版在线 | 婷婷6月 | 最新欧美精品一区二区三区 | 日本www黄| 一级特黄aaa大片在线观看视频 | 韩国电影天堂网 | 1024你懂的国产在线播放 | 国产精品成人观看视频国产奇米 | 最近2018年中文字幕大全一 | 国产高清色播视频免费看 | 8天堂资源在线 | 天天天狠天天透天天制色 | 亚洲乱码卡一卡二卡三永久 | 四虎免费永久观看 | 特级免费毛片 | 伊人不卡久久大香线蕉综合影院 | 丁香婷婷基地 | 99青草| 亚洲一区二区视频在线观看 | 国产黄色小视频网站 | 天天做天天爱天天综合网2021 | 天天操天天射天天舔 | 国产精品久久精品福利网站 | 在线资源天堂 | 67194最新网址 | 天天艹夜夜艹 | 欧美成人全部免费观看1314色 | 天天视频观看 | 农村女人的一级毛片 | 一级做a爱片特黄在线观看免费看 | 欧美爱爱网址 | 深夜性久久| 午夜看一级特黄a大片 | 亚洲国产午夜看片 | 天天色踪合合 | 熊出没之环球大冒险旧版免费观看 |