論文標題:
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
論文鏈接:https://arxiv.org/pdf/2309.03576
代碼鏈接:https://github.com/Haochen-Wang409/DropPos
今天介紹我們在自監督視覺預訓練領域的一篇原創工作,目前 DropPos 已被 NeurIPS 2023 接收,相關代碼已開源,有任何問題歡迎在 GitHub 提出。

TL;DR
我們提出了一種全新的自監督代理任務 DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings(PE),然后利用簡單的 cross-entropy loss 訓練模型,讓模型重建那些無 PE token 的位置信息。這個及其簡單的代理任務就能在多種下游任務上取得有競爭力的性能。

Motivation
在 MoCo v3 的論文中有一個很有趣的現象:ViT 帶與不帶 position embedding,在 ImageNet 上的分類精度相差無幾。
- 對比 CL,DropPos 不需要精心設計的數據增強(例如 multi-crop)。
- 對比 MIM,DropPos 不需要精心設計的掩碼策略和重建目標。

Method
- 如果簡單地把所有 PE 丟棄,讓模型直接重建每個 patch 的位置,會導致上下游的 discrepency。因為下游任務需要 PE,而上游預訓練的模型又完全沒見過 PE。
- ViT 對于 long-range 的建模能力很強,這個簡單的位置重建任務可能沒辦法讓模型學到非常 high-level 的語義特征。
-
看上去相似的不同 patch(例如純色的背景)的位置無需被精準重建,因此決定哪些 patch 的位置需要被重建非常關鍵。
- 針對問題一,我們采用了一個簡單的隨機丟棄策略。每次訓練過程中丟棄 75% 的 PE,保留 25% 的 PE。
- 針對問題二,我們采取了高比例的 patch mask,既能提高代理任務的難度,又能加快訓練的速度。
- 針對問題三,我們提出了 position smoothing 和 attentive reconstruction 的策略。
3.1 DropPos 前向過程
3.2 Objective
我們使用了一個最簡單的 cross-entropy loss 作為預訓練的目標函數:





Experiments
4.1 與其他方法的對比


4.2 消融實驗
本文主要有四個超參:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。

- 一般來說,更高的 position 重建精度會帶來更高的下游任務性能。
- 上述結論存在例外:當 sigma = 0 時,即不做位置平滑時,位置預測精度高,而下游任務表現反而低;當 tau = inf 時,即不做 attentive reconstruction 時,位置預測精度高,而下游表現反而低。
-
因此,過分關注于預測每一個 patch 的精確的位置,會導致局部最優,對于下游任務不利。
-
物聯網
+關注
關注
2927文章
46007瀏覽量
389231
原文標題:NeurIPS 2023 | 全新的自監督視覺預訓練代理任務:DropPos
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

從Open Model Zoo下載的FastSeg大型公共預訓練模型,無法導入名稱是怎么回事?
用PaddleNLP在4060單卡上實踐大模型預訓練技術

基于移動自回歸的時序擴散預測模型

知行科技大模型研發體系初見效果

《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型
KerasHub統一、全面的預訓練模型庫
時空引導下的時間序列自監督學習框架

直播預約 |數據智能系列講座第4期:預訓練的基礎模型下的持續學習

評論