
在機(jī)器學(xué)習(xí)領(lǐng)域中,學(xué)習(xí)不平衡的標(biāo)注數(shù)據(jù)一直是一個(gè)常見而具有挑戰(zhàn)性的任務(wù)。近年來(lái),視覺(jué) Transformer 作為一種強(qiáng)大的模型,在多個(gè)視覺(jué)任務(wù)上展現(xiàn)出令人滿意的效果。然而,視覺(jué) Transformer 處理長(zhǎng)尾分布數(shù)據(jù)的能力和特性,還有待進(jìn)一步挖掘。
目前,已有的長(zhǎng)尾識(shí)別模型很少直接利用長(zhǎng)尾數(shù)據(jù)對(duì)視覺(jué) Transformer(ViT)進(jìn)行訓(xùn)練。基于現(xiàn)成的預(yù)訓(xùn)練權(quán)重進(jìn)行研究可能會(huì)導(dǎo)致不公平的比較結(jié)果,因此有必要對(duì)視覺(jué) Transformer 在長(zhǎng)尾數(shù)據(jù)下的表現(xiàn)進(jìn)行系統(tǒng)性的分析和總結(jié)。
論文鏈接:
https://arxiv.org/abs/2212.02015代碼鏈接:
https://github.com/XuZhengzhuo/LiVT 本文旨在填補(bǔ)這一研究空白,詳細(xì)探討了視覺(jué) Transformer 在處理長(zhǎng)尾數(shù)據(jù)時(shí)的優(yōu)勢(shì)和不足之處。本文將重點(diǎn)關(guān)注如何有效利用長(zhǎng)尾數(shù)據(jù)來(lái)提升視覺(jué) Transformer 的性能,并探索解決數(shù)據(jù)不平衡問(wèn)題的新方法。通過(guò)本文的研究和總結(jié),研究團(tuán)隊(duì)有望為進(jìn)一步改進(jìn)視覺(jué) Transformer 模型在長(zhǎng)尾數(shù)據(jù)任務(wù)中的表現(xiàn)提供有益的指導(dǎo)和啟示。這將為解決現(xiàn)實(shí)世界中存在的數(shù)據(jù)不平衡問(wèn)題提供新的思路和解決方案。 文章通過(guò)一系列實(shí)驗(yàn)發(fā)現(xiàn),在有監(jiān)督范式下,視覺(jué) Transformer 在處理不平衡數(shù)據(jù)時(shí)會(huì)出現(xiàn)嚴(yán)重的性能衰退,而使用平衡分布的標(biāo)注數(shù)據(jù)訓(xùn)練出的視覺(jué) Transformer 呈現(xiàn)出明顯的性能優(yōu)勢(shì)。相比于卷積網(wǎng)絡(luò),這一特點(diǎn)在視覺(jué) Transformer 上體現(xiàn)的更為明顯。另一方面,無(wú)監(jiān)督的預(yù)訓(xùn)練方法無(wú)需標(biāo)簽分布,因此在相同的訓(xùn)練數(shù)據(jù)量下,視覺(jué) Transformer 可以展現(xiàn)出類似的特征提取和重建能力。 基于以上觀察和發(fā)現(xiàn),研究提出了一種新的學(xué)習(xí)不平衡數(shù)據(jù)的范式,旨在讓視覺(jué) Transformer 模型更好地適應(yīng)長(zhǎng)尾數(shù)據(jù)。通過(guò)這種范式的引入,研究團(tuán)隊(duì)希望能夠充分利用長(zhǎng)尾數(shù)據(jù)的信息,提高視覺(jué) Transformer 模型在處理不平衡標(biāo)注數(shù)據(jù)時(shí)的性能和泛化能力。





同時(shí),本文還驗(yàn)證了在相同的訓(xùn)練數(shù)據(jù)規(guī)模的情況下,使用ImageNet的長(zhǎng)尾分布子集(LT)和平衡分布子集(BAL)訓(xùn)練的 ViT-B 模型展現(xiàn)出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 數(shù)據(jù)集中,可以通過(guò)更大的模型和 MGP epoch 獲得更好的重建結(jié)果。


總結(jié)
本文提供了一種新的基于視覺(jué) Transformer 處理不平衡數(shù)據(jù)的方法 LiVT。LiVT 利用掩碼建模和平衡微調(diào)兩個(gè)階段的訓(xùn)練策略,使得視覺(jué) Transformer 能夠更好地適應(yīng)長(zhǎng)尾數(shù)據(jù)分布并學(xué)習(xí)到更通用的特征表示。該方法不僅在實(shí)驗(yàn)中取得了顯著的性能提升,而且無(wú)需額外的數(shù)據(jù),具有實(shí)際應(yīng)用的可行性。 論文的更多細(xì)節(jié)請(qǐng)參考論文原文和補(bǔ)充材料。
原文標(biāo)題:CVPR 2023 | 清華大學(xué)提出LiVT,用視覺(jué)Transformer學(xué)習(xí)長(zhǎng)尾數(shù)據(jù)
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2927文章
45794瀏覽量
387143
原文標(biāo)題:CVPR 2023 | 清華大學(xué)提出LiVT,用視覺(jué)Transformer學(xué)習(xí)長(zhǎng)尾數(shù)據(jù)
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
從清華大學(xué)到鎵未來(lái)科技,張大江先生在半導(dǎo)體功率器件十八年的堅(jiān)守!
清華大學(xué)攜手華為打造業(yè)內(nèi)首個(gè)園區(qū)網(wǎng)絡(luò)智能體
2025年開放原子校源行清華大學(xué)站成功舉辦
奇瑞汽車攜手清華大學(xué)發(fā)布“分體式飛行汽車”專利
清華大學(xué)鯤鵬昇騰科教創(chuàng)新卓越中心專項(xiàng)合作啟動(dòng),引領(lǐng)高校科研和人才培養(yǎng)新模式
清華大學(xué)與華為啟動(dòng)“卓越中心”專項(xiàng)合作
清華大學(xué)自動(dòng)化系學(xué)子走進(jìn)華礪智行研學(xué)交流
清華大學(xué)DeepSeek指南:從入門到精通

清華大學(xué)師生到訪智行者科技交流學(xué)習(xí)
博世與清華大學(xué)續(xù)簽人工智能研究合作協(xié)議
京微齊力受邀參加2024年清華大學(xué)工程博士論壇
英諾達(dá)與清華大學(xué)攜手,共促國(guó)產(chǎn)EDA進(jìn)步
熱烈歡迎清華大學(xué)電子工程系學(xué)子來(lái)武漢六博光電交流實(shí)踐!

易華錄無(wú)錫數(shù)據(jù)湖與清華大學(xué)蘇州汽車研究院(吳江)合作挖掘智能駕駛數(shù)據(jù)新價(jià)值
世界首款!又是清華:類腦互補(bǔ)視覺(jué)芯片“天眸芯”

評(píng)論