Abstract
最近關(guān)于遙感物體檢測(cè)的研究主要集中在改進(jìn)旋轉(zhuǎn)包圍框的表示方法上,但忽略了遙感場(chǎng)景中出現(xiàn)的獨(dú)特的先驗(yàn)知識(shí)。這種先驗(yàn)知識(shí)是非常重要的,因?yàn)槲⑿〉倪b感物體可能會(huì)在沒有參考足夠長(zhǎng)距離背景的情況下被錯(cuò)誤地檢測(cè)出來,而不同類型的物體所要求的長(zhǎng)距離背景可能會(huì)有所不同。在本文中,我們將這些先驗(yàn)因素考慮在內(nèi),并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以動(dòng)態(tài)地調(diào)整其大空間感受野,以更好地建模遙感場(chǎng)景中各種物體的測(cè)距的場(chǎng)景。據(jù)我們所知,這是首次在遙感物體檢測(cè)領(lǐng)域探索大選擇性卷積核機(jī)制的工作。在沒有任何附加條件的情況下,我們LSKNet比主流檢測(cè)器輕量的多,而且在多個(gè)數(shù)據(jù)集上刷新了SOTA!HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP)。
Introduction
近期很少有工作考慮到遙感圖像中存在的強(qiáng)大的先驗(yàn)知識(shí)。航空?qǐng)D像通常是以高分辨率的鳥瞰視角拍攝的。特別是,航空?qǐng)D像中的大多數(shù)物體可能是小尺寸的,僅憑其外觀很難識(shí)別。相反,這些物體的成功識(shí)別往往依賴于它們的背景,因?yàn)橹車沫h(huán)境可以提供關(guān)于它們的形狀、方向和其他特征的寶貴線索。根據(jù)對(duì)主流遙感數(shù)據(jù)集的分析,我們確定了兩個(gè)重要的前提條件:
(1)準(zhǔn)確檢測(cè)遙感圖像中的物體往往需要廣泛的背景信息。
如圖1(a)所示,遙感圖像中的物體檢測(cè)器所使用的有限范圍的背景往往會(huì)導(dǎo)致錯(cuò)誤的分類。例如,在上層圖像中,由于其典型特征,檢測(cè)器可能將T子路口歸類為十字路口,但實(shí)際上,它不是一個(gè)十字交路口。同樣,在下圖中,由于大樹的存在,檢測(cè)器可能將十字路口歸類為非路口,但這也是不正確的。這些錯(cuò)誤的發(fā)生是因?yàn)闄z測(cè)器只考慮了物體附近的有限的上下文信息。在圖1(b)中的船舶和車輛的例子中也可以看到類似的情況。
(2) 不同類型的物體所需的上下文信息的范圍非常不同。如圖2所示,在遙感圖像中進(jìn)行準(zhǔn)確的物體檢測(cè)所需的背景信息量會(huì)因被檢測(cè)物體的類型而有很大不同。例如,足球場(chǎng)可能需要相對(duì)較少的額外環(huán)境信息,因?yàn)樗歇?dú)特的可區(qū)分的球場(chǎng)邊界線。相比之下,環(huán)島可能需要更大范圍的上下文信息,以區(qū)分花園和環(huán)形建筑。交叉口,特別是那些部分被樹木覆蓋的交叉口,由于相交道路之間的長(zhǎng)距離依賴性,往往需要一個(gè)非常大的感受野。這是因?yàn)闃淠竞推渌系K物的存在會(huì)使人們難以僅僅根據(jù)外觀來識(shí)別道路和交叉口本身。其他物體類別,如橋梁、車輛和船舶,也可能需要不同規(guī)模的感受野,以便被準(zhǔn)確檢測(cè)和分類。
因?yàn)檫@些圖像往往需要廣泛和動(dòng)態(tài)的背景信息,我們提出了一種新的方法,稱為L(zhǎng)arge Selective Kernel Network(LSKNet)。我們的方法包括動(dòng)態(tài)調(diào)整特征提取骨干的感受野,以便更有效地處理被檢測(cè)物體的不同的廣泛背景。這是通過一個(gè)空間選擇機(jī)制來實(shí)現(xiàn)的,該機(jī)制對(duì)一連串的大depth-wise卷積核所處理的特征進(jìn)行有效加權(quán),然后在空間上將它們合并。這些核的權(quán)重是根據(jù)輸入動(dòng)態(tài)確定的,允許該模型自適應(yīng)地使用不同的大核,并根據(jù)需要調(diào)整空間中每個(gè)目標(biāo)的感受野。據(jù)我們所知,我們提出的LSKNet是第一個(gè)研究和討論在遙感物體探測(cè)中使用大的和有選擇性的卷積核的模型。盡管我們的模型很簡(jiǎn)單,但在三個(gè)流行的數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP),超過了之前公布的結(jié)果。此外,我們實(shí)驗(yàn)證明了我們模型的行為與上述兩個(gè)先驗(yàn)假設(shè)的一致性。
Method
LSKNet Architecture
圖3展示了一個(gè)LSKNet Bolck的圖示,是主干網(wǎng)中的一個(gè)重復(fù)塊,其靈感來自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每個(gè)LSKNet塊由兩個(gè)剩余子塊組成:大核選擇(LK Selection)子塊和前饋網(wǎng)絡(luò)(FFN)子塊。LK選擇子塊根據(jù)需要?jiǎng)討B(tài)地調(diào)整網(wǎng)絡(luò)的感受野。前饋網(wǎng)絡(luò)子塊用于通道混合和特征細(xì)化,由一個(gè)全連接層、一個(gè)深度卷積、一個(gè)GELU激活和第二個(gè)全連接層組成的序列。核心模塊LSK Module(圖4)被嵌入到LK選擇子塊中。它由一連串的大內(nèi)核卷積和一個(gè)空間內(nèi)核選擇機(jī)制組成。
Large Kernel Convolutions & Spatial Kernel Selection
根據(jù)Introduction中所說的先驗(yàn)(2),建議對(duì)一系列的多個(gè)尺度的背景進(jìn)行建模,以進(jìn)行適應(yīng)性選擇。因此,我們建議通過明確地將其分解為一連串具有大的卷積核和不斷擴(kuò)張的depth-wise卷積來構(gòu)建一個(gè)更大感受野的網(wǎng)絡(luò)。其序列中第i個(gè)深度卷積的核大小k、擴(kuò)張率d和感受野RF的擴(kuò)展定義如下:
核的大小和擴(kuò)張率的增加確保了感受野有足夠快的擴(kuò)展。我們對(duì)擴(kuò)張率設(shè)定了一個(gè)上限,以保證擴(kuò)張卷積不會(huì)在特征圖之間引入空隙。
所提出的設(shè)計(jì)有兩個(gè)優(yōu)點(diǎn)。第一,它明確地產(chǎn)生了具有各種大感受野的多個(gè)特征,這使得后來的內(nèi)核選擇更加容易。第二,順序分解比簡(jiǎn)單地應(yīng)用一個(gè)較大的核更有效更高效。為了提高網(wǎng)絡(luò)關(guān)注檢測(cè)目標(biāo)的最相關(guān)的空間背景區(qū)域的能力,我們使用了一種空間選擇機(jī)制,從不同尺度的大卷積核中空間選擇特征圖。圖4顯示了LSK模塊的詳細(xì)概念圖,在這里我們直觀地展示了大選擇核是如何通過自適應(yīng)地收集不同物體的相應(yīng)大感受野而發(fā)揮作用的。
LSK Module 的pytorch代碼如下:
class LSKmodule(nn.Module):
def __init__(self, dim):
super().__init__()
self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
self.convl = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
self.conv0_s = nn.Conv2d(dim, dim//2, 1)
self.conv1_s = nn.Conv2d(dim, dim//2, 1)
self.conv_squeeze = nn.Conv2d(2, 2, 7, padding=3)
self.conv_m = nn.Conv2d(dim//2, dim, 1)
def forward(self, x):
attn1 = self.conv0(x)
attn2 = self.convl(attn1)
attn1 = self.conv0_s(attn1)
attn2 = self.conv1_s(attn2)
attn = torch.cat([attn1, attn2], dim=1)
avg_attn = torch.mean(attn, dim=1, keepdim=True)
max_attn, _ = torch.max(attn, dim=1, keepdim=True)
agg = torch.cat([avg_attn, max_attn], dim=1)
sig = self.conv_squeeze(agg).sigmoid()
attn = attn1 * sig[:,0,:,:].unsqueeze(1) + attn2 * sig[:,1,:,:].unsqueeze(1)
attn = self.conv_m (attn)
return x * attn
Results
在我們的實(shí)驗(yàn)中,我們報(bào)告了HRSC2016、DOTA-v1.0和FAIR1M-v1.0數(shù)據(jù)集上的檢測(cè)模型結(jié)果。為了保證公平性,我們遵循與其他主流方法相同的數(shù)據(jù)集處理方法和訓(xùn)練方式(如S2A-Net, Oriented RCNN, R3Det...)。
在不同檢測(cè)框架下,使用我們的LSKNet骨干,模型更輕量,對(duì)檢測(cè)模型性能提升巨大!(表1)
在相同檢測(cè)框架的不同骨干網(wǎng)絡(luò)(大卷積核和選擇性機(jī)制的骨干網(wǎng)絡(luò))中,在相似模型復(fù)雜的的前提下,我們的LSKNet骨干mAP更強(qiáng)!(表2)
在HRSC2016數(shù)據(jù)集上,性能超越之前所有的方法!(表3)
在DOTA-v1.0數(shù)據(jù)集上,性能超越之前所有的方法!(表4)在此數(shù)據(jù)集上,(近期的方法在性能上近乎飽和,最近的SOTA方法RVSA用了極為重量的模型和在龐大的數(shù)據(jù)集上做預(yù)訓(xùn)練才勉強(qiáng)突破0.81的mAP,RTMDet則是在COCO預(yù)訓(xùn)練,36epoch加EMA的微調(diào)方式,而其他主流方法都是ImageNet預(yù)訓(xùn)練和12epoch w/o EMA微調(diào),才達(dá)到81.33的性能。)我們的方法在模型參數(shù)量和計(jì)算復(fù)雜度全面小于其他方法的前提下,性能刷新了新的SOTA!
在近期中國(guó)空天院提出的FAIR1M-v1.0數(shù)據(jù)集上,我們也刷新了mAP。
Ablation Study
消融實(shí)驗(yàn)部分,為了提高實(shí)驗(yàn)效率,我們采用LSKNet-T骨架在ImageNet上做100個(gè)epoch的骨干預(yù)訓(xùn)練。
Analysis
圖5所示,LSKNet-S可以捕捉到更多與檢測(cè)到的目標(biāo)相關(guān)的背景信息,從而在各種困難情況下有更好的表現(xiàn),這證明了我們的先驗(yàn)(1)。
為了研究每個(gè)物體類別的感受野范圍,我們定義物體類別預(yù)期感受野和GT框面積的比率:Rc。此數(shù)值越大,說明目標(biāo)需要的額外感受野越大。圖6中結(jié)果表明,與其他類別相比,橋梁類別需要更多的額外上下文信息,這主要是由于它與道路的特征相似,并且需要語(yǔ)境線索來確定它是否被水所包圍。相反,球場(chǎng)類別,如足球場(chǎng),由于其獨(dú)特的紋理屬性,特別是球場(chǎng)邊界線,需要最少的上下文信息。這與我們的常識(shí)相吻合,并進(jìn)一步支持先前的觀點(diǎn)(2),即不同的物體類別所需的上下文信息的相對(duì)范圍有很大不同。
我們進(jìn)一步研究我們的LSKNet中的大核選擇傾向性行為。我們定義了Kernel Selection Difference(較大的感受野卷積核特征圖激活值 - 較小的感受野卷積核特征圖激活值)。
在圖8中,我們展示了三個(gè)典型類別的所有圖像的歸一化Kernel Selection Difference:橋梁、環(huán)形路和足球場(chǎng),以及每個(gè)LSKNet-T塊的情況。正如預(yù)期的那樣,Bridge的所有塊的大核的參與度高于Roundabout,而Roundabout則高于Soccer-ball-field。這與常識(shí)一致,即Soccer-ball-field確實(shí)不需要大量的上下文,因?yàn)樗旧淼募y理特征已經(jīng)足夠明顯和具有鑒別性。我們還出人意料地發(fā)現(xiàn)了LSKNet在網(wǎng)絡(luò)深度上的另一種選擇模式。LSKNet通常在其淺層利用較大感受野的卷積核,而在較高的層次利用較小的。這表明,網(wǎng)絡(luò)傾向于在網(wǎng)絡(luò)淺層迅速擴(kuò)大感受野捕捉信息,以便高層次的語(yǔ)義學(xué)能夠包含足夠的感受野,從而獲得更好的辨別力。
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
882瀏覽量
48195 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40854 -
遙感
+關(guān)注
關(guān)注
0文章
250瀏覽量
17026 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1218瀏覽量
25158
原文標(biāo)題:ICCV 2023 | 南開大學(xué)提出LSKNet:遙感旋轉(zhuǎn)目標(biāo)檢測(cè)新SOTA!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
TINA-TI 9與TINA8對(duì)同一個(gè)電路圖仿真結(jié)果不同是怎么回事?
南開大學(xué)origin使用指南
南開大學(xué)提出了高性能太赫茲隱身材料設(shè)計(jì)的新思路
南開大學(xué)決定成立人工智能學(xué)院

南開大學(xué)提出最新邊緣檢測(cè)和圖像過分割被 IEEE PAMI 錄用
南開大學(xué)開發(fā)出一種具有超高容量的鋰離子電池有機(jī)正極材料
南開大學(xué)孫軍教授:逆流而上,為光電材料盡一份力
“人工智能+機(jī)器人”高端論壇在南開大學(xué)舉行
綜述:基于柔性致動(dòng)器的跳躍運(yùn)動(dòng)

南開大學(xué)OpenHarmony技術(shù)俱樂部揭牌成立

南開大學(xué)和字節(jié)跳動(dòng)聯(lián)合開發(fā)一款StoryDiffusion模型
火山引擎與南開大學(xué)深化合作簽約,攜手共建“AI+教育”新生態(tài)
南開大學(xué)攜手華為發(fā)布“人工智能賦能人才培養(yǎng)行動(dòng)計(jì)劃”

評(píng)論