來源:《電子學報》 ,作者李寶奇等
摘 要: 針對SSD原始附加特征提取網絡(Original Additional Feature Extraction Network,OAFEN)中stride操作造成圖像小目標信息丟失和串聯結構產生的多尺度特征之間冗余度較大的問題,提出了一種計算量小、感受野大的深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC),并利用DSDC設計了一個包含三個獨立子網絡的并行附加特征提取網絡(Parallel Additional Feature Extraction Network,PAFEN).PAFEN上路用兩個DSDC提取尺寸為19*19和3*3的特征圖;中路用一個DSDC提取尺寸為10*10的特征圖;下路用兩個DSDC提取尺寸為5*5和1*1的特征圖.實驗結果表明,在SSD框架內,PAFEN在mAP和檢測時間等方面均優于OAFEN,適用于地面小目標的檢測任務.
關鍵詞: 目標檢測;SSD;深度可分離卷積;空洞卷積;深度可分離空洞卷積;并行附加特征提取網絡
1 引言
地面目標檢測在無人機導航、搜索、精確打擊和毀傷后評估中發揮著重要作用[1~3].考慮飛行安全和飛行距離,無人機通常會在較遠距離獲取地面目標圖像,由此造成的結果是圖像內目標像素比較小,這會進一步增加目標檢測的難度[4].
通過將深度學習[5~7]模型 CNN(Convolutional Neural Networks)[8~10]嵌入到目標檢測模型之中,目標檢測精度在過去幾年中不斷提高,結合CNN的目標檢測算法可分為基于候選區域和基于回歸兩類.Girshick等[11]第一個將CNN用于目標檢測,并提出R-CNN(Regionbased Convolutional Neural Networks)模型.R-CNN使用區域建議方法從輸入圖像中生成2000個候選區域,并將所有的候選區域縮放到固定尺寸.然后,使用CNN在這些候選區域上提取特征.在CNN的最后一個特征層加入兩個全連接層(SVM和回歸層).由于SVM和回歸層是分開訓練,R-CNN很難優化而且占用內存空間非常大.Girshick 等[12]又提出 Fast R-CNN 模型.Fast RCNN首先在圖像中提取感興趣區域 (Regions of Interest,RoI);然后對每幅圖像只做一次卷積處理,在最后一個卷積層輸出的特征圖上對每個RoI進行映射,并送入RoI池化層把各尺寸的特征圖統一到相同的大小[13];最后利用 Softmax Loss和 Smooth L1 Loss對分類概率和邊框回歸聯合訓練.聯合訓練省去了特征存儲,提高了空間和時間利用率.然而,提取感興趣區域占用了整個檢測過程的大部分時間.Ren等[14]提出了目標檢測模型Faster R-CNN.與Fast R-CNN相比,Faster RCNN利用RPN(Region Proposal Network)在CNN最后一個連接層中自行產生建議框,因此建議框生成網絡和目標檢測網絡共享卷積網絡.同時建議框數目從原有的約2000個減少為300個,重要的是建議框的質量也有本質的提高,但Faster R-CNN檢測的速度依然有待提高.
基于區域建議的目標檢測方法不能利用局部目標在整幅圖像中的空間信息,所以一些研究者開展了無區域建議的目標檢測研究,主要采用回歸的思想.Redmon等[15]提出了一種無區域建議的目標檢測模型,稱為YOLO(You Only Look Once).YOLO通過采用空間限制,減少了對同一目標的重復檢測,大大提高了效率,能夠達到實時的效果.但是YOLO的檢測精度不如Faster R-CNN.針對 YOLO 存在的不足,Liu等[16]提出 SSD(Single Shot Detector)模型.SSD模型主要由四部分組成:基礎網絡VGG-16(Visual Geometry Group),附加特征提取層部分,default boxes生成部分和卷積預測部分.SSD通過融合六個尺度的特征來提高目標檢測的精度.原始附加特征提取網絡從基礎網絡特征層conv4_3(38*38)開始,然后通過在標準卷積層中使用stride操作依次生成 fc7(19*19)、conv6_2(10*10)、conv7_2(5*5)、conv8_2(3*3)和conv9_2(1*1)五個尺度的特征圖.stride操作會造成圖像目標信息的丟失[17~19],尤其是圖像中的小目標.原始附加特征提取網絡中六個尺度的特征圖采用串聯結構生成,彼此之間具有很高的冗余度,特征圖之間冗余度較高不利于圖像小目標的精準定位.為了提高SSD對小目標的檢測精度,Cao等[20]提出 FFSSD(Feature-Fused SSD)模型.FFSSD 利用Feature Fusion Module對VGG-16中conv5_3進行2倍上采樣操作,并與conv4_3融合來提高小尺寸目標的檢測精度.Fu等[21]提出 DSSD(Deconvolutional Single Shot Detector)模型.DSSD基礎網絡為特征提取能力更強的Resnet-101,并利用Deconvolution Module擴展低維度信息的上下文信息來提高小尺度目標的檢測精度.FFSSD和DSSD都是通過整合更多尺度上的語義特征來提高模型對小目標的檢測精度,但是這些方法,在提高對于目標物體特別時小物體識別效果的同時由于加入了額外的層,也增大了計算量,影響了檢測的實時性.Zhou 等[22]提出了 STDN(Scale-Transferrable Object Detection)模型.STDN基礎網絡為 DenseNet-169,并通過Scale-Transfer層實現了在幾乎不增加參數量和計算量的前提下生成大尺寸的特征層來提高模型對小目標的檢測精度.由于Scale-Transfer層是一個轉換操作,因此基本不會引入額外的參數量和計算量.為了提高SSD的檢測速度,Howard等[23]提出了輕量化的卷積神經網絡MobileNet.MobileNet用深度可分離卷積(Depthwise Separable Convolution,DSC)替換標準卷積來減少模型的參數和計算量,它在不影響目標檢測精度的條件下能極大地提高SSD的檢測速度.
除了上述針對SSD的改進方法外,還有一些其它提高小目標檢測精度的研究工作,例如設計專用的目標檢測的骨干網絡[24],優化檢測模型訓練過程[25],IoU閾值動態設計[26]和生成高分辨率小目標特征[27]等.特別是文獻[27],Li等提出了一種基于PGAN(Perceptual Generative Adversarial Networks)的小目標檢測方法.PGAN通過訓練條件生成網絡使小目標的特征表示與大目標特征表示類似,并利用一個新的感知分類器來監督小目標特征的生成從而更精確地檢測小目標.
針對上述改進方法不能兼顧小目標檢測精度和速度的問題,本文提出了一種計算量小,覆蓋范圍大的卷積單元-深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC),并利用 DSDC設計了一種包含三個子網絡的并行附加特征提取層網絡(Parallel Additional Feature Extraction Network,PAFEN),同時通過優化DSDC空洞率(Dilation Rate)的選取來改善 PAFEN的性能,最后在SSD框架內通過結合MobileNet(基礎網絡)和PAFEN(特征提取網絡)實現對地面小目標的快速、準確的檢測.
2 基于并行附加特征提取網絡的SSD小目標檢測模型
本文通過改進附加特征提取網絡來提高SSD對地面小目標的檢測精度和速度.在新的附加特征提取網絡中,深度可分離空洞卷積作為網絡基本單元(深度可分離空洞卷積摒棄了stride操作,它通過通道分解和卷積核空洞化來減少計算量和增大感受野);三個獨立子網絡結構替代原來的單網絡串聯結構以增加多尺度特征圖的多樣性,并為與conv4(在MobileNet中與VGG-16中conv4_3對應的層為conv4)直接相連的三個多尺度特征fc7、conv6_2和conv7_2設計convex空洞率策略來增加上下兩個子網絡的信息以改善新附加特征提取網絡的性能.
2.1 深度可分離空洞卷積單元
深度可分離卷積通過將標準卷積分解成深度卷積和點卷積來大幅降低模型的參數,重要的是卷積層的特征提取能力基本不受影響.但為了生成尺寸更小的特征圖,深度可分離卷積只能通過增加卷積核尺寸或stride操作實現,過大尺寸的卷積核會大幅增加模型參數,而stride操作會造成圖像小目標信息的丟失.深度可分離空洞卷積是在深度可分離卷積的基礎上,通過對深度卷積空洞化實現.空洞化是向標準卷積中引入了一個稱作空洞率的新參數[17],并利用擴張率控制卷積核處理數據時各值的間距,從而在計算量相當的條件下實現卷積層感受野的增大.深度可分離空洞卷積與深度可分離卷積相比具有更大的感受野,與空洞卷積相比具有更小的計算量.深度可分離空洞卷積(DSDC)、深度可分離卷積(DSC)和標準卷積之間的關系如圖1所示.
對于M個尺寸為DF*DF的輸入特征圖F,經尺寸為DK*DK的卷積核操作后,輸出N個尺寸為DG*DG的特征圖G,其中DF是輸入的特征圖的寬度和高度,M是輸入通道數,DG是輸出特征圖的寬度和高度,N是輸出通道數.標準卷積、深度可分離卷積和深度可分離空洞卷積的計算分解過程如圖2所示.
圖片
圖片
標準卷積生成特征圖G的計算成本為:
圖片
深度可分離卷積生成特征圖G的計算成本為:
圖片
深度可分離空洞卷積生成特征圖G的計算成本為:
圖片
深度可分離卷積和深度可分離空洞卷積與標準卷積的計算成本比值均為:
圖片
但在相同計算量的條件下,深度可分離空洞卷積的覆蓋范圍更大.深度可分離空洞卷積實際空洞濾波器(RDF)尺寸與空洞率之間的關系如下:
圖片
其中K rdf為該層RDF尺寸,DK為該層卷積核尺寸,R為該層空洞率大小.例如,一個卷積核尺寸為3*3,空洞率R=2的空洞卷積層,RDF的實際覆蓋范圍為5*5,即K rdf=5.同時可以通過進一步增大空洞率R來擴大卷積層的感受野.
2.2 基于并行附加特征提取網絡的SSD小目標檢測模型設計
附加特征提取網絡并行化設計是由conv4直接生成剩余的多尺度特征圖,每個子網絡之間保持獨立,生成的多尺度特征圖之間的冗余度也相對較小[23].考慮conv7_2(5*5)、conv8_2(3*3)和 conv9_2(1*1)三個尺度的特征圖尺寸比較接近,因此將剩余的五個尺度特征圖設計為三個獨立的子網絡結構,即conv4與fc7、conv6_2和conv7_2直接相連接,同時將 conv8_2和conv9_2分配到上路和下路兩個子網絡有助于提升fc7和conv7_2特征圖的質量,也可以避免與conv7_2特征尺度上的重復.基于MobileNet和PAFEN的SSD地面小目標檢測模型結構如圖3所示,記作MPSDD.
圖片
地面小目標圖像首先進入SSD基礎網絡部分,其中基礎網絡為MobileNet被截斷至conv4的部分網絡,并將conv4作為PAFEN的第一個特征層;PAFEN由conv4生成三個獨立的子網絡:上路子網絡、中路子網絡和下路子網絡.上路子網絡由conv4(38*38)生成fc7(19*19)和conv8_2(3*3)兩個尺度的特征圖;中路子網絡由 conv4(38*38)生成conv6_2(10*10)一個尺度的特征圖;下路子網絡由conv4(38*38)生成conv7_2(5*5)和conv9_2(1*1)兩個尺度的特征圖.default boxes生成部分根據預先定義的scales和aspect ratios從上述六個尺度的特征層中提取數量和大小不同的default boxes;卷積預測部分則是對default boxes內目標的類型和位置進行判斷.
利用深度可分離空洞卷積構建PAFEN需要首先解決網格問題[17~19],網格問題就是空洞卷積網絡每一層實際感受野疊加操作后無法實現對輸入圖像的完全覆蓋,因此會造成信息的丟失.文獻[17]和文獻[19]針對并行和串行空洞卷積網絡分別提出了卷積核尺寸固定下的空洞率選取準則.考慮PAFEN并非嚴格意義上的串聯或并聯結構,同時PAFEN主要是為了提取圖像小目標特征,因此文獻[17]和文獻[19]中的空洞率選取策略并不適用PAFEN中深度可分離空洞卷積空洞率的設計.為了更好地提取圖像小目標特征,PAFEN中使用的空洞率數值整體相對較小.同時,由于PAFEN上路和下路子網絡均包含兩個DSDC,因此fc7和conv7_2使用更小的空洞率有利于提高兩個子網絡特征圖的質量.PAFEN中五個深度可分離空洞卷積層的參數設置如表1所示.
為了嚴格保證PAFEN與OAFEN中多尺度特征圖尺寸完全一致,需要對部分DSDC進行填充,例如fc7、conv6_2和 conv9_2.
表1 并行附加特征提取網絡參數設置
圖片
3 仿真試驗
為了驗證PAFEN的有效性以及特征層組合方式和DSDC空洞率選取對PAFEN性能的影響,實驗以mAP、平均檢測時間和參數大小作為模型定量評價指標.設計實驗 1,以 MOSSD[23](基礎網絡為 MobileNet,特征提取網絡為OAFEN)為參考,比較分析Faster-RCNN[14]、SSD[16]、FFSSD[20]、DSSD[21]與本文地面小目標檢測方法MPSSD(基礎網絡為MobileNet,特征提取網絡為PAFEN)之間的性能差異.設計實驗2,以附加特征提取網絡中不同尺度的特征圖為研究對象,比較分析特征圖不同的組合方式對PAFEN性能的影響.設計實驗3,以深度可分離空洞卷積的空洞率為研究對象,比較分析不同的空洞率選取方式對PAFEN性能的影響.SSD、FFSSD、DSSD、MOSSD 和 MPSSD 由 Caffe工具箱設計,采用 GPU(Titan X)計算方式[28],其中檢測時間為模型檢測100幅圖像的平均前向時間,參數大小指模型(.caffemodel文件)的實際大小.Faster-RCNN實驗模型由TensorFlow工具箱設計,同樣采用GPU(Titan X)計算方式,平均檢測時間為模型檢測完整測試數據集的平均時間,參數大小指模型(.ckpt文件)的實際大小.
3.1 實驗數據集
為了更好地檢驗基于PAFEN的SSD模型(MPSSD)對圖像小目標的檢測性能,我們建立了一個地面小目標數據集:SGT-DET.SGT-DET包括四種地面目標:軍用卡車、直升機、導彈和坦克,共計3350幅圖像,其中2410幅用于模型訓練,940幅圖像用于模型測試,如表2所示.
表2 地面小目標數據集組成
圖片
地面小目標是一個相對的概念,其中“小”指的是圖像中目標的像素比值小,SGT-DET圖像中四個地面小目標的像素比均小于0.05.
3.2 實驗1:目標檢測算法的性能比較
本實驗比較分析 Faster-RCNN、SSD、FFSSD、DSSD、MOSSD與本文地面小目標檢測方法MPSSD在數據集SGT-DET上的性能差異.Faster-RCNN的基礎網絡為VGG-16,特征提取網絡為 RPN;SSD的基礎網絡為VGG-16,特征提取網絡為OAFEN;FFSSD的基礎網絡為VGG-16,特征提取網絡為 Feature Fusion Module;DSSD的基礎網絡為ResNet101,特征提取網絡為Deconvolution Module;MOSSD的基礎網絡為MobileNet,特征提取網絡為OAFEN;MPSSD的基礎網絡為MobileNet,特征提取網絡為PAFEN,其中PAFEN包含三個獨立的子網絡,其中fc7,conv6_2和conv7_2三個卷積層的卷積核,空洞率和填充為[8,3,1]、[7,5,1]和[12,3,0].分別記錄檢測模型在迭代30000次時對 SGTDET測試數據集的mAP數值、平均檢測時間和參數大小.
從表3可以發現,Faster-RCNN的檢測精度最高為97.6%,MPSSD的檢測時間最短為7.18ms,MPSSD的參數大小最少為7.9MB.FFSSD、DSSD和SSD的實驗結果表明增加特征提取網絡的層數(增加contextual information)能夠改善SSD對小目標檢測的精度,但不可避免地會增加計算量和模型參數.MOSSD和SSD的實驗結果表明利用MobileNet替換VGG-16在減少模型參數和降低檢測時間方面帶來的效果是明顯的,但也存在檢測精度上的下降.MPSSD和MOSSD的實驗結果表明PAFEN在三種定量評價指標中明顯優于OAFEN,在地面小目標的檢測任務中,PAFEN比OAFEN精度更高,速度更快.綜合考慮檢測精度(mAP)、平均檢測時間(Times)和參數大小(Parameters)三個因素,MPSSD優于其它檢測模型,更適合無人機遠距離地面實時檢測任務.
為了更直觀的說明MPSSD對地面小目標的檢測效果,通過Juyter notebook利用訓練30000次的MPSSD模型分別對4種地面小目標圖像進行檢測,檢測結果如圖4所示.從圖4可以看出,MPSSD模型對四種地面小目標能實現準確檢測.
表3 目標檢測模型性能比較
圖片
圖片
3.3 實驗2:子網絡數量對PAFEN性能的影響
本實驗比較不同數量子網絡對PAFEN性能的影響.實驗以包含三個子網絡的 PAFEN為參考,記PAFEN-3;設計包含一個子網絡的PAFEN-1和包含五個子網絡的PAFEN-5.PAFEN-1可解釋為OAFEN的深度可分離空洞化,其中 fc7、conv6_2、conv7_2、conv8_2和conv9_2五個卷積層的卷積核、空洞率和填充為[8,3,1]、[4,3,0]、[4,3,2]、[3,2,1]和[3,2,1].PAFEN-5為包含五個獨立子網絡的并行附加特征提取網絡,即fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 直接與 conv4相連,其中五個卷積層的卷積核、空洞率和填充為[8,3,1]、[8,4,0]、[8,5,1]、[8,5,0]和[8,6,3].記錄模型迭代30000次時模型對SGT-DET測試數據集的mAP數值、平均檢測時間和參數大小.
從表4可以看出,隨著PAFEN子網絡數量的增加,模型的檢測時間和參數都存在一定的增加,其中PAFEN-3比 PAFEN-1時間增加 0.09ms、參數增加0.4MB,PAFEN-5比PAFEN-1時間增加0.24ms,參數增加1.4MB.但檢測精度并沒有隨著子網絡數量的增加而改善,PAFEN-5的mAP比PAFEN-3低3.3%.綜合考慮檢測精度、平均檢測時間和參數大小三個評價指標,將PAFEN設計成三個子網絡效果最好.
***網絡數量對PAFEN性能的影響
圖片
3.4 實驗3:空洞率選取對PAFEN性能的影響
fc7、conv6_2、conv7_2 與 conv4 直接相連,這三個卷積層對PAFEN的性能影響最大,因此本實驗主要分析和比較fc7、conv6_2、conv7_2三個卷積層空洞率選取對PAFEN性能的影響.實驗設計四種形式的空洞率策略:rise、decline、uniformity和 convex,其中 convex 為 PAFEN采用的策略.rise、decline和uniformity三種策略的空洞率分別為[3,5,7]、[7,5,3]和[5,5,5].記錄模型迭代30000次時對SGT-DET測試數據集的mAP數值、平均檢測時間和參數大小.
從表5可以看出,四種空洞率策略下模型的檢測時間和參數大小基本相同.rise、decline、uniformity三種策略下模型的mAP數值也保持在同一水平,但convex策略下模型的mAP數值高于其他三種策略,比rise高2.7%,比decline高2.6%,比uniformity高2.3%.換句話說,為包含更多層的子網絡的初始層設置較低的空洞率有助于提升PAFEN的性能.
表5 空洞率選取對PAFEN性能的影響
圖片
3.5 討論
實驗從mAP、平均檢測時間和參數大小三個方面比較了本文小目標檢測方法MPSSD與經典算法(Faster-RCNN和SSD)和最新算法(FFSSD和DSSD)性能上的差異,也進一步分析了子網絡的數量和空洞率的選取如何影響PAFEN的性能.本文地面小目標檢測模型MPSSD的基礎網絡為 MobileNet,特征提取網絡為PAFEN.PAFEN利用計算量小、感受野大的深度可分離空洞卷積單元組建附加特征提取網絡能消除stride操作造成圖像中小目標信息丟失的問題.PAFEN采用三個獨立的子網絡結構,使其能從conv4生成三組尺度獨立的特征圖,減少多尺度特征圖之間的冗余度,提高目標檢測的精度.但并非子網絡的數量越多越好,例如PAFEN-5的檢測精度低于 PAFEN-3.在 PAFEN-5中,conv4(38*38)直接生成conv8_2(3*3)或conv9_2(1*1),由于兩個子網絡尺度之間跨度較大(38-3或38-1),在一定程度上會影響conv8_2(3*3)和conv9_2(1*1)兩個尺度特征圖的質量.同時,PAFEN-5用五個獨立的子網絡生成五個尺度的特征圖,特征圖之間的獨立性能為目標檢測提供更豐富的選擇,但過于獨立的特征會影響圖像目標的定位.因此,PAFEN需要兼顧特征圖的質量和特征圖的多樣性.PAFEN使用convex空洞率策略獲得了最高的檢測精度,事實上,四種空洞率策略下PAFEN的檢測精度均高于OAFEN.在convex策略中,上路和下路網絡初始特征層使用較小空洞率能從conv4中獲取更多的信息,增強conv8_2和conv9_2兩個尺度特征圖的質量,進而提高模型的檢測精度.
Faster-RCNN和SSD是經典目標檢測算法的代表,Faster-RCN側重于目標檢測精度,而SSD側重于目標檢測速度,實驗1的結果也驗證了這一觀點.MOSSD用MobileNet替換基礎網絡VGG-16來進一步提高SSD的檢測速度.對于本文的SGT-DET數據集,MOSSD比SSD檢測精度低3.5%,精度下降的幅度還是比較大,這也間接表明MobileNet作為小目標檢測模型的基礎網絡還存在改進的空間.FFSSD和DSSD是針對小目標檢測任務提出改進模型:FFSSD通過引入conv5_3的信息;DSSD通過融合特征提取網絡反卷積變化后的特征.雖然FFSSD和DSSD在一定程度上提升了小目標檢測的精度,但卻增加了計算量.對于無人機遠距離目標檢測任務而言,除了滿足檢測精度要求外,圖像的實時檢測是另外一個重要的指標.MPSSD在減少模型參數和計算量的前提下,提升了對地面小目標的檢測速度.
4 結論
地面小目標檢測任務具有重要的理論研究和實際應用價值.在SSD檢測模型框架內,本文提出了一種并行附加特征提取網絡PAFEN.PAFEN有效提升SSD對地面小目標檢測精度和速度,并經理論分析和仿真實驗證明了PAFEN的有效性.
對于基于SSD的地面小目標檢測任務,改進基礎網絡結構和default box生成策略同樣能提升SSD模型的性能.下一步的研究重點包括:(1)研究適合小目標特征提取的基礎網絡;(2)研究適合捕獲小目標特征的default box生成策略.
審核編輯:符乾江
-
目標檢測
+關注
關注
0文章
211瀏覽量
15664 -
機器學習
+關注
關注
66文章
8438瀏覽量
133087 -
大數據
+關注
關注
64文章
8908瀏覽量
137795
發布評論請先 登錄
相關推薦
評論