SiamFC網(wǎng)絡(luò)
<
圖中z代表的是模板圖像,算法中使用的是第一幀的ground truth;x代表的是search region,代表在后面的待跟蹤幀中的候選框搜索區(qū)域;?代表的是一種特征映射操作,將原始圖像映射到特定的特征空間,文中采用的是CNN中的卷積層和pooling層;6×6×128代表z經(jīng)過(guò)?后得到的特征,是一個(gè)128通道6×6大小feature,同理,22×22×128是x經(jīng)過(guò)?后的特征;后面的×代表卷積操作,讓22×22×128的feature被6×6×128的卷積核卷積,得到一個(gè)17×17的score map,代表著搜索區(qū)域中各個(gè)位置與模板相似度值。
算法本身是比較搜索區(qū)域與目標(biāo)模板的相似度,最后得到搜索區(qū)域的score map。其實(shí)從原理上來(lái)說(shuō),這種方法和相關(guān)性濾波的方法很相似。其在搜索區(qū)域中逐點(diǎn)的目標(biāo)模板進(jìn)行匹配,將這種逐點(diǎn)平移匹配計(jì)算相似度的方法看成是一種卷積,然后在卷積結(jié)果中找到相似度值最大的點(diǎn),作為新的目標(biāo)的中心。
上圖所畫的?其實(shí)是CNN中的一部分,并且兩個(gè)?的網(wǎng)絡(luò)結(jié)構(gòu)是一樣的,這是一種典型的孿生神經(jīng)網(wǎng)絡(luò),并且在整個(gè)模型中只有conv層和pooling層,因此這也是一種典型的全卷積(fully-convolutional)神經(jīng)網(wǎng)絡(luò)。
在訓(xùn)練模型的時(shí)肯定需要損失函數(shù),并通過(guò)最小化損失函數(shù)來(lái)獲取最優(yōu)模型。本文算法為了構(gòu)造有效的損失函數(shù),對(duì)搜索區(qū)域的位置點(diǎn)進(jìn)行了正負(fù)樣本的區(qū)分,即目標(biāo)一定范圍內(nèi)的點(diǎn)作為正樣本,這個(gè)范圍外的點(diǎn)作為負(fù)樣本,例如圖1中最右側(cè)生成的score map中,紅色點(diǎn)即正樣本,藍(lán)色點(diǎn)為負(fù)樣本,他們都對(duì)應(yīng)于search region中的紅色矩形區(qū)域和藍(lán)色矩形區(qū)域。文章采用的是logistic loss,具體的損失函數(shù)形式如下:
對(duì)于score map中了每個(gè)點(diǎn)的損失:
l(y,x)=log(1+exp(-xy))
其中v是score map中每個(gè)點(diǎn)真實(shí)值,y∈{+1,?1}是這個(gè)點(diǎn)所對(duì)應(yīng)的標(biāo)簽。
上面的是score map中每個(gè)點(diǎn)的loss值,而對(duì)于score map整體的loss,則采用的是全部點(diǎn)的loss的均值。即:
L(y,v)=\\frac{1}{|D|}\\displaystyle \\sum_{u\\in D}l(y[u],v[u])
這里的u∈D代表score map中的位置。
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)類似與AlexNet,但是沒(méi)有最后的全連接層,只有前面的卷積層和pooling層。
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如上表,其中pooling層采用的是max-pooling,每個(gè)卷積層后面都有一個(gè)ReLU非線性激活層,但是第五層沒(méi)有。另外,在訓(xùn)練的時(shí)候,每個(gè)ReLU層前都使用了batch normalization(批規(guī)范化是深度學(xué)習(xí)中經(jīng)常見(jiàn)到的一種訓(xùn)練方法,指在采用梯度下降法訓(xùn)練DNN時(shí),對(duì)網(wǎng)絡(luò)層中每個(gè)mini-batch的數(shù)據(jù)進(jìn)行歸一化,使其均值變?yōu)?,方差變?yōu)?,其主要作用是緩解DNN訓(xùn)練中的梯度消失/爆炸現(xiàn)象,加快模型的訓(xùn)練速度),用于降低過(guò)擬合的風(fēng)險(xiǎn)。
AlexNet
AlexNet為8層結(jié)構(gòu),其中前5層為卷積層,后面3層為全連接層;學(xué)習(xí)參數(shù)有6千萬(wàn)個(gè),神經(jīng)元有650,000個(gè)。AlexNet在兩個(gè)GPU上運(yùn)行;AlexNet在第2,4,5層均是前一層自己GPU內(nèi)連接,第3層是與前面兩層全連接,全連接是2個(gè)GPU全連接;
RPN層第1,2個(gè)卷積層后;Max pooling層在RPN層以及第5個(gè)卷積層后。ReLU在每個(gè)卷積層以及全連接層后。
卷積核大小數(shù)量:
- conv1:96 11×11×3(個(gè)數(shù)/長(zhǎng)/寬/深度)
- conv2:256 5×5×48
- conv3:384 3×3×256
- conv4: 384 3×3×192
- conv5: 256 3×3×192
ReLU、雙GPU運(yùn)算:提高訓(xùn)練速度。(應(yīng)用于所有卷積層和全連接層)
重疊pool池化層:提高精度,不容易產(chǎn)生過(guò)度擬合。(應(yīng)用在第一層,第二層,第五層后面)
局部響應(yīng)歸一化層(LRN):提高精度。(應(yīng)用在第一層和第二層后面)
Dropout:減少過(guò)度擬合。(應(yīng)用在前兩個(gè)全連接層)
微調(diào)(fine-tune)
看到別人一個(gè)很好的模型,雖然針對(duì)的具體問(wèn)題不一樣,但是也想試試看,看能不能得到很好的效果,而且自己的數(shù)據(jù)也不多,怎么辦?沒(méi)關(guān)系,把別人現(xiàn)成的訓(xùn)練好了的模型拿過(guò)來(lái),換成自己的數(shù)據(jù),調(diào)整一下參數(shù),再訓(xùn)練一遍,這就是微調(diào)(fine-tune)。
凍結(jié)預(yù)訓(xùn)練模型的部分卷積層(通常是靠近輸入的多數(shù)卷積層),訓(xùn)練剩下的卷積層(通常是靠近輸出的部分卷積層)和全連接層。從某意義上來(lái)說(shuō),微調(diào)應(yīng)該是遷移學(xué)習(xí)中的一部分。
感知機(jī):PLA
多層感知機(jī)是由感知機(jī)推廣而來(lái),感知機(jī)學(xué)習(xí)算法(PLA: Perceptron Learning Algorithm)用神經(jīng)元的結(jié)構(gòu)進(jìn)行描述的話就是一個(gè)單獨(dú)的。
感知機(jī)的神經(jīng)網(wǎng)絡(luò)表示如下:
多層感知機(jī):MLP
多層感知機(jī)的一個(gè)重要特點(diǎn)就是多層,我們將第一層稱之為輸入層,最后一層稱之為輸出層,中間的層稱之為隱層。MLP并沒(méi)有規(guī)定隱層的數(shù)量,因此可以根據(jù)各自的需求選擇合適的隱層層數(shù)。且對(duì)于輸出層神經(jīng)元的個(gè)數(shù)也沒(méi)有限制。
MLP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型如下,本文中只涉及了一個(gè)隱層,輸入只有三個(gè)變量[x1,x2,x3]和一個(gè)偏置量b,輸出層有三個(gè)神經(jīng)元。相比于感知機(jī)算法中的神經(jīng)元模型對(duì)其進(jìn)行了集成。
ReLU函數(shù)
ReLU函數(shù)公式如下:
RELU(x)= \\begin{cases} x, & \\text {if x>0} \\ 0, & \\text{if x<0} \\end{cases}
圖像如下:
sigmod函數(shù)
sigmod 函數(shù)在趨于正無(wú)窮或負(fù)無(wú)窮時(shí),函數(shù)趨近平滑狀態(tài)。因?yàn)檩敵龇秶?,1),所以二分類的概率常常用這個(gè)函數(shù)。
sigmoid函數(shù)表達(dá)式如下 :
f(x)=\\frac{1}{(1-e^{-z})}
圖像如下:
學(xué)習(xí)更多編程知識(shí),請(qǐng)關(guān)注我的公眾號(hào):
[代碼的路]
-
圖像處理
+關(guān)注
關(guān)注
27文章
1320瀏覽量
57491 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4364瀏覽量
63809 -
PLA
+關(guān)注
關(guān)注
0文章
39瀏覽量
17257 -
全卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
7瀏覽量
2085 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4440
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
計(jì)算機(jī)視覺(jué)必讀:區(qū)分目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識(shí)別
Large-Scale_FPGA-based_Convolutional_Networks
全卷積網(wǎng)絡(luò)FCN進(jìn)行圖像分割
基于信息熵的級(jí)聯(lián)Siamese網(wǎng)絡(luò)目標(biāo)跟蹤方法
SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network 孿生網(wǎng)絡(luò)

SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 深層網(wǎng)絡(luò)連體視覺(jué)跟蹤的演變

SA-Siam:用于實(shí)時(shí)目標(biāo)跟蹤的孿生網(wǎng)絡(luò)A Twofold Siamese Network for Real-Time Object Tracking

DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更寬更深的孿生網(wǎng)絡(luò)

評(píng)論