時(shí)至今日,我們目前討論的模型在處理表格數(shù)據(jù)時(shí)仍然是合適的選擇。通過表格,我們的意思是數(shù)據(jù)由對(duì)應(yīng)于示例的行和對(duì)應(yīng)于特征的列組成。對(duì)于表格數(shù)據(jù),我們可能會(huì)預(yù)期我們尋求的模式可能涉及特征之間的相互作用,但我們不假設(shè)任何關(guān)于特征如何相互作用的先驗(yàn)結(jié)構(gòu)。
有時(shí),我們確實(shí)缺乏知識(shí)來指導(dǎo)更巧妙的架構(gòu)的構(gòu)建。在這些情況下,MLP 可能是我們能做的最好的。然而,對(duì)于高維感知數(shù)據(jù),這種無結(jié)構(gòu)網(wǎng)絡(luò)可能會(huì)變得笨拙。
例如,讓我們回到我們正在運(yùn)行的區(qū)分貓和狗的例子。假設(shè)我們?cè)跀?shù)據(jù)收集方面做得很徹底,收集了一個(gè)百萬像素照片的注釋數(shù)據(jù)集。這意味著網(wǎng)絡(luò)的每個(gè)輸入都有一百萬個(gè)維度。即使大幅減少到一千個(gè)隱藏維度,也需要一個(gè)完全連接的層,其特征是106×103=109 參數(shù)。除非我們有大量的 GPU、分布式優(yōu)化的人才和非凡的耐心,否則學(xué)習(xí)這個(gè)網(wǎng)絡(luò)的參數(shù)可能是不可行的。
細(xì)心的讀者可能會(huì)反對(duì)這一論點(diǎn),因?yàn)榘偃f像素分辨率可能不是必需的。然而,雖然我們可能能夠擺脫 10 萬個(gè)像素,但我們的隱藏層大小 1000 嚴(yán)重低估了學(xué)習(xí)良好圖像表示所需的隱藏單元數(shù)量,因此實(shí)際系統(tǒng)仍需要數(shù)十億個(gè)參數(shù)。此外,通過擬合如此多的參數(shù)來學(xué)習(xí)分類器可能需要收集龐大的數(shù)據(jù)集。然而今天,人類和計(jì)算機(jī)都能夠很好地區(qū)分貓和狗,這似乎與這些直覺相矛盾。這是因?yàn)閳D像展現(xiàn)出豐富的結(jié)構(gòu),人類和機(jī)器學(xué)習(xí)模型都可以利用這些結(jié)構(gòu)。
7.1.1. 不變性
想象一下,我們想要檢測(cè)圖像中的物體。這似乎是合理的,無論我們使用什么方法來識(shí)別物體,都不應(yīng)該過分關(guān)注物體在圖像中的精確位置。理想情況下,我們的系統(tǒng)應(yīng)該利用這些知識(shí)。豬通常不會(huì)飛,飛機(jī)通常不會(huì)游泳。盡管如此,我們?nèi)匀粦?yīng)該認(rèn)出一只豬出現(xiàn)在圖像的頂部。我們可以從兒童游戲“威利在哪里”中得到一些啟發(fā)(如圖7.1.1所示)。游戲由許多充滿活動(dòng)的混亂場(chǎng)景組成。沃爾多出現(xiàn)在每個(gè)地方的某個(gè)地方,通常潛伏在一些不太可能的位置。讀者的目標(biāo)是找到他。盡管他的著裝很有特色,但由于大量的干擾因素,這可能出奇地困難。然而,Waldo 長(zhǎng)什么樣子并不取決于Waldo 所在的位置。我們可以使用 Waldo 檢測(cè)器掃描圖像,該檢測(cè)器可以為每個(gè)補(bǔ)丁分配一個(gè)分?jǐn)?shù),指示該補(bǔ)丁包含 Waldo 的可能性。事實(shí)上,許多目標(biāo)檢測(cè)和分割算法都是基于這種方法(Long et al. , 2015)。CNN 將這種空間不變性的思想系統(tǒng)化,利用它以更少的參數(shù)學(xué)習(xí)有用的表示。
現(xiàn)在,我們可以通過列舉一些必要條件來指導(dǎo)我們?cè)O(shè)計(jì)適用于計(jì)算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)架構(gòu),從而使這些直覺更加具體:
-
在最早的層中,我們的網(wǎng)絡(luò)應(yīng)該對(duì)相同的補(bǔ)丁做出類似的響應(yīng),無論它出現(xiàn)在圖像中的什么位置。這個(gè)原理稱為平移不變性(或平移等變性)。
-
網(wǎng)絡(luò)的最早層應(yīng)該關(guān)注局部區(qū)域,而不考慮遠(yuǎn)處區(qū)域的圖像內(nèi)容。這就是局部性原則。最終,可以聚合這些局部表示以在整個(gè)圖像級(jí)別進(jìn)行預(yù)測(cè)。
-
隨著我們的進(jìn)行,更深的層應(yīng)該能夠捕捉圖像的更遠(yuǎn)距離的特征,類似于自然界中更高層次的視覺。
讓我們看看這如何轉(zhuǎn)化為數(shù)學(xué)。
7.1.2. 約束 MLP
首先,我們可以考慮一個(gè)帶有二維圖像的 MLP X作為輸入及其直接隱藏的表示 H類似地表示為矩陣(它們?cè)诖a中是二維張量),其中X和 H具有相同的形狀。讓它沉入其中。我們現(xiàn)在不僅將輸入設(shè)想為具有空間結(jié)構(gòu),而且將隱藏表示設(shè)想為具有空間結(jié)構(gòu)。
讓[X]i,j和[H]i,j表示位置處的像素(i,j)分別在輸入圖像和隱藏表示中。因此,為了讓每個(gè)隱藏單元接收來自每個(gè)輸入像素的輸入,我們將從使用權(quán)重矩陣(就像我們之前在 MLP 中所做的那樣)切換到將我們的參數(shù)表示為四階權(quán)重張量W. 假設(shè)U包含偏差,我們可以將全連接層正式表示為
從開關(guān)W到V現(xiàn)在完全是裝飾性的,因?yàn)閮蓚€(gè)四階張量中的系數(shù)之間存在一對(duì)一的對(duì)應(yīng)關(guān)系。我們只是重新索引下標(biāo)(k,l)這樣k=i+a和l=j+b. 換句話說,我們?cè)O(shè) [V]i,j,a,b=[W]i,j,i+a,j+b. 指數(shù)a和b遍歷正偏移和負(fù)偏移,覆蓋整個(gè)圖像。對(duì)于任何給定位置(i, j) 在隱藏表示中[H]i,j,我們通過對(duì)像素求和來計(jì)算它的值x, 以 (i,j)并加權(quán)
評(píng)論