當(dāng)我們第一次引入神經(jīng)網(wǎng)絡(luò)時(shí),我們專注于具有單一輸出的線性模型。在這里,整個(gè)模型只包含一個(gè)神經(jīng)元。請(qǐng)注意,單個(gè)神經(jīng)元 (i) 接受一組輸入;(ii) 生成相應(yīng)的標(biāo)量輸出;(iii) 有一組相關(guān)參數(shù),可以更新這些參數(shù)以優(yōu)化一些感興趣的目標(biāo)函數(shù)。然后,一旦我們開始考慮具有多個(gè)輸出的網(wǎng)絡(luò),我們就利用矢量化算法來表征整個(gè)神經(jīng)元層。就像單個(gè)神經(jīng)元一樣,層 (i) 采用一組輸入,(ii) 生成相應(yīng)的輸出,并且 (iii) 由一組可調(diào)參數(shù)描述。當(dāng)我們進(jìn)行 softmax 回歸時(shí),單層本身就是模型。然而,即使我們隨后引入了 MLP,
有趣的是,對(duì)于 MLP,整個(gè)模型及其組成層都共享這種結(jié)構(gòu)。整個(gè)模型接受原始輸入(特征),生成輸出(預(yù)測(cè)),并擁有參數(shù)(來自所有構(gòu)成層的組合參數(shù))。同樣,每個(gè)單獨(dú)的層攝取輸入(由前一層提供)生成輸出(后續(xù)層的輸入),并擁有一組可調(diào)參數(shù),這些參數(shù)根據(jù)從后續(xù)層向后流動(dòng)的信號(hào)進(jìn)行更新。
雖然您可能認(rèn)為神經(jīng)元、層和模型為我們提供了足夠的抽象來開展我們的業(yè)務(wù),但事實(shí)證明,我們經(jīng)常發(fā)現(xiàn)談?wù)摫葐蝹€(gè)層大但比整個(gè)模型小的組件很方便。例如,在計(jì)算機(jī)視覺領(lǐng)域廣受歡迎的 ResNet-152 架構(gòu)擁有數(shù)百層。這些層由層組的重復(fù)圖案組成。一次一層地實(shí)現(xiàn)這樣的網(wǎng)絡(luò)會(huì)變得乏味。這種擔(dān)憂不僅僅是假設(shè)——這樣的設(shè)計(jì)模式在實(shí)踐中很常見。上面提到的 ResNet 架構(gòu)贏得了 2015 年 ImageNet 和 COCO 計(jì)算機(jī)視覺識(shí)別和檢測(cè)競(jìng)賽(He et al. , 2016)并且仍然是許多視覺任務(wù)的首選架構(gòu)。層以各種重復(fù)模式排列的類似架構(gòu)現(xiàn)在在其他領(lǐng)域無處不在,包括自然語言處理和語音。
為了實(shí)現(xiàn)這些復(fù)雜的網(wǎng)絡(luò),我們引入了神經(jīng)網(wǎng)絡(luò)模塊的概念。模塊可以描述單個(gè)層、由多個(gè)層組成的組件或整個(gè)模型本身!使用模塊抽象的一個(gè)好處是它們可以組合成更大的工件,通常是遞歸的。如圖 6.1.1所示。通過定義代碼以按需生成任意復(fù)雜度的模塊,我們可以編寫出奇緊湊的代碼并仍然實(shí)現(xiàn)復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
圖 6.1.1多層組合成模塊,形成更大模型的重復(fù)模式。
從編程的角度來看,模塊由類表示。它的任何子類都必須定義一個(gè)前向傳播方法,將其輸入轉(zhuǎn)換為輸出,并且必須存儲(chǔ)任何必要的參數(shù)。請(qǐng)注意,某些模塊根本不需要任何參數(shù)。最后,為了計(jì)算梯度,模塊必須具有反向傳播方法。幸運(yùn)的是,由于自動(dòng)微分(在2.5 節(jié)中介紹)在定義我們自己的模塊時(shí)提供了一些幕后魔法,我們只需要擔(dān)心參數(shù)和前向傳播方法。
首先,我們重新審視用于實(shí)現(xiàn) MLP 的代碼(第 5.1 節(jié))。以下代碼生成一個(gè)網(wǎng)絡(luò),該網(wǎng)絡(luò)具有一個(gè)具有 256 個(gè)單元和 ReLU 激活的全連接隱藏層,后跟一個(gè)具有 10 個(gè)單元的全連接輸出層(無激活函數(shù))。
net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(), nn.LazyLinear(10))
X = torch.rand(2, 20)
net(X).shape
torch.Size([2, 10])
在這個(gè)例子中,我們通過實(shí)例化一個(gè) 來構(gòu)造我們的模型 nn.Sequential
,層按照它們應(yīng)該被執(zhí)行的順序作為參數(shù)傳遞。簡(jiǎn)而言之,nn.Sequential
定義了一種特殊的Module
,在 PyTorch 中呈現(xiàn)模塊的類。它維護(hù)一個(gè)有序的 constituent 列表Module
。請(qǐng)注意,兩個(gè)完全連接的層中的每一個(gè)都是該類的一個(gè)實(shí)例,Linear
該類本身是 的子類Module
。前向傳播 ( forward
) 方法也非常簡(jiǎn)單:它將列表中的每個(gè)模塊鏈接在一起,將每個(gè)模塊的輸出作為輸入傳遞給下一個(gè)模塊。請(qǐng)注意,到目前為止,我們一直在通過構(gòu)造調(diào)用我們的模型 net(X)
以獲得它們的輸出。這實(shí)際上只是 net.__call__(X)
.
net = nn.Sequential()
net.add(nn.Dense(256, activation='relu'))
net.add(nn.Dense(10))
net.initialize()
X = np.random.uniform(size=(2, 20))
net(X).shape
(2, 10)
In this example, we constructed our model by instantiating an nn.Sequential
, assigning the returned object to the net
variable. Next, we repeatedly call its add
method, appending layers in the order that they should be executed. In short, nn.Sequential
defines a special kind of Block
, the class that presents a module in Gluon. It maintains an ordered list of constituent Block
s. The add
method simply facilitates the addition of each successive Block
to the list. Note that each layer is an instance of the Dense
class which is itself a subclass of Block
. The forward propagation (forward
) method is also remarkably simple: it chains each Block
in the list together, passing the output of each as input to the next. Note that until now, we have been invoking our models via the construction net(X)
to obtain their outputs. This is actually just shorthand for net.forward(X)
, a slick Python trick achieved via the Block
class’s __call__
method.
net = nn.Sequential([nn.Dense(256), nn.relu, nn.Dense(10)])
# get_key is a d2l saved function returning jax.random.PRNGKey(random_seed)
X = jax.random.uniform(d2l.get_key(), (2, 20))
params = net.init(d2l.get_key(), X)
net.apply(params, X).shape
(2, 10)
TensorShape([2, 10])
In this example, we constructed our model by instantiating an keras.models.Sequential
, with layers in the order that they should be executed passed as arguments. In short, Sequential
defines a special kind of keras.Model
, the class that presents a module in Keras. It maintains an ordered list of constituent Model
s. Note that each of the two fully connected layers is an instance of the Dense
class which is itself a subclass of Model
. The forward propagation (call
) method is also remarkably simple: it chains each module in the list together, passing the output of each as input to the next. Note that until now, we have been invoking our models via the construction net(X)
to obtain their outputs. This is actually just shorthand for net.call(X)
, a slick Python trick achieved via the module class’s __call__
method.
6.1.1. 自定義模塊
也許培養(yǎng)關(guān)于模塊如何工作的直覺的最簡(jiǎn)單方法是我們自己實(shí)現(xiàn)一個(gè)。在我們實(shí)現(xiàn)自己的自定義模塊之前,我們先簡(jiǎn)單總結(jié)一下每個(gè)模塊必須提供的基本功能:
-
攝取輸入數(shù)據(jù)作為其前向傳播方法的參數(shù)。
-
通過讓前向傳播方法返回一個(gè)值來生成輸出。請(qǐng)注意,輸出可能具有與輸入不同的形狀。例如,我們上面模型中的第一個(gè)全連接層接收任意維度的輸入,但返回 256 維度的輸出。
-
計(jì)算其輸出相對(duì)于其輸入的梯度,可以通過其反向傳播方法訪問。通常這會(huì)自動(dòng)發(fā)生。
-
存儲(chǔ)并提供對(duì)執(zhí)行前向傳播計(jì)算所需的那些參數(shù)的訪問。
-
根據(jù)需要初始化模型參數(shù)。
在下面的代碼片段中,我們從頭開始編寫一個(gè)模塊,對(duì)應(yīng)于一個(gè)包含 256 個(gè)隱藏單元的隱藏層和一個(gè) 10 維輸出層的 MLP。請(qǐng)注意,MLP
下面的類繼承了代表模塊的類。我們將嚴(yán)重依賴父類的方法,僅提供我們自己的構(gòu)造函數(shù)(__init__
Python 中的方法)和前向傳播方法。
class MLP(nn.Module):
def __init__(self):
# Call the constructor of the parent class nn.Module to perform
# the necessary initialization
super().__init__()
self.hidden = nn.LazyLinear(256)
self.out = nn.LazyLinear(10)
# Define the forward propagation of the model, that is, how to return the
# required model output based on the input X
def forward(self, X):
return self.out(F.relu(self.hidden(X)))
class MLP(nn.Block):
def __init__(self):
# Call the constructor of the MLP parent class nn.Block to perform
# the necessary initialization
super().__init__()
self.hidden = nn.Dense(256, activation='relu')
self.out = nn.Dense(10)
# Define the forward propagation of the model, that is, how to return the
# required model output based on the input X
def forward(self, X):
return self.out(self.hidden(X))
class MLP(tf.keras.Model):
def __init__(self):
# Call the constructor of the parent class tf.keras.Model to perform
# the necessary initialization
super().__init__()
self.hidden = tf.keras.layers.Dense(units=256, activation=tf.nn.relu)
self.out = tf.keras.layers.Dense(units=10)
# Define the forward propagation of the model, that is, how to return the
# required model output based on the input X
def call(self, X):
return self.out(self.hidden((X)))
讓我們首先關(guān)注前向傳播方法。請(qǐng)注意,它以 X
輸入為輸入,應(yīng)用激活函數(shù)計(jì)算隱藏表示,并輸出其對(duì)數(shù)。在這個(gè)MLP
實(shí)現(xiàn)中,兩層都是實(shí)例變量。要了解為什么這是合理的,想象一下實(shí)例化兩個(gè) MLPnet1
和net2
,并在不同的數(shù)據(jù)上訓(xùn)練它們。自然地,我們希望它們代表兩種不同的學(xué)習(xí)模型。
我們?cè)跇?gòu)造函數(shù)中實(shí)例化 MLP 的層,隨后在每次調(diào)用前向傳播方法時(shí)調(diào)用這些層。注意幾個(gè)關(guān)鍵細(xì)節(jié)。首先,我們的自定義方法通過讓我們免于重述適用于大多數(shù)模塊的樣板代碼的痛苦來__init__
調(diào)用父類的方法。然后我們實(shí)例化我們的兩個(gè)完全連接的層,將它們分配給 和。請(qǐng)注意,除非我們實(shí)現(xiàn)一個(gè)新層,否則我們不必?fù)?dān)心反向傳播方法或參數(shù)初始化。系統(tǒng)會(huì)自動(dòng)生成這些方法。讓我們?cè)囋囘@個(gè)。__init__
super().__init__()
self.hidden
評(píng)論