古风,神武八荒一颗小说,玄幻小说改编的电视剧

導(dǎo)讀

從成千上萬小時(shí)的模型訓(xùn)練中累計(jì)的經(jīng)驗(yàn)和教訓(xùn)。

在我們的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室，我們?cè)谠S多高性能的機(jī)器已經(jīng)積累了成千上萬個(gè)小時(shí)的訓(xùn)練。然而，并不是只有計(jì)算機(jī)在這個(gè)過程中學(xué)到了很多東西：我們自己也犯了很多錯(cuò)誤，修復(fù)了很多錯(cuò)誤。

在這里，我們根據(jù)我們的經(jīng)驗(yàn)(主要基于 TensorFlow)提出了一些訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的實(shí)用技巧。有些建議對(duì)你來說可能是顯而易見的，但對(duì)我們中的某個(gè)人來說卻不是。其他的建議可能不適用，甚至對(duì)你的特定任務(wù)來說是不好的建議：謹(jǐn)慎使用！

我們承認(rèn)這些都是眾所周知的方法。我們也站在巨人的肩膀上！我們這篇文章的目的僅僅是對(duì)它們進(jìn)行高層次的總結(jié)，以便在實(shí)踐中使用。

通用 Tips

使用 ADAM 優(yōu)化器。它真的很好用。比起傳統(tǒng)的優(yōu)化方法，如原始的梯度下降，我更喜歡它。注意：如果要保存和恢復(fù)權(quán)重，記得在設(shè)置好AdamOptimizer之后設(shè)置Saver ，因?yàn)?ADAM 也有需要恢復(fù)的狀態(tài)(即每個(gè)權(quán)重的學(xué)習(xí)率)。

ReLU 是最好的非線性(激活函數(shù))。這有點(diǎn)像說 Sublime 是最好的文本編輯器。但實(shí)際上，ReLUs 是快速的、簡(jiǎn)單的，而且令人驚訝的是，它們能夠工作，并且沒有梯度衰減的問題。雖然 sigmoid 是一種常見的教科書式激活函數(shù)，但它不能很好地通過 DNNs 傳播梯度。

不要在輸出層使用激活函數(shù)。這應(yīng)該是顯而易見的，但這是一個(gè)很容易犯的錯(cuò)誤，如果你用一個(gè)共享函數(shù)構(gòu)建每個(gè)層：一定要在輸出處關(guān)閉激活函數(shù)。

一定要在每一層添加一個(gè)偏差。這是 ML 101：偏差本質(zhì)上是將飛機(jī)轉(zhuǎn)換成最佳位置。在y=mx+b中，b 是偏差，允許直線向上或向下移動(dòng)到“最合適”的位置。

使用 variance-scaled 初始化。在 Tensorflow 中，就像tf.contrib.layers.variance_scaling_initializer()。在我們的經(jīng)驗(yàn)中，這比常規(guī)的高斯分布、截?cái)嗟恼植己?Xavier 更能泛化/縮放。粗略地說， variance scaling 初始化根據(jù)每一層的輸入或輸出的數(shù)量來調(diào)整初始隨機(jī)權(quán)重的方差(TensorFlow 中的默認(rèn)值是輸入的數(shù)量)，從而幫助信號(hào)更深入地傳播到網(wǎng)絡(luò)中，而不需要額外的“技巧”，比如 clipping 或 batch normalization。Xavier 是很相似的方法，但是 Xavier 的所有層的方差幾乎相同，在那些層的形狀變化很大的網(wǎng)絡(luò)(通常是卷積網(wǎng)絡(luò))中，可能不能很好地處理每一層相同的變化。

白化(歸一化)你的輸入數(shù)據(jù)。訓(xùn)練時(shí)，減去數(shù)據(jù)集的均值，然后除以其標(biāo)準(zhǔn)差。你需要向各個(gè)方向拉伸和拉伸的幅度越少，你的網(wǎng)絡(luò)學(xué)習(xí)就會(huì)越快、越容易。保持輸入數(shù)據(jù)的均值以不變的方差為中心有助于解決這個(gè)問題。你還必須對(duì)每個(gè)測(cè)試輸入執(zhí)行相同的標(biāo)準(zhǔn)化，因此要確保你的訓(xùn)練集與真實(shí)數(shù)據(jù)相似。

以合理保留其動(dòng)態(tài)范圍的方式縮放輸入數(shù)據(jù)。這與歸一化有關(guān)，但應(yīng)該在歸一化之前進(jìn)行。例如，實(shí)際范圍為[0,140000000]的數(shù)據(jù)“x”通常可以用tanh(x)或tanh(x/C)來處理，其中 C是某個(gè)常數(shù)，它拉伸曲線以適應(yīng) tanh 函數(shù)動(dòng)態(tài)的、傾斜的部分中的更多輸入范圍。特別是在輸入數(shù)據(jù)的一端或兩端可能是無界的情況下，神經(jīng)網(wǎng)絡(luò)在(0,1)之間可以更好地學(xué)習(xí)。

不要費(fèi)心降低學(xué)習(xí)速度(通常)。學(xué)習(xí)率下降在 SGD 中更為常見，但 ADAM 自然地處理了這個(gè)問題。如果你絕對(duì)想要榨干每一盎司的表現(xiàn)：在訓(xùn)練結(jié)束后短時(shí)間內(nèi)降低學(xué)習(xí)速度，你可能會(huì)看到一個(gè)突然的，非常小的誤差下降，然后它會(huì)再次變平。

如果你的卷積層有 64 或 128 個(gè)濾波器，那可能就足夠了。特別是對(duì)于深度網(wǎng)絡(luò)。實(shí)際上，128 已經(jīng)很多了。如果你已經(jīng)有了大量的濾波器，那么添加更多的濾波器可能不會(huì)改善性能。

池化用于轉(zhuǎn)換不變性。池化本質(zhì)上是讓網(wǎng)絡(luò)學(xué)習(xí)圖像“那部分”的“大意”。例如，最大池可以幫助卷積網(wǎng)絡(luò)對(duì)圖像中特征的平移、旋轉(zhuǎn)和縮放變得健壯。

調(diào)試神經(jīng)網(wǎng)絡(luò)

如果你的網(wǎng)絡(luò)沒有學(xué)習(xí)(意思是：在訓(xùn)練過程中，損失沒有收斂，或者你沒有得到你期望的結(jié)果)，試試下面的建議：

過擬合！如果你的網(wǎng)絡(luò)沒有在學(xué)習(xí)，首先要做的就是在單個(gè)數(shù)據(jù)樣本上讓網(wǎng)絡(luò)過擬合。這樣的話，準(zhǔn)確度應(yīng)該是 100%或 99.99%，或者接近于 0 的誤差。如果你的神經(jīng)網(wǎng)絡(luò)不能對(duì)單個(gè)數(shù)據(jù)點(diǎn)進(jìn)行過擬合，那么可能是體系結(jié)構(gòu)出現(xiàn)嚴(yán)重問題，但問題可能很微妙。如果你可以過擬合一個(gè)數(shù)據(jù)點(diǎn)，但是在更大的集合上的訓(xùn)練仍然不收斂，請(qǐng)嘗試以下建議。

降低學(xué)習(xí)率。你的網(wǎng)絡(luò)學(xué)習(xí)速度會(huì)變慢，但它可能會(huì)進(jìn)入一個(gè)以前無法進(jìn)入的最小值，因?yàn)橹八牟介L(zhǎng)太大了。(直覺上，當(dāng)你真正想進(jìn)入溝底時(shí)，你的錯(cuò)誤是最低的，想象一下跨過路邊的水溝。)

提高學(xué)習(xí)率。這將加快訓(xùn)練，幫助收緊反饋回路，這意味著你會(huì)更早知道你的網(wǎng)絡(luò)是否在工作。雖然網(wǎng)絡(luò)應(yīng)該更快地收斂，但它的結(jié)果可能不會(huì)很好，而且“收斂”的過程實(shí)際上可能會(huì)跳來跳去。(使用 ADAM 的時(shí)候，我們發(fā)現(xiàn)~0.001 是一個(gè)非常好的值，在許多實(shí)驗(yàn)中都是這樣。)

減小 minibatch 大小。將 minibatch 大小減少到 1 可以提供與權(quán)重更新相關(guān)的更細(xì)粒度的反饋，你可以使用 TensorBoard(或其他調(diào)試/可視化工具)報(bào)告這些更新。

去掉 batch normalization。隨著批大小減少到 1，這樣做可以梯度消失或梯度爆炸。幾個(gè)星期以來，我們的網(wǎng)絡(luò)都沒有收斂，當(dāng)我們刪除了 batch normalization 之后，我們意識(shí)到在第二次迭代時(shí)輸出都是 NaN。Batch norm 的作用是給需要止血帶的東西貼上創(chuàng)可貼。它有它用的位置，但只有在你網(wǎng)絡(luò)是沒有 bug 的情況下才可以用。

增加 minibatch 大小。更大的 minibatch — 如果可以的話，使用整個(gè)訓(xùn)練集 — 減少梯度更新中的方差，使每次迭代更精確。換句話說，讓權(quán)重更新的方向是正確的。但是！它的有用性有一個(gè)有效的上限，物理內(nèi)存的限制。通常，我們發(fā)現(xiàn)這不如前兩個(gè)建議那么有用，這兩個(gè)建議將 minibatch 大小減少到 1 并刪除 batch normalization。

檢查一下 reshaping。劇烈的 reshaping(比如改變圖像的 X、Y 維度)會(huì)破壞空間的局部性，使得網(wǎng)絡(luò)更難學(xué)習(xí)，因?yàn)樗脖仨殞W(xué)習(xí) reshaping。(自然景觀變得支離破碎。自然特征在空間上是局部的，這就是為什么 conv 網(wǎng)如此有效的原因。如果使用多個(gè)圖像/通道進(jìn)行 reshape，要特別小心，使用numpy.stack()進(jìn)行適當(dāng)?shù)膶?duì)齊。

仔細(xì)檢查你的損失函數(shù)。如果使用復(fù)合函數(shù)，嘗試將其簡(jiǎn)化為 L1 或 L2。我們發(fā)現(xiàn) L1 對(duì)異常值的敏感度較低，當(dāng)遇到有噪聲的批處理或訓(xùn)練點(diǎn)時(shí)，L1 的調(diào)整幅度較小。

仔細(xì)檢查你的可視化效果，如果適用的話。你的可視化庫(matplotlib, OpenCV 等)是調(diào)整數(shù)值的比例，還是剪切它們？還可以考慮使用一種感覺上一致的配色方案。

用一個(gè)例子來學(xué)習(xí)一下

為了使上面描述的過程更接近實(shí)際，這里有一些損失圖(通過 TensorBoard 畫出來的)，用于我們構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的一些實(shí)際回歸實(shí)驗(yàn)。

起初，這個(gè)網(wǎng)絡(luò)根本沒有學(xué)習(xí)：