Dropout?是用于神經(jīng)網(wǎng)絡(luò)防止過擬合的正則化技術(shù)。它通過在每次訓(xùn)練迭代中,隨機(jī)設(shè)置神經(jīng)元中的一小部分為0 來阻止神經(jīng)元共適應(yīng)(co-adapting)。Dropout可以通過多種方式進(jìn)行解讀,例如,從不同網(wǎng)絡(luò)的指數(shù)數(shù)字中隨機(jī)取樣。Dropout 層通過它們在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用而得到普及,也被應(yīng)用到了其它層上,包括輸入嵌入或循環(huán)網(wǎng)絡(luò)。
論文:Dropout: 一種防止神經(jīng)網(wǎng)絡(luò)過擬合的簡單方法
Dropout: A Simple Way to Prevent Neural Networks fromOverfitting
論文:循環(huán)神經(jīng)網(wǎng)絡(luò)正則化
Recurrent Neural Network Regularization
二十一、嵌入(Embedding)
一個嵌入映射到一個輸入表征,例如一個詞或一句話映射到一個矢量。一種流行的嵌入是詞語嵌入(word embedding,國內(nèi)常用的說法是:詞向量),如 word2vec 或 GloVe。也可以嵌入句子、段落或圖像。例如,把圖像和他們的文本描述映射到一個共同的嵌入空間,并最小化它們之間的距離,就可以將標(biāo)簽和圖像進(jìn)行匹配。嵌入也可作為監(jiān)督任務(wù)的一部分,例如情感分析(Sentiment Analysis)。一般地,一個網(wǎng)絡(luò)的輸入層通過預(yù)先訓(xùn)練的嵌入進(jìn)行初始化,然后根據(jù)當(dāng)前任務(wù)進(jìn)行微調(diào)(fine-tuned)。
二十二、梯度爆炸問題(Exploding Gradient Problem)
梯度爆炸問題是梯度消失問題(Vanishing Gradient Problem)的對立面。在深度神經(jīng)網(wǎng)絡(luò)中,梯度可能會在反向傳播過程中爆炸,導(dǎo)致數(shù)字溢出。解決梯度爆炸的一個常見技術(shù)是梯度裁剪(Gradient Clipping)。
論文:訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的困難之處
On the difficulty of training Recurrent Neural Networks
二十三、微調(diào)(Fine-Tuning)
Fine-Tuning使用來自另一個任務(wù)(例如一個無監(jiān)督訓(xùn)練網(wǎng)絡(luò))的參數(shù)初始化網(wǎng)絡(luò),再基于當(dāng)前任務(wù)更新這些參數(shù)。例如,自然語言處理架構(gòu)通常使用 word2vec 這樣的預(yù)訓(xùn)練的詞向量(word embeddings),然后這些詞向量會在訓(xùn)練過程中基于特定的任務(wù)(如情感分析)進(jìn)行更新。
二十四、梯度裁剪(Gradient Clipping)
梯度裁剪是一種在深度較高的網(wǎng)絡(luò)(通常是循環(huán)神經(jīng)網(wǎng)絡(luò))中用于防止梯度爆炸(exploding gradient)的技術(shù)。執(zhí)行梯度裁剪的方法有很多,常見的一種是,當(dāng)參數(shù)矢量的 L2 范數(shù)(L2 norm)超過一個特定閾值時,對參數(shù)矢量的梯度進(jìn)行標(biāo)準(zhǔn)化,這個特定閾值根據(jù)以下函數(shù)確定:新梯度=梯度*閾值/L2范數(shù)(梯度){new_gradients = gradients * threshold / l2_norm(gradients)}。
論文:訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的困難之處
On the difficulty of training Recurrent Neural Networks
二十五、GloVe
GloVe?是一種為話語獲取矢量表征(嵌入)的無監(jiān)督學(xué)習(xí)算法。GloVe 的使用目的和 word2vec 一樣,但 GloVe 具有不同的矢量表征,因?yàn)樗窃诠铂F(xiàn)(co-occurrence)統(tǒng)計(jì)數(shù)據(jù)上訓(xùn)練的。
論文:GloVe:用于詞匯表征(WordRepresentation)的全局矢量(Global Vector)
GloVe: Global Vectors for Word Representation
二十六、GoogleLeNet
GoogleLeNet?是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),曾贏得2014 年 ILSVRC 挑戰(zhàn)賽。這種網(wǎng)絡(luò)使用 Inception 模塊(Inception Module)以減少參數(shù)和提高網(wǎng)絡(luò)中計(jì)算資源的利用率。
論文:使用卷積獲得更深
Going Deeper with Convolutions
二十七、GRU
GRU(Gated Recurrent Unit:門控循環(huán)單元)是一種 LSTM 單元的簡化版本,擁有更少的參數(shù)。和LSTM cell一樣,它使用門控機(jī)制,通過防止梯度消失問題(vanishing gradient problem)讓循環(huán)神經(jīng)網(wǎng)絡(luò)可以有效學(xué)習(xí)長程依賴(long-range dependency)。GRU 包含一個復(fù)位和更新門,它們可以根據(jù)當(dāng)前時間步驟的新值決定舊記憶中哪些部分需要保留或更新。
論文:為統(tǒng)計(jì)機(jī)器翻譯使用 RNN 編碼器-解碼器學(xué)習(xí)短語表征
Learning Phrase Representations using RNN Encoder-Decoder forStatistical Machine Translation
二十八、Highway Layer
Highway Layer 是使用門控機(jī)制控制通過層的信息流的一種神經(jīng)網(wǎng)絡(luò)層。堆疊多個 HighwayLayer 層可讓訓(xùn)練非常深的網(wǎng)絡(luò)成為可能。Highway Layer 的基本公式是 T * h(x) + (1 - T) * x。其中, T 是學(xué)習(xí)過的門控函數(shù),取值在 0 到 1 之間;h(x) 是一個任意的輸入變換;x 是輸入。
? ? ? ? 論文:Highway Networks
二十九、ICML
即國際機(jī)器學(xué)習(xí)大會(International Conference for Machine Learning),一個頂級的機(jī)器學(xué)習(xí)會議。
三十、ILSVRC
評論