在第 12.4 節(jié)中,我們回顧了在執(zhí)行隨機(jī)梯度下降時(shí)會(huì)發(fā)生什么,即,在只有梯度的噪聲變體可用的情況下執(zhí)行優(yōu)化時(shí)。特別是,我們注意到對(duì)于噪聲梯度,我們?cè)谶x擇面對(duì)噪聲的學(xué)習(xí)率時(shí)需要格外謹(jǐn)慎。如果我們將它降低得太快,收斂就會(huì)停滯。如果我們過于寬容,我們將無法收斂到一個(gè)足夠好的解決方案,因?yàn)樵肼晻?huì)不斷驅(qū)使我們遠(yuǎn)離最優(yōu)解。
12.6.1。基本
在本節(jié)中,我們將探索更有效的優(yōu)化算法,尤其是針對(duì)實(shí)踐中常見的某些類型的優(yōu)化問題。
12.6.1.1。漏平均值
在上一節(jié)中,我們討論了小批量 SGD 作為加速計(jì)算的一種方法。它還有一個(gè)很好的副作用,即平均梯度減少了方差量。小批量隨機(jī)梯度下降可以通過以下方式計(jì)算:
為了保持符號(hào)簡(jiǎn)單,我們?cè)谶@里使用 hi,t?1=?wf(xi,wt?1) 作為樣本的隨機(jī)梯度下降i使用及時(shí)更新的權(quán)重t?1. 如果我們能夠從方差減少的效果中受益,甚至超越小批量的平均梯度,那就太好了。完成此任務(wù)的一個(gè)選擇是用“l(fā)eaky average”代替梯度計(jì)算:
對(duì)于一些β∈(0,1). 這有效地將瞬時(shí)梯度替換為對(duì)多個(gè)過去梯度進(jìn)行平均的梯度 。v稱為速度。它積累了過去的梯度,類似于一個(gè)重球從目標(biāo)函數(shù)景觀上滾下來如何對(duì)過去的力進(jìn)行積分。為了更詳細(xì)地了解發(fā)生了什么,讓我們展開vt遞歸地進(jìn)入
大的β相當(dāng)于長(zhǎng)期平均水平,而小 β僅相當(dāng)于相對(duì)于梯度法的輕微修正。新的梯度替換不再指向特定實(shí)例上最速下降的方向,而是指向過去梯度的加權(quán)平均值的方向。這使我們能夠?qū)崿F(xiàn)批量平均的大部分好處,而無需實(shí)際計(jì)算其梯度的成本。稍后我們將更詳細(xì)地重新討論這個(gè)平均過程。
上述推理構(gòu)成了現(xiàn)在所謂的 加速梯度方法的基礎(chǔ),例如動(dòng)量梯度。他們享有額外的好處,即在優(yōu)化問題是病態(tài)的情況下更有效(即,在某些方向上進(jìn)展比其他方向慢得多,類似于狹窄的峽谷)。此外,它們?cè)试S我們對(duì)后續(xù)梯度進(jìn)行平均以獲得更穩(wěn)定的下降方向。事實(shí)上,即使對(duì)于無噪聲凸問題,加速方面也是動(dòng)量起作用的關(guān)鍵原因之一。
正如人們所預(yù)料的那樣,由于其功效,勢(shì)頭是深度學(xué)習(xí)及其他領(lǐng)域優(yōu)化的一個(gè)深入研究的課題。例如,請(qǐng)參閱Goh(2017 年)撰寫的 精美說明文章,以獲取深入分析和交互式動(dòng)畫。它是由Polyak ( 1964 )提出的。Nesterov(2018)在凸優(yōu)化的背景下進(jìn)行了詳細(xì)的理論討論。長(zhǎng)期以來,眾所周知,深度學(xué)習(xí)的勢(shì)頭是有益的。參見例如Sutskever等人的討論 。( 2013 )了解詳情。
12.6.1.2。病態(tài)問題
為了更好地理解動(dòng)量法的幾何特性,我們重新審視了梯度下降法,盡管它的目標(biāo)函數(shù)明顯不太令人滿意。回想一下我們?cè)?/font>12.3 節(jié)中使用的f(x)=x12+2x22,即適度扭曲的橢球物鏡。我們通過在x1方向通過
像之前一樣
評(píng)論