UIUC華人博士生團(tuán)隊(duì)提出了對(duì)常用機(jī)器學(xué)習(xí)模型優(yōu)化器Adam的新改進(jìn)RAdam,省去了使用Adam必須的“預(yù)熱”環(huán)節(jié),既能保證學(xué)習(xí)率和收斂速度,又能有效避免模型陷入“局部最優(yōu)解”的陷阱,堪稱Adam的優(yōu)秀接班人!
近日,UIUC的華人博士生Liyuan Liu等人的一篇新論文中介紹了Adam模型的新改進(jìn)“Rectified Adam”(簡(jiǎn)稱RAdam)。這是基于原始Adam作出的改進(jìn),它既能實(shí)現(xiàn)Adam快速收斂的優(yōu)點(diǎn),又具備SGD方法的優(yōu)勢(shì),令模型收斂至質(zhì)量更高的結(jié)果。
有國(guó)外網(wǎng)友親測(cè),效果拔群。
以下是網(wǎng)友測(cè)試過(guò)程和RAdam的簡(jiǎn)介:
我已經(jīng)在FastAI框架下測(cè)試了RAdam,并快速獲得了高精度新記錄,而不是ImageNette上兩個(gè)難以擊敗的FastAI排行榜得分。我今年測(cè)試了許多論文中的模型,大部分模型似乎在文中給出的特定數(shù)據(jù)集上表現(xiàn)良好,而在我嘗試的新的數(shù)據(jù)集上表現(xiàn)不佳。但RAdam不一樣,看起來(lái)真的實(shí)現(xiàn)了性能提升,可能成為vanilla Adam的永久“接班人”。
RAdam具備在多種學(xué)習(xí)率下的強(qiáng)大性能,同時(shí)仍能快速收斂并實(shí)現(xiàn)更高的性能(CIFAR數(shù)據(jù)集)
RAdam和XResNet50,5個(gè)epoch精度即達(dá)到86%
Imagenette排行榜:達(dá)到當(dāng)前最高性能84.6%
下面來(lái)看看RAdam的內(nèi)部機(jī)制,看看為什么能夠?qū)崿F(xiàn)更優(yōu)質(zhì)的收斂,更好的訓(xùn)練穩(wěn)定性(相對(duì)所選擇的學(xué)習(xí)率更不敏感),為何基于幾乎所有AI應(yīng)用都能實(shí)現(xiàn)更好的準(zhǔn)確性和通用性。
不只是對(duì)于CNN:RAdam在Billion Word Dataset上的表現(xiàn)優(yōu)于LSTM
RAdam:無(wú)需預(yù)熱,避免模型收斂至“局部最優(yōu)解”
作者指出,雖然每個(gè)人都在努力實(shí)現(xiàn)快速穩(wěn)定的優(yōu)化算法,但包括Adam,RMSProp等在內(nèi)的自適應(yīng)學(xué)習(xí)率優(yōu)化器都存在收斂到質(zhì)量較差的局部最優(yōu)解的可能。因此,幾乎每個(gè)人都使用某種形式的“預(yù)熱”方式來(lái)避免這種風(fēng)險(xiǎn)。但為什么需要預(yù)熱?
由于目前對(duì)AI社區(qū)中對(duì)于“預(yù)熱”出現(xiàn)的潛在原因,甚至最佳實(shí)踐的理解有限,本文作者試圖揭示這個(gè)問(wèn)題的基礎(chǔ)。他們發(fā)現(xiàn),根本問(wèn)題是自適應(yīng)學(xué)習(xí)率優(yōu)化器具有太大的變化,特別是在訓(xùn)練的早期階段,并且可能由于訓(xùn)練數(shù)據(jù)量有限出現(xiàn)過(guò)度跳躍,因此可能收斂至局部最優(yōu)解。
使用原始Adam必須預(yù)熱,否則正態(tài)分布會(huì)變得扭曲,是否預(yù)熱的分布對(duì)比見(jiàn)上圖
因此,當(dāng)優(yōu)化器僅使用有限的訓(xùn)練數(shù)據(jù)時(shí),采用“預(yù)熱”(這一階段的學(xué)習(xí)率要慢得多)是自適應(yīng)優(yōu)化器要求抵消過(guò)度方差的要求。
簡(jiǎn)而言之,vanilla Adam和其他自適應(yīng)學(xué)習(xí)速率優(yōu)化器可能會(huì)基于訓(xùn)練早期數(shù)據(jù)太少而做出錯(cuò)誤決策。因此,如果沒(méi)有某種形式的預(yù)熱,很可能在訓(xùn)練一開(kāi)始便會(huì)收斂局部最優(yōu)解,這使得訓(xùn)練曲線由于糟糕的開(kāi)局而變得更長(zhǎng)、更難。
然后,作者在不用預(yù)熱的情況下運(yùn)行了Adam,但是在前2000次迭代(adam-2k)中避免使用動(dòng)量,結(jié)果實(shí)現(xiàn)了與“Adam+預(yù)熱”差不多的結(jié)果,從而驗(yàn)證了“預(yù)熱”在訓(xùn)練的初始階段中起到“降低方差”的作用,并可以避免Adam在沒(méi)有足夠數(shù)據(jù)的情況下在開(kāi)始訓(xùn)練時(shí)即陷入局部最優(yōu)解。
適用于多個(gè)數(shù)據(jù)集,堪稱Adam的優(yōu)秀“接班人”
我們可以將“預(yù)熱”作為降低方差的方法,但所需的預(yù)熱程度未知,而且具體情況會(huì)根據(jù)數(shù)據(jù)集不同而變化,本文確定了一個(gè)數(shù)學(xué)算法,作為“動(dòng)態(tài)方差減少器”。作者建立了一個(gè)“整流項(xiàng)”,可以緩慢而穩(wěn)定地允許將自適應(yīng)動(dòng)量作為基礎(chǔ)方差的函數(shù)進(jìn)行充分表達(dá)。完整模型是這樣的:
作者指出,在某些情況下,由于衰減率和基本方差的存在,RAdam可以在動(dòng)量等效的情況下退化為SGD。
實(shí)驗(yàn)表明,RAdam優(yōu)于傳統(tǒng)的手動(dòng)預(yù)熱調(diào)整,其中需要預(yù)熱或猜測(cè)需要預(yù)熱的步驟數(shù)。RAdam自動(dòng)提供方差縮減,在各種預(yù)熱長(zhǎng)度和各種學(xué)習(xí)率下都優(yōu)于手動(dòng)預(yù)熱。
總之,RAdam可以說(shuō)是AI最先進(jìn)的優(yōu)化器,可以說(shuō)是Adam的優(yōu)秀接班人!
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4350瀏覽量
63047 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8453瀏覽量
133152 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861
原文標(biāo)題:Adam可以換了?UIUC中國(guó)博士生提出RAdam,收斂快精度高,大小模型通吃
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
直播預(yù)約 |數(shù)據(jù)智能系列講座第5期:理解并改進(jìn)基礎(chǔ)模型
![直播預(yù)約 |數(shù)據(jù)智能系列講座第5期:理解并<b class='flag-5'>改進(jìn)</b>基礎(chǔ)<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/E5/E7/wKgZomZFcsyAcT-5AAA2A4dQRkQ217.png)
FPC&FFC連接器圖紙
Al大模型機(jī)器人
基于MM32F5270的Ethernet實(shí)現(xiàn)LwIP協(xié)議棧移植
![基于MM32F5270的Ethernet實(shí)現(xiàn)LwIP協(xié)議棧移植](https://file1.elecfans.com/web2/M00/F2/4C/wKgaomZ05aiAd7a_AAAxqH8z314231.png)
評(píng)論