在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Adam模型的新改進(jìn)“Rectified Adam”

DPVg_AI_era ? 來(lái)源:lq ? 2019-09-13 16:31 ? 次閱讀

UIUC華人博士生團(tuán)隊(duì)提出了對(duì)常用機(jī)器學(xué)習(xí)模型優(yōu)化器Adam的新改進(jìn)RAdam,省去了使用Adam必須的“預(yù)熱”環(huán)節(jié),既能保證學(xué)習(xí)率和收斂速度,又能有效避免模型陷入“局部最優(yōu)解”的陷阱,堪稱Adam的優(yōu)秀接班人!

近日,UIUC的華人博士生Liyuan Liu等人的一篇新論文中介紹了Adam模型的新改進(jìn)“Rectified Adam”(簡(jiǎn)稱RAdam)。這是基于原始Adam作出的改進(jìn),它既能實(shí)現(xiàn)Adam快速收斂的優(yōu)點(diǎn),又具備SGD方法的優(yōu)勢(shì),令模型收斂至質(zhì)量更高的結(jié)果。

有國(guó)外網(wǎng)友親測(cè),效果拔群。

以下是網(wǎng)友測(cè)試過(guò)程和RAdam的簡(jiǎn)介:

我已經(jīng)在FastAI框架下測(cè)試了RAdam,并快速獲得了高精度新記錄,而不是ImageNette上兩個(gè)難以擊敗的FastAI排行榜得分。我今年測(cè)試了許多論文中的模型,大部分模型似乎在文中給出的特定數(shù)據(jù)集上表現(xiàn)良好,而在我嘗試的新的數(shù)據(jù)集上表現(xiàn)不佳。但RAdam不一樣,看起來(lái)真的實(shí)現(xiàn)了性能提升,可能成為vanilla Adam的永久“接班人”。

RAdam具備在多種學(xué)習(xí)率下的強(qiáng)大性能,同時(shí)仍能快速收斂并實(shí)現(xiàn)更高的性能(CIFAR數(shù)據(jù)集)

RAdam和XResNet50,5個(gè)epoch精度即達(dá)到86%

Imagenette排行榜:達(dá)到當(dāng)前最高性能84.6%

下面來(lái)看看RAdam的內(nèi)部機(jī)制,看看為什么能夠?qū)崿F(xiàn)更優(yōu)質(zhì)的收斂,更好的訓(xùn)練穩(wěn)定性(相對(duì)所選擇的學(xué)習(xí)率更不敏感),為何基于幾乎所有AI應(yīng)用都能實(shí)現(xiàn)更好的準(zhǔn)確性和通用性。

不只是對(duì)于CNN:RAdam在Billion Word Dataset上的表現(xiàn)優(yōu)于LSTM

RAdam:無(wú)需預(yù)熱,避免模型收斂至“局部最優(yōu)解”

作者指出,雖然每個(gè)人都在努力實(shí)現(xiàn)快速穩(wěn)定的優(yōu)化算法,但包括Adam,RMSProp等在內(nèi)的自適應(yīng)學(xué)習(xí)率優(yōu)化器都存在收斂到質(zhì)量較差的局部最優(yōu)解的可能。因此,幾乎每個(gè)人都使用某種形式的“預(yù)熱”方式來(lái)避免這種風(fēng)險(xiǎn)。但為什么需要預(yù)熱?

由于目前對(duì)AI社區(qū)中對(duì)于“預(yù)熱”出現(xiàn)的潛在原因,甚至最佳實(shí)踐的理解有限,本文作者試圖揭示這個(gè)問(wèn)題的基礎(chǔ)。他們發(fā)現(xiàn),根本問(wèn)題是自適應(yīng)學(xué)習(xí)率優(yōu)化器具有太大的變化,特別是在訓(xùn)練的早期階段,并且可能由于訓(xùn)練數(shù)據(jù)量有限出現(xiàn)過(guò)度跳躍,因此可能收斂至局部最優(yōu)解。

使用原始Adam必須預(yù)熱,否則正態(tài)分布會(huì)變得扭曲,是否預(yù)熱的分布對(duì)比見(jiàn)上圖

因此,當(dāng)優(yōu)化器僅使用有限的訓(xùn)練數(shù)據(jù)時(shí),采用“預(yù)熱”(這一階段的學(xué)習(xí)率要慢得多)是自適應(yīng)優(yōu)化器要求抵消過(guò)度方差的要求。

簡(jiǎn)而言之,vanilla Adam和其他自適應(yīng)學(xué)習(xí)速率優(yōu)化器可能會(huì)基于訓(xùn)練早期數(shù)據(jù)太少而做出錯(cuò)誤決策。因此,如果沒(méi)有某種形式的預(yù)熱,很可能在訓(xùn)練一開(kāi)始便會(huì)收斂局部最優(yōu)解,這使得訓(xùn)練曲線由于糟糕的開(kāi)局而變得更長(zhǎng)、更難。

然后,作者在不用預(yù)熱的情況下運(yùn)行了Adam,但是在前2000次迭代(adam-2k)中避免使用動(dòng)量,結(jié)果實(shí)現(xiàn)了與“Adam+預(yù)熱”差不多的結(jié)果,從而驗(yàn)證了“預(yù)熱”在訓(xùn)練的初始階段中起到“降低方差”的作用,并可以避免Adam在沒(méi)有足夠數(shù)據(jù)的情況下在開(kāi)始訓(xùn)練時(shí)即陷入局部最優(yōu)解。

適用于多個(gè)數(shù)據(jù)集,堪稱Adam的優(yōu)秀“接班人”

我們可以將“預(yù)熱”作為降低方差的方法,但所需的預(yù)熱程度未知,而且具體情況會(huì)根據(jù)數(shù)據(jù)集不同而變化,本文確定了一個(gè)數(shù)學(xué)算法,作為“動(dòng)態(tài)方差減少器”。作者建立了一個(gè)“整流項(xiàng)”,可以緩慢而穩(wěn)定地允許將自適應(yīng)動(dòng)量作為基礎(chǔ)方差的函數(shù)進(jìn)行充分表達(dá)。完整模型是這樣的:

作者指出,在某些情況下,由于衰減率和基本方差的存在,RAdam可以在動(dòng)量等效的情況下退化為SGD。

實(shí)驗(yàn)表明,RAdam優(yōu)于傳統(tǒng)的手動(dòng)預(yù)熱調(diào)整,其中需要預(yù)熱或猜測(cè)需要預(yù)熱的步驟數(shù)。RAdam自動(dòng)提供方差縮減,在各種預(yù)熱長(zhǎng)度和各種學(xué)習(xí)率下都優(yōu)于手動(dòng)預(yù)熱。

總之,RAdam可以說(shuō)是AI最先進(jìn)的優(yōu)化器,可以說(shuō)是Adam的優(yōu)秀接班人!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4350

    瀏覽量

    63047
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8453

    瀏覽量

    133152
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1210

    瀏覽量

    24861

原文標(biāo)題:Adam可以換了?UIUC中國(guó)博士生提出RAdam,收斂快精度高,大小模型通吃

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    直播預(yù)約 |數(shù)據(jù)智能系列講座第5期:理解并改進(jìn)基礎(chǔ)模型

    鷺島論壇數(shù)據(jù)智能系列講座第5期「理解并改進(jìn)基礎(chǔ)模型」2月19日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目理解并改進(jìn)基礎(chǔ)模型報(bào)告簡(jiǎn)介大型基礎(chǔ)
    的頭像 發(fā)表于 02-11 14:33 ?93次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第5期:理解并<b class='flag-5'>改進(jìn)</b>基礎(chǔ)<b class='flag-5'>模型</b>

    FPC&FFC連接器圖紙

    Adam Tech PCB系列柔性印刷電路(FPC)和柔性扁平電纜(FFC)連接器是LIF(低插入力)設(shè)計(jì),可提供低成本,快速,輕松可靠的柔性印刷電路到PCB的連接。Adam Tech的特殊觸點(diǎn)
    發(fā)表于 01-08 17:57 ?1次下載

    Al大模型機(jī)器人

    豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí),并能夠回答相關(guān)問(wèn)題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性,能夠處理各種類型的任務(wù)和問(wèn)題。持續(xù)學(xué)習(xí)和改進(jìn): 這些模型可以通過(guò)持續(xù)的訓(xùn)練
    發(fā)表于 07-05 08:52

    基于MM32F5270的Ethernet實(shí)現(xiàn)LwIP協(xié)議棧移植

    LwIP是輕量化的TCP/IP協(xié)議,由瑞典計(jì)算機(jī)科學(xué)院(SICS)的Adam Dunkels 開(kāi)發(fā)的一個(gè)小型開(kāi)源的TCP/IP協(xié)議棧。LwIP具有高度可移植性、代碼開(kāi)源,提供了三種編程接口(API):RAW API、NETCONN API 和 Socket API,用于與TCP/IP代碼進(jìn)行通信。
    的頭像 發(fā)表于 06-21 10:28 ?1349次閱讀
    基于MM32F5270的Ethernet實(shí)現(xiàn)LwIP協(xié)議棧移植

    AWS換帥:Adam Selipsky卸任,Matt Garman接任

    亞馬遜云計(jì)算服務(wù)AWS近日宣布,首席執(zhí)行官Adam Selipsky將于下個(gè)月卸任。這位在AWS工作了14年的領(lǐng)導(dǎo)者,將于6月3日正式離開(kāi)公司。
    的頭像 發(fā)表于 05-16 09:32 ?515次閱讀

    求助,大家開(kāi)發(fā)以太網(wǎng)時(shí)候使用什么協(xié)議比較多?

    UIP由瑞典計(jì)算機(jī)科學(xué)學(xué)院(網(wǎng)絡(luò)嵌入式系統(tǒng)小組)的Adam Dunkels開(kāi)發(fā)。 1) 代碼非常少,其協(xié)議棧代碼不到 6K,很方便閱讀和移植。 2) 占用的內(nèi)存數(shù)非常少,RAM 占用僅幾百字節(jié)。 3
    發(fā)表于 05-16 08:01

    助聽(tīng)器降噪神經(jīng)網(wǎng)絡(luò)模型

    增強(qiáng),并在大規(guī) 模數(shù)據(jù)集上進(jìn)行訓(xùn)練。我們能夠展示在堆疊網(wǎng)絡(luò) 方法中使用兩種類型的分析和綜合基礎(chǔ)的優(yōu)勢(shì)。 DTLN 模型在嘈雜的混響環(huán)境中運(yùn)行穩(wěn)健。盡管 我們將基本訓(xùn)練設(shè)置與簡(jiǎn)單的架構(gòu)相結(jié)合,但我 們觀察到相對(duì)于噪聲條件的所有主觀評(píng)估在 MOS 方面的絕對(duì)改進(jìn)為 0.22。
    發(fā)表于 05-11 17:15

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    的創(chuàng)造力進(jìn)行結(jié)合,從而創(chuàng)造出更加豐富多樣的內(nèi)容。隨著技術(shù)的不斷發(fā)展,自動(dòng)提示生成技術(shù)有望逐漸成熟。這將使大語(yǔ)言模型變得更加自主,能夠自行構(gòu)建和改進(jìn)提示詞以達(dá)到理想的結(jié)果。這將極大地提高大語(yǔ)言模型的工作效率和應(yīng)用范圍,為其在未來(lái)的
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    和優(yōu)化至關(guān)重要,它們能夠提供準(zhǔn)確的反饋,指導(dǎo)模型在訓(xùn)練和調(diào)優(yōu)過(guò)程中的改進(jìn)方向。 大語(yǔ)言模型對(duì)話能力評(píng)測(cè):對(duì)話能力評(píng)測(cè)是大語(yǔ)言模型性能評(píng)估的核心環(huán)節(jié),涉及多種交互場(chǎng)景,如閑聊、常識(shí)問(wèn)答
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然語(yǔ)言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Transformer,以及其工作原理,為構(gòu)建大語(yǔ)言
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下,這樣的話,工作量很大。 我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言模型(Large Language Models,LLMs)的核心技術(shù)涵蓋了從模型的架構(gòu)設(shè)計(jì)到
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    了隨著模型規(guī)模擴(kuò)大,其性能和能力提升速度的變化規(guī)律。這一定律在深度學(xué)習(xí)中表現(xiàn)為模型規(guī)模與性能改進(jìn)之間的關(guān)系,通常表明擴(kuò)大模型規(guī)模可以提升性能。大語(yǔ)言
    發(fā)表于 05-04 23:55

    防止AI大模型被黑客病毒入侵控制(原創(chuàng))聆思大模型AI開(kāi)發(fā)套件評(píng)測(cè)4

    在設(shè)計(jì)防止AI大模型被黑客病毒入侵時(shí),需要考慮到復(fù)雜的加密和解密算法以及模型的實(shí)現(xiàn)細(xì)節(jié),首先需要了解模型的結(jié)構(gòu)和實(shí)現(xiàn)細(xì)節(jié)。 以下是我使用Python和TensorFlow 2.x實(shí)現(xiàn)深度學(xué)習(xí)
    發(fā)表于 03-19 11:18

    蔚來(lái)2024款車(chē)型交付,全新ADAM平臺(tái)及8295座艙芯片亮相

    據(jù)悉,除了外觀上有所改進(jìn)之外,2024款車(chē)型還會(huì)采用全新的ADAM中央計(jì)算平臺(tái)以及高通驍龍8295座艙處理器。此外,新車(chē)還將配備4顆英偉達(dá)OrinX芯片以及8096個(gè)浮點(diǎn)運(yùn)算單元,整體性能卓越。
    的頭像 發(fā)表于 03-10 10:29 ?1621次閱讀

    蔚來(lái)2024款車(chē)型開(kāi)啟預(yù)售,性能提升、體驗(yàn)升級(jí),售價(jià)未變

    此外,為了提高車(chē)輛的智能化程度,蔚來(lái)選擇從硬件層面對(duì)中央計(jì)算平臺(tái)ADAM進(jìn)行全面升級(jí)。預(yù)計(jì)下一代蔚來(lái)車(chē)型將全部采用全新設(shè)計(jì),其搭載的高通驍龍8295座艙芯片,使得整體算力有顯著提升。
    的頭像 發(fā)表于 02-22 10:47 ?885次閱讀
    主站蜘蛛池模板: 人人爽影院 | 美女被啪到哭网站在线观看 | 久久免费视频网站 | 亚洲一区二区三区四区在线观看 | 日本免费网站观看 | 特级毛片免费视频播放 | 精品亚洲成a人片在线观看 精品亚洲大全 | 啪啪午夜 | 精品国产亚洲人成在线 | 天天干天天射天天 | 天天做天天爱天天影视综合 | 免费超爽视频 | 很黄很污的视频网站 | 亚1洲二区三区四区免费 | 美女把尿口扒开让男人桶出水 | 亚洲国产成人久久一区久久 | 一级做a爰片久久毛片鸭王 一级做a爰片久久毛片一 | 久久99国产亚洲高清观看首页 | 我爱操 | 91在线激情在线观看 | 久久婷婷国产一区二区三区 | 一级中文字幕乱码免费 | 伊人精品成人久久综合欧美 | 欧美成人影院免费观 | 色姑娘天天干 | 成人免费看黄网站无遮挡 | 韩国三级视频在线观看 | 欧美黄色一级网站 | videosex久久麻豆| 91国在线啪精品一区 | 亚洲成a人不卡在线观看 | 亚洲第成色999久久网站 | 免费鲁丝片一级观看 | 久久久久久噜噜噜久久久精品 | 国产精品一区牛牛影视 | 亚洲成a人片777777久久 | 亚洲国产七七久久桃花 | 欧美猛交xxxx免费看 | 日韩三级观看 | 久久精品夜夜夜夜夜久久 | 性色在线视频精品 |