在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

決定神經網絡學習處理速度的因素

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-20 09:10 ? 次閱讀

今天的文章會重點關注決定神經網絡學習處理速度的因素,以及獲得預測的精確度,即優化策略的選擇。我們會講解多種主流的優化策略,研究它們的工作原理,并進行相互比較。

機器學習算法的優化

優化是尋找可以讓函數最小化或最大化的參數的過程。當我們訓練機器學習模型時,我們通常會使用間接優化,選擇一種特定的衡量尺度,例如精確度或查全率等可以表現模型解決方法表現的指標。但是我們現在進行優化的是另一種不同的價值函數J(θ),希望通過將它的值最小化后,提高目標指標的表現。當然,價值函數的選擇通常和正在解決的問題有關,更重要的是,它通常表示我們距離理想解決方案的距離。可以想象,這一話題非常復雜。

優化算法的可視化

陷阱無處不在

通常,找到非凸價值函數的最小值并不容易,我們必須用高級的優化策略定位它們。如果你學過微積分,你會了解“局部最小值”的定義——這可能是優化器最容易陷入的陷阱。此類情景的例子可以從上圖左邊看到,可以清楚地發現,優化器定位的點并不是最優解。

想克服所謂的“鞍點”問題會更困難。在水平處,價值函數的值幾乎是常數,上圖右側體現了這一問題,在這些點上,梯度在各個方向上幾乎為零,所以很難逃脫。

有時,尤其是在多層網絡中,我們要處理的價值函數可能很陡。在這種區域,梯度的值可能會急劇增加,即形成梯度爆炸,導致巨大的步長。但是這一問題可以通過梯度裁剪(gradient clipping)避免。

梯度下降

在了解高級算法之前,先讓我們看看基礎算法。也許最直接的方法之一就是向梯度的相反方向發展。這一策略可以用以下公式表示:

其中α是一個稱為學習速率的超參數,是每次迭代中采取的步長長度。在某種程度上,它的選擇表示了在學習速度和精確度之間的權衡。選擇的步長太小就會導致繁瑣的計算,不可避免地會進行多次迭代。但是,選擇的值過大,又無法找到最小值。如下圖所示,我們可以看到在相鄰的兩次迭代上是如何變化的,而不是趨于穩定。同時,如果模型確定了合適的步長,可能會立刻找到一個最小值。

低學習率和高學習率下梯度下降

除此之外,算法還對“鞍點”問題很脆弱,因為在連續迭代中的修正尺寸對計算梯度是成比例的,這樣的話,就無法從平坦處逃脫。

最后,重點是這種算法并不高效,它在每次迭代中都需要用全部的訓練集。這意味著,在每個epoch中我們都要查看所有樣本,從而在下次進行優化。如果只有幾千個樣本還好,但如果有上百萬個樣本呢?在這種情況下,很難想象每次迭代需要花費多少時間

mini-batch梯度下降

梯度下降和mini-batch梯度下降對比

在這一部分,我們要重點解決梯度下降不高效的問題。雖然向量化處理加速了計算,當數據集有百萬個樣本時,可以一次性處理多個訓練樣本。這里我們可以試試另一種方法,將整個數據集分成多個更小的批次(batch),用它們進行連續迭代。如上面動圖所示,由于每次處理的數據量更少了,新算法做決策的速度更快了。另外注意觀察模型之間動作的對比。梯度下降算法每一步都很長,且噪聲較小,而mini-batch梯度下降的步長更小,噪聲更大。甚至在mini-batch中,一次迭代可能會向相反方向發展。但是平均來說,都能達到最小值。

那么怎樣選擇batch size呢?在深度學習中,這類答案是不固定的,取決于要解決的案例。如果batch size等于整個數據集,那么處理起來就是普通的梯度下降。如果size為1,那么每次迭代禁止數據集的一個樣本。這種方法通常比較公平,常見的就是隨機梯度下降,它是通過選擇一個隨機數據集記錄,用它們當做訓練集進行連續迭代。但是,如果我們決定使用mini-batch,通常會選擇一個中間值,通常是從64到512之間的樣本中選擇。

指數加權平均

這一概念在統計學或經濟學中都有出現。很多高級神經網絡優化算法都用到了這一方法,因為它能在梯度為零的情況下依舊進行優化。我們接下來以去年至今某大型科技公司的股票走勢為例進行講解。

不同β值下指數加權平均可視化

EWA主要是對之前的值進行平均,以便獨立考慮局部波動,并專注于整體趨勢。它的值使用上面的遞歸公式計算的,其中β適用于控制要平均的值的范圍參數。對于較大的β值,我們得到的圖形更平滑,因為記錄更多。

帶有動量的梯度下降

這一策略用指數加權平均避免了某一點處價值函數接近于0的可能。簡單來說,我們讓算法具有一定動量,所以即使局部梯度為0,我們仍然可以更具此前計算的值向前。所以這與純梯度下降相比是更好的方法。

通常,我們用反向傳播計算網絡中每一層dW和db的值。但是這一次,我們不直接用計算梯度更新神經網絡參數的值,而是先計算VdW和Vdb的中間值。之后我們在梯度下降中用刀VdW和Vdb,過程如下公式所示:

如上文中股票的例子,指數加權平均可以讓我們專注于領先趨勢而不是噪聲。指示最小值的分量被放大,并且緩慢消除負責震蕩的分量。更重要的是,如果我們在后續更新中獲得指向類似方向的梯度,則學習率將增加。然而,這種方法有一個缺點:當你接近最小值時,動量值會增加,并且可能會變得很大,以至于算法無法再正確位置停止。

RMSProp

另一種提高梯度下降性能的方法就是使用RMSProp策略,這也是最常用的優化算法之一。這也是另一種使用甲醛梯度下降的算法,并且它是可自適應的,可以對模型每個參數調整學習率。后續參數的值取決于此前特殊參數上梯度的值。

但是,這種方法也有缺點,如上等式中的分母在每次迭代中增加,我們的學習率就會越來越小,結果可能導致模型完全停止。

優化對比

Adam

最后的最后,我們來到了自適應動量估計。這也是使用廣泛的算法,它吸取了RMSProp最大的優點,將動量優化的概念相結合,使得策略可以做出快速高效的優化。

但是,盡管方法高效,計算的復雜程度也相應上升。如上所示,我寫了十個矩陣等式,表示優化過程中的單次迭代。可能很多人看起來都非常陌生。不要擔心!這些等式和此前的動量和RMSProp優化算法相似。

結語

這篇文章對幾種優化算法做了大致總結,了解這些算法有助于在不同情況下正確使用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4785

    瀏覽量

    101273
  • 機器學習
    +關注

    關注

    66

    文章

    8453

    瀏覽量

    133152
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24861

原文標題:快速訓練神經網絡的優化算法一覽

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    詳解深度學習神經網絡與卷積神經網絡的應用

    在如今的網絡時代,錯綜復雜的大數據和網絡環境,讓傳統信息處理理論、人工智能與人工神經網絡都面臨巨大的挑戰。近些年,深度學習逐漸走進人們的視線
    的頭像 發表于 01-11 10:51 ?2321次閱讀
    詳解深度<b class='flag-5'>學習</b>、<b class='flag-5'>神經網絡</b>與卷積<b class='flag-5'>神經網絡</b>的應用

    【案例分享】ART神經網絡與SOM神經網絡

    今天學習了兩個神經網絡,分別是自適應諧振(ART)神經網絡與自組織映射(SOM)神經網絡。整體感覺不是很難,只不過一些最基礎的概念容易理解不清。首先ART
    發表于 07-21 04:30

    怎么設計ARM與神經網絡處理器的通信方案?

    人工神經網絡在很多領域得到了很好的應用,尤其是具有分布存儲、并行處理、自學習、自組織以及非線性映射等特點的網絡應用更加廣泛。嵌入式便攜設備也越來越多地得到應用,多數是基于ARM內核及現
    發表于 09-20 06:15

    基于BP神經網絡的PID控制

    最近在學習電機的智能控制,上周學習了基于單神經元的PID控制,這周研究基于BP神經網絡的PID控制。神經網絡具有任意非線性表達能力,可以通過
    發表于 09-07 07:43

    圖像預處理和改進神經網絡推理的簡要介紹

    為提升識別準確率,采用改進神經網絡,通過Mnist數據集進行訓練。整體處理過程分為兩步:圖像預處理和改進神經網絡推理。圖像預處理主要根據圖像
    發表于 12-23 08:07

    卷積神經網絡模型發展及應用

    卷積神經網絡模型發展及應用轉載****地址:http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學習是機器學習和人工智能研究的最新趨勢,作為一個
    發表于 08-02 10:39

    卷積神經網絡為什么適合圖像處理

    卷積神經網絡為什么適合圖像處理
    發表于 09-08 10:23

    卷積神經網絡簡介:什么是機器學習

    決定。為此使用決策閾值。另一個區別是模式識別機沒有配備固定的規則。相反,它是經過訓練的。在這個學習過程中,神經網絡被顯示大量的貓圖像。最后,該網絡能夠獨立識別圖像中是否有貓。關鍵的一點
    發表于 02-23 20:11

    如何提升AI算法速度 打造接近人腦規模的神經網絡

    SET的靈感來自生物網絡以及特定神經網絡,而這些特定神經網絡之所以運行效率高有三個特征,包括網絡連接性相對較低、神經中樞稀少以及路徑短。
    發表于 07-06 09:32 ?1068次閱讀

    基于脈沖神經網絡的遷移學習算法

    使用脈沖序列進行數據處理的脈沖神經網絡具有優異的低功耗特性,但由于學習算法不成熟,多層網絡練存在收斂困難的問題。利用反向傳播網絡具有
    發表于 05-24 16:03 ?15次下載

    什么是神經網絡?什么是卷積神經網絡

    在介紹卷積神經網絡之前,我們先回顧一下神經網絡的基本知識。就目前而言,神經網絡是深度學習算法的核心,我們所熟知的很多深度學習算法的背后其實都
    的頭像 發表于 02-23 09:14 ?3737次閱讀

    卷積神經網絡的應用 卷積神經網絡通常用來處理什么

    神經網絡,卷積神經網絡廣泛用于圖像識別、自然語言處理、視頻處理等方面。本文將對卷積神經網絡的應用進行詳盡、詳實、細致的介紹,以及卷積
    的頭像 發表于 08-21 16:41 ?5092次閱讀

    神經網絡中的激活函數有哪些

    神經網絡中,激活函數是一個至關重要的組成部分,它決定神經元對于輸入信號的反應方式,為神經網絡引入了非線性因素,使得
    的頭像 發表于 07-01 11:52 ?690次閱讀

    BP神經網絡與深度學習的關系

    ),是一種多層前饋神經網絡,它通過反向傳播算法進行訓練。BP神經網絡由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調整網絡權重,目的是最小化網絡的輸出誤差。 二、深度
    的頭像 發表于 02-12 15:15 ?166次閱讀

    如何優化BP神經網絡學習

    優化BP神經網絡學習率是提高模型訓練效率和性能的關鍵步驟。以下是一些優化BP神經網絡學習率的方法: 一、理解學習率的重要性
    的頭像 發表于 02-12 15:51 ?104次閱讀
    主站蜘蛛池模板: 可以看黄色的网站 | 在线观看永久免费 | 毛片在线网站 | 欲色网站 | 业余性自由色xxxx视频 | 欧美影院一区二区三区 | 久久久久久久久女黄 | 欧美三级视频在线 | re99热| 午夜一级毛片免费视频 | 99精品久久久久久久婷婷 | 亚洲一区在线视频 | 在线天天干 | 日产国产精品亚洲系列 | 天天干影视| www.一区二区三区 | 国产五月婷婷 | 国产美女免费 | 天堂网中文在线 | 国产麻豆成人传媒免费观看 | 特黄特黄视频 | 狠狠色综合久久婷婷 | 狂野欧美激情性xxxx | 国产麻豆成人传媒免费观看 | 新版天堂中文在线8官网 | 亚洲激情视频网站 | 一级片 在线播放 | 狠狠se| 黄色高清视频网站 | 天堂网www中文在线资源 | 麻豆国产三级在线观看 | 国产成人综合网在线播放 | 日本精品一在线观看视频 | 国产午夜免费视频片夜色 | 精品伊人久久大线蕉地址 | 男男h全肉耽污 | 国模大胆一区二区三区 | 婷婷色综合久久 | 欧美又粗又硬又大久久久 | 91中文在线 | 91九色蝌蚪在线 |