91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解決機器學習中有關學習率的常見問題

倩倩 ? 來源:不靠譜的貓 ? 2020-04-15 11:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是學習率?它的用途是什么?

神經網絡計算其輸入的加權和,并通過一個激活函數得到輸出。為了獲得準確的預測,一種稱為梯度下降的學習算法會在從輸出向輸入后退的同時更新權重。

梯度下降優化器通過最小化一個損失函數(L)來估計模型權重在多次迭代中的良好值,這就是學習率發揮作用的地方。它控制模型學習的速度,換句話說,控制權重更新到l最小點的速度。新(更新后)和舊(更新前)權重值之間的關系如下:

學習率是否為負值?

梯度L/w是損失函數遞增方向上的向量。L/w是L遞減方向上的向量。由于η大于0,因此是正值,所以-ηL/w朝L的減小方向向其最小值邁進。如果η為負值,則您正在遠離最小值,這是它正在改變梯度下降的作用,甚至使神經網絡無法學習。如果您考慮一個負學習率值,則必須對上述方程式做一個小更改,以使損失函數保持最小:

學習率的典型值是多少?

學習率的典型值范圍為10 E-6和1。

梯度學習率選擇錯誤的問題是什么?

達到最小梯度所需的步長直接影響機器學習模型的性能:

小的學習率會消耗大量的時間來收斂,或者由于梯度的消失而無法收斂,即梯度趨近于0。

大的學習率使模型有超過最小值的風險,因此它將無法收斂:這就是所謂的爆炸梯度。

梯度消失(左)和梯度爆炸(右)

因此,您的目標是調整學習率,以使梯度下降優化器以最少的步數達到L的最小點。通常,您應該選擇理想的學習率,該速率應足夠小,以便網絡能夠收斂但不會導致梯度消失,還應足夠大,以便可以在合理的時間內訓練模型而不會引起爆炸梯度。

除了對學習率的選擇之外,損失函數的形狀以及對優化器的選擇還決定了收斂速度和是否可以收斂到目標最小值。

錯誤的權重學習率有什么問題?

當我們的輸入是圖像時,低設置的學習率會導致如下圖所示的噪聲特征。平滑、干凈和多樣化的特征是良好調優學習率的結果。是否適當地設置學習率決定了機器學習模型的預測質量:要么是進行良好的訓練,要么是不收斂的網絡。

繪制神經網絡第一層產生的特征:不正確(左)和正確(右)設置學習率的情況

我們可以事先計算出最佳學習率嗎?

通過理論推導,不可能計算出導致最準確的預測的最佳學習率。為了發現給定數據集上給定模型的最佳學習率值,必須進行觀察和體驗。

我們如何設置學習率?

以下是配置η值所需了解的所有內容。

使用固定學習率:

您確定將在所有學習過程中使用的學習率的值。這里有兩種可能的方法。第一個很簡單的。它由實踐中常用的常用值組成,即0.1或0.01。第二種方法,您必須尋找適合您的特定問題和神經網絡架構的正確學習率。如前所述,學習率的典型值范圍是10 E-6和1。因此,你粗略地在這個范圍內搜索10的各種階數,為你的學習率找到一個最優的子范圍。然后,您可以在粗略搜索所找到的子范圍內以較小的增量細化搜索。你在實踐中可能看到的一種啟發式方法是在訓練時觀察損失,以找到最佳的學習率。

學習率時間schedule的使用:

與固定學習率不同,此替代方法要求根據schedule在訓練epochs內改變η值。在這里,您將從較高的學習率開始,然后在模型訓練期間逐漸降低學習率。在學習過程的開始,權重是隨機初始化的,遠遠沒有優化,因此較大的更改就足夠了。隨著學習過程的結束,需要更完善的權重更新。通常每隔幾個epochs減少一次學習Learning step。學習率也可以在固定數量的訓練epochs內衰減,然后對于其余的訓練epochs保持較小的恒定值。

常見的兩種方案。第一種方案,對于固定數量的訓練epochs,每次損失平穩(即停滯)時,學習率都會降低。第二種方案,降低學習率,直到達到接近0的較小值為止。三種衰減學習率的方法,即階躍衰減、指數衰減和1/t衰減。

在SGD中添加Momentum:

它是在經典的SGD方程中加入一項:

這個附加項考慮了由于Vt-1而帶來的權重更新的歷史,Vt-1是過去梯度的指數移動平均值的累積。這就平滑了SGD的進程,減少了SGD的振蕩,從而加速了收斂。然而,這需要設置新的超參數γ。除了學習率η的挑戰性調整外,還必須考慮動量γ的選擇。γ設置為大于0且小于1的值。其常用值為0.5、0.9和0.99。

自適應學習率的使用:

與上述方法不同,不需要手動調整學習率。根據權重的重要性,優化器可以調整η來執行更大或更小的更新。此外,對于模型中的每個權重值,都確保了一個學習率。Adagrad,Adadelta,RMSProp和Adam是自適應梯度下降變體的例子。您應該知道,沒有哪個算法可以最好地解決所有問題。

學習率配置主要方法概述

學習率的實際經驗法則是什么?

學習率是機器學習模型所依賴的最重要的超參數。因此,如果您不得不設置一個且只有一個超參數,則必須優先考慮學習率。

機器學習模型學習率的調整非常耗時。因此,沒有必要執行網格搜索來找到最佳學習率。為了得到一個成功的模型,找到一個足夠大的學習率使梯度下降法有效收斂就足夠了,但又不能大到永遠不收斂。

如果您選擇一種非自適應學習率設置方法,則應注意該模型將具有數百個權重(或者數千個權重),每個權重都有自己的損失曲線。因此,您必須設置一個適合所有的學習率。此外,損失函數在實際中往往不是凸的,而是清晰的u形。他們往往有更復雜的非凸形狀局部最小值。

自適應方法極大地簡化了具有挑戰性的學習率配置任務,這使得它們變得更加常用。此外,它的收斂速度通常更快,并且優于通過非自適應方法不正確地調整其學習率的模型。

SGD with Momentum,RMSProp和Adam是最常用的算法,因為它們對多種神經網絡架構和問題類型具有魯棒性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103550
  • 函數
    +關注

    關注

    3

    文章

    4379

    瀏覽量

    64827
  • 機器學習
    +關注

    關注

    66

    文章

    8501

    瀏覽量

    134572
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    deepin 25系統安裝常見問題

    隨著 deepin 25 系列版本的發布,我們特別推出 deepin Q&A 常見問題指南,旨在幫助您輕松應對安裝、升級及使用過程中可能遇到的常見問題
    的頭像 發表于 04-14 14:08 ?1703次閱讀
    deepin 25系統安裝<b class='flag-5'>常見問題</b>

    機器學習模型市場前景如何

    當今,隨著算法的不斷優化、數據量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發廣闊。下面,AI部落小編將探討機器學習模型市場的未來發展。
    的頭像 發表于 02-13 09:39 ?358次閱讀

    如何優化BP神經網絡的學習

    優化BP神經網絡的學習是提高模型訓練效率和性能的關鍵步驟。以下是一些優化BP神經網絡學習的方法: 一、理解學習
    的頭像 發表于 02-12 15:51 ?928次閱讀

    嵌入式機器學習的應用特性與軟件開發環境

    設備和智能傳感器)上,這些設備通常具有有限的計算能力、存儲空間和功耗。本文將您介紹嵌入式機器學習的應用特性,以及常見機器學習開發軟件與開發
    的頭像 發表于 01-25 17:05 ?655次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應用特性與軟件開發環境

    華為云 Flexus X 實例部署安裝 Jupyter Notebook,學習 AI,機器學習算法

    前言 由于本人最近在學習一些機器算法,AI 算法的知識,需要搭建一個學習環境,所以就在最近購買的華為云 Flexus X 實例上安裝了學習環境,Jupyter Notebook。沒想到
    的頭像 發表于 01-02 13:43 ?530次閱讀
    華為云 Flexus X 實例部署安裝 Jupyter Notebook,<b class='flag-5'>學習</b> AI,<b class='flag-5'>機器</b><b class='flag-5'>學習</b>算法

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統機器
    的頭像 發表于 12-30 09:16 ?1180次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢,逐漸成為企業構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發表于 12-25 11:54 ?452次閱讀

    zeta在機器學習中的應用 zeta的優缺點分析

    的應用(基于低功耗廣域物聯網技術ZETA) ZETA作為一種低功耗廣域物聯網(LPWAN)技術,雖然其直接應用于機器學習的場景可能并不常見,但它可以通過提供高效、穩定的物聯網通信支持,間接促進
    的頭像 發表于 12-20 09:11 ?1120次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發表于 11-16 01:07 ?959次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發表于 11-15 09:19 ?1208次閱讀

    電路設計常見問題解答

    電路設計充滿挑戰,即便是最富經驗的工程師也難免遭遇困惑與阻礙。《電路設計常見問題解答》是ADI精心籌備的一份實用指南,力求為您鋪設一條清晰的學習與實踐之路。
    的頭像 發表于 11-05 17:02 ?1079次閱讀
    電路設計<b class='flag-5'>常見問題</b>解答

    具身智能與機器學習的關系

    具身智能(Embodied Intelligence)和機器學習(Machine Learning)是人工智能領域的兩個重要概念,它們之間存在著密切的關系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發表于 10-27 10:33 ?1047次閱讀

    人工智能、機器學習和深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法從數據中學習
    發表于 10-24 17:22 ?2972次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區別

    TVP5146常見問題

    電子發燒友網站提供《TVP5146常見問題.pdf》資料免費下載
    發表于 09-30 09:46 ?0次下載
    TVP5146<b class='flag-5'>常見問題</b>

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發揮巨
    發表于 08-12 11:21
    主站蜘蛛池模板: 美女网站色视频 | 男男之h啪肉np文 | 夜夜狠狠 | 大量喷潮free| 欧美性黄色| 色www永久免费视频 色y情视频免费看 | 天天干天天操天天爽 | 好硬好大好爽女房东在线观看 | 韩国理论片2023现在观看 | 国产拍拍视频 | 好深好爽视频 | 午夜影院普通用户体验区 | 看全色黄大色大片免费 | 欧美成人精品一级高清片 | 伊人黄| 色先锋av资源中文字幕 | www.九色视频| 色多多在线播放 | aaa一级片 | 久久精品国产精品亚洲毛片 | 天堂视频在线 | 亚洲免费视频一区 | 二级黄的全免费视频 | 高黄网站 | 亚洲综合色在线 | 成人欧美一区二区三区黑人3p | 色偷偷888欧美精品久久久 | 一区二区三区精品国产欧美 | 特级毛片aaa免费版 特级毛片a级毛免费播放 | 18女毛片| 美女张开腿露尿口给男人亲 | 丁香色综合 | 天天射天天操天天 | 色综合久久九月婷婷色综合 | 欧美18性欧美黑吊 | 色妇影院 | a一级黄| 秋霞一级特黄真人毛片 | 亚洲国产成人精彩精品 | 蕾丝视频成人★在线观看 | 欧美视频精品一区二区三区 |