在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于Pre-trained模型加速模型學習的建議

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-03 18:08 ? 次閱讀

首先,為什么要調(diào)整模型?

像卷積神經(jīng)網(wǎng)絡(luò)( CNN )這樣的深度學習模型具有大量的參數(shù);一般稱之為超參數(shù),因為它們不是固定值,需要迭代優(yōu)化。通常可以通過網(wǎng)格搜索的方法來查找這些超參數(shù)的最佳值,但需要大量硬件和時間開銷。那么,一個真正的數(shù)據(jù)科學家是否滿足于只是猜測這些超參數(shù)呢?答案當然是否定的。

改進模型的最佳方法之一是,基于專業(yè)團隊的設(shè)計和體系結(jié)構(gòu)上來進行改進,但這些專業(yè)的知識往往需要對某一領(lǐng)域具有深入的了解,且通常需要有強大的硬件支持。一般這些專業(yè)的團隊都喜歡把他們的訓練好的模型(pre-trained model)開源出來,無償提供給別人使用。基于這些pre-trained model來做研究和應(yīng)用,可以省去大量的時間和資源。

深度學習技巧

這里分享幾種方法,如何基于預訓練好的模型來降低深度學習模型訓練時間,提升模型的準確性:

1、選擇最適用于做pre-trained模型的網(wǎng)絡(luò)結(jié)構(gòu):了解遷移學習(transfer learning)的優(yōu)點,或者一些強大的CNN網(wǎng)絡(luò)結(jié)構(gòu)。主要考慮,有些領(lǐng)域之間看起來不明顯,但領(lǐng)域之間卻共享一些具有潛在特性(share potential latent features)。

2、使用較小的學習率:由于預先訓練的權(quán)重(weights)通常比隨機初始化的權(quán)重更好,因此調(diào)整需要更精細!如何選擇主要取決于training landscape和學習的進展情況,但需要仔細檢查每個epoch的training errors,分析如何能讓模型達到收斂。

3、使用Dropout:就像Ridge和LASSO正則化技術(shù)對于回歸模型一樣,對于所有模型都存在需要優(yōu)化的參數(shù)alpha或Dropout。這是一個超參數(shù),取決于需要解決的具體問題,只能通過不停實驗的方法得到。先對超參數(shù)做比較大的調(diào)整(gridsearch時選擇一個比較大的變化范圍),比如NP. logspace(),然后像上面的一樣減小學習速率。循環(huán)上述過程直到找到最優(yōu)值。

4、限制權(quán)重大小:可以限制某些層的權(quán)重的最大范數(shù)(絕對值),可以提升模型泛化的能力。

5、不要改變第一層網(wǎng)絡(luò)的權(quán)值:神經(jīng)網(wǎng)絡(luò)的第一個隱含層傾向于捕捉通用和可解釋(universal and interpretable)的特征,如形狀、曲線或交叉(shapes、curves and interactions),這些特征通常與跨域(domains)相關(guān)。應(yīng)該經(jīng)常把這些特征放到一邊,把重點放在進一步優(yōu)化meta latent level在水平上。這可能意味需要添加隱藏層!

6、修改輸出層:把模型參數(shù)替換成適用于要解決新領(lǐng)域的新的激活函數(shù)和輸出大小。但是,不要把自己局限于最明顯的解決方案中。比如,盡管MNIST只需要10個輸出類,但這些數(shù)字有共同的變化,允許有12 - 16個類可能會更好地解決這些問題,并提高模型性能!

Keras中的技巧

如何在Keras MNIST中修改Dropout和限制權(quán)重的大小:

Dropout最佳實踐

1、使用20–50 %的,比較小的Dropout,建議20 %的輸入(Inputs)。值取得太小,不起作用;值取得太大,不好收斂。

2、在輸入層和隱藏層上使用Dropout。這一方法已被證明可以提高深入學習的效果。

3、使用較大的(帶衰減率)學習速率(learning rate with decay),以及較大的動量(momentum)。

4、限制模型的權(quán)重!大的學習速率容易導致梯度爆炸。通過對網(wǎng)絡(luò)權(quán)值施加約束(如最大范數(shù)正則化(max-norm regularization),其大小為5 )可以改善結(jié)果。

5、使用更大的網(wǎng)絡(luò)。在較大的網(wǎng)絡(luò)上使用Dropout,可能會獲得更好的性能,從而使模型有更多的機會學習獨立表示(Independent representations)。

給一個例子,如何在Keras中修改MNIST模型最后一層,輸出14個類別:

如何在網(wǎng)絡(luò)的最初五層中固定網(wǎng)絡(luò)的權(quán)值(Freeze weights):

此外,可以將該層的學習速率設(shè)置為零,或者使用參數(shù)的自適應(yīng)學習算法,如Adadelta或Adam。這有點復雜,在Caffe等其他平臺上可以更好地實現(xiàn)。

預訓練模型庫

Keras
Kaggle List https://www.kaggle.com/gaborfodor/keras-pretrained-models
Keras Application:https://keras.io/applications/
OpenCV Example:https://www.learnopencv.com/keras-tutorial-fine-tuning-using-pre-trained-models/


TensorFlow
VGG16:https://github.com/ry/tensorflow-vgg16
Inception V3:https://github.com/tensorflow/models/blob/master/inception

ResNet:https://github.com/ry/tensorflow-resnet


Torch
LoadCaie:https://github.com/szagoruyko/loadcaffe


Caffe
Model Zoo:https://github.com/BVLC/caffe/wiki/Model-Zoo

TensorBoard的Graph的可視化

了解模型的整體結(jié)構(gòu)通常很重要。下面給出一個例子,如何直接使用Python可視化訓練的模型:

http://nbviewer.jupyter.org/github/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/deepdream/deepdream.ipynb

責任編輯:xj

原文標題:基于Pre-trained模型加速模型學習的6點建議

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3469

    瀏覽量

    49854
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5548

    瀏覽量

    122337
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22588

原文標題:基于Pre-trained模型加速模型學習的6點建議

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    同時優(yōu)化多個相關(guān)任務(wù)的損失函數(shù)來提升模型的泛化能力。學習率調(diào)整策略:合理的學習率調(diào)整可以加速模型收斂,提高最終的性能。常用的
    發(fā)表于 01-14 16:51

    PyTorch GPU 加速訓練模型方法

    在深度學習領(lǐng)域,GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和方法來利用GPU進行
    的頭像 發(fā)表于 11-05 17:43 ?1148次閱讀

    擴散模型的理論基礎(chǔ)

    擴散模型的迅速崛起是過去幾年機器學習領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學習你需要知道的關(guān)于擴散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?1128次閱讀
    擴散<b class='flag-5'>模型</b>的理論基礎(chǔ)

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度
    的頭像 發(fā)表于 10-25 09:22 ?927次閱讀

    AI大模型與深度學習的關(guān)系

    AI大模型與深度學習之間存在著密不可分的關(guān)系,它們互為促進,相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學習是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學習
    的頭像 發(fā)表于 10-23 15:25 ?2458次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現(xiàn)。 主要是基于深度學習和自然語言處理技術(shù)。 大語言模型涉及以下幾個過程: 數(shù)據(jù)收集:大語言
    發(fā)表于 08-02 11:03

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?1521次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理過程,同時盡量保持
    的頭像 發(fā)表于 07-15 11:01 ?871次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b>量化方法

    llm模型和chatGPT的區(qū)別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)模型的聊天機器人。GPT模型
    的頭像 發(fā)表于 07-09 09:55 ?1739次閱讀

    深度學習中的模型權(quán)重

    在深度學習這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學習的基石,更是模型
    的頭像 發(fā)表于 07-04 11:49 ?3524次閱讀

    預訓練模型的基本原理和應(yīng)用

    預訓練模型Pre-trained Model)是深度學習和機器學習領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預訓練
    的頭像 發(fā)表于 07-03 18:20 ?3939次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓練一個深度學習模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),
    的頭像 發(fā)表于 07-01 16:13 ?2190次閱讀

    深度學習模型優(yōu)化與調(diào)試方法

    深度學習模型在訓練過程中,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學習模型進行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預處理、
    的頭像 發(fā)表于 07-01 11:41 ?1427次閱讀

    中控流程工業(yè)首款AI時序大模型TPT發(fā)布

    點燃AI引擎,打造工業(yè)應(yīng)用新范式? 杭州2024年6月7日?/美通社/ --?6月5日,由中控技術(shù)傾力打造的流程工業(yè)首款AI時序大模型TPT(Time-series Pre-trained
    的頭像 發(fā)表于 06-07 14:23 ?760次閱讀
    中控流程工業(yè)首款AI時序大<b class='flag-5'>模型</b>TPT發(fā)布

    大語言模型:原理與工程實踐+初識2

    前言 深度學習是機器學習的分支,而大語言模型是深度學習的分支。機器學習的核心是讓計算機系統(tǒng)通過對數(shù)據(jù)的
    發(fā)表于 05-13 00:09
    主站蜘蛛池模板: 免费一级欧美片在线观看 | 精品卡1卡2卡三卡免费网站视频 | 精品香港经典三级在线看 | 老子影院午夜精品欧美视频 | 国产超爽人人爽人人做 | 一二三区电影 | 久久精品国产大片免费观看 | 黄色在线看网站 | www.亚洲.com| 欧美透逼视频 | 免费福利午夜影视网 | 亚洲国产精品久久精品怡红院 | 狠狠做深爱婷婷综合一区 | 亚洲色图国产精品 | 日韩黄网| 国产小视频免费看 | 99热99热| 五月天福利视频 | 日本大片免a费观看在线 | 大片毛片女女女女女女女 | 狠狠五月婷婷 | 日本激情网 | 美女网站黄在线看 | 一级毛片在线不卡直接观看 | 婷婷免费高清视频在线观看 | 手机午夜视频 | 羞羞答答xxdd影院欧美 | 手机看片1024在线观看 | 欧美午夜一区 | 好爽好紧好大的免费视频国产 | 成人久久久精品乱码一区二区三区 | 亚洲国产tv| 欧美成人免费网站 | 国产小视频在线播放 | 亚洲视频一区二区 | 种子在线搜索 | 欧美色香蕉 | 久久天天躁狠狠躁狠狠躁 | 免费在线欧美 | 最近观看免费高清视频 | 狠狠色综合网站久久久久久久 |