在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

1024塊TPU在燃燒!將BERT預訓練模型的訓練時長從3天縮減到了76分鐘

電子工程師 ? 來源:lp ? 2019-04-04 16:27 ? 次閱讀

“Jeff Dean稱贊,TensorFlow官方推特支持,BERT目前工業界最耗時的應用,計算量遠高于ImageNet。我們將BERT的訓練時間從三天縮短到了一小時多。”UC Berkeley大學在讀博士尤洋如是說道。

近日,來自Google、UC Berkeley、UCLA研究團隊再度合作,成功燃燒1024塊TPU,將BERT預訓練模型的訓練時長從3天縮減到了76分鐘。batch size技術是加速神經網絡訓練的關鍵,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中,作者提出了LAMB優化器,它支持自適應元素更新和分層校正。

論文傳送門:https://arxiv.org/pdf/1904.00962.pdf

論文摘要:batch size增加到很大時的模型訓練是加速大型分布式系統中深度神經網絡訓練的關鍵。但是,這種模型訓練很難,因為它會導致一種泛化差距。直接優化通常會導致測試集上的準確性下降。

BERT是一種先進的深度學習模型,它建立在語義理解的深度雙向轉換器上。當我們增加batch size的大小(如超過8192)時,此前的模型訓練技巧在BERT上表現得并不好。BERT預訓練也需要很長時間才能完成,如在16個TPUv3上大約需要三天。

為了解決這個問題,我們提出了LAMB優化器,可將batch size擴展到65536,且不會降低準確率。LAMB是一個通用優化器,batch size大小均使用,且除了學習率之外不需要別的參數調整。

基線BERT-Large模型需要100萬次迭代才能完成預訓練,而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內存限制,接近TPUv3 pod,結果可在76分鐘內完成BERT訓練。

據悉,該論文的一作是來自UC Berkeley計算機科學部的在讀博士尤洋,同時也是Google Brain的實習生。據公開信息顯示,尤洋的導師是美國科學院與工程院院士,ACM/IEEE fellow,伯克利計算機系主任,以及首批中關村海外顧問James Demmel教授。他當前的研究重點是大規模深度學習訓練算法的分布式優化。2017年9月,尤洋等人的新算法以24分鐘完成ImageNet訓練,刷新世界紀錄。

在此之前,他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構實習。尤洋本科就讀于中國農業大學計算機系,碩士保送清華大學計算機系,是一名杠杠的理工學霸!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4810

    瀏覽量

    102918
  • TPU
    TPU
    +關注

    關注

    0

    文章

    152

    瀏覽量

    21097
  • 深度學習
    +關注

    關注

    73

    文章

    5555

    瀏覽量

    122534
  • 訓練模型
    +關注

    關注

    1

    文章

    37

    瀏覽量

    3940

原文標題:1024塊TPU在燃燒!BERT訓練從3天縮短到76分鐘 | 技術頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言
    的頭像 發表于 03-21 18:24 ?1301次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以 FastSeg
    發表于 03-05 07:22

    用PaddleNLP4060單卡上實踐大模型訓練技術

    作者:算力魔方創始人/英特爾創新大使劉力 之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》,其中高昂的訓練費用讓許多對大模型
    的頭像 發表于 02-19 16:10 ?875次閱讀
    用PaddleNLP<b class='flag-5'>在</b>4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持多種硬件配置上進行分布式訓練,包括 CPU、GPU、
    的頭像 發表于 01-14 14:24 ?595次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    Llama 3 模型訓練技巧

    Llama 3 模型,假設是指一個先進的人工智能模型,可能是一個虛構的或者是一個特定領域的術語。 1. 數據預處理 數據是任何機器學習模型的基礎。
    的頭像 發表于 10-27 14:24 ?814次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于大量樣本上的批量式訓練
    的頭像 發表于 10-18 08:09 ?533次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?1927次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?904次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?2846次閱讀

    llm模型訓練一般用什么系統

    。 硬件系統 1.1 GPU(圖形處理器) 訓練大型語言模型時,GPU是首選的硬件設備。相比于CPU,GPU具有更高的并行處理能力,可以顯著提高訓練速度。目前,NVIDIA的Tesl
    的頭像 發表于 07-09 10:02 ?761次閱讀

    人臉識別模型訓練流程

    人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文詳細介紹人臉識別模型訓練流程,包括數據準備、
    的頭像 發表于 07-04 09:19 ?1786次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是自然語言處理(NLP)和計算機視覺(CV)等領域中得
    的頭像 發表于 07-03 18:20 ?4227次閱讀

    解讀PyTorch模型訓練過程

    PyTorch作為一個開源的機器學習庫,以其動態計算圖、易于使用的API和強大的靈活性,深度學習領域得到了廣泛的應用。本文深入解讀PyTorch模型
    的頭像 發表于 07-03 16:07 ?1760次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化算法調整模型參數,
    的頭像 發表于 07-01 16:13 ?2476次閱讀
    主站蜘蛛池模板: 伊人网站在线观看 | 无人区理论片手机看片 | 亚洲 另类 在线 欧美 制服 | 男人扒开美女尿口无遮挡图片 | 日本不卡在线一区二区三区视频 | 7799国产精品久久久久99 | 天天爱天天爽 | 一级黄色录像毛片 | 黄色大片a级| 5566精品资源在线播放 | 四虎精品影院2022 | 性夜影院爽黄a爽在线看香蕉 | 97影院理论片手机在线观看 | 五月婷婷之综合激情 | 国产亚洲精品aa在线看 | 成人夜色视频网站在线观看 | 欧美四色 | 伊人网站在线 | 最近2018免费中文字幕视频 | 夜夜操夜夜爱 | 国模娜娜扒开嫩木耳 | 午夜影院在线看 | 人人乳乳香蕉大免费 | 女人被狂躁视频免费网站 | 国产一区中文字幕在线观看 | 国产亚洲卡二卡3卡4卡乱码 | 男人免费看片 | 欧美天堂在线观看 | 五月婷在线观看 | 美女扒开尿口让男人桶 | 久久激情五月 | 国产一区二区在线观看免费 | 日本三级黄色录像 | 99久久无色码中文字幕 | 欧美洲视频在线观看 | 91色在线播放 | 999影院成 人在线影院 | 欧美淫| 国产午夜精品理论片在线 | 色综合视频一区二区三区 | 伊人久久成人爱综合网 |