1024塊TPU在燃燒！將BERT預訓練模型的訓練時長從3天縮減到了76分鐘

“Jeff Dean稱贊，TensorFlow官方推特支持，BERT目前工業界最耗時的應用，計算量遠高于ImageNet。我們將BERT的訓練時間從三天縮短到了一小時多。”UC Berkeley大學在讀博士尤洋如是說道。

近日，來自Google、UC Berkeley、UCLA研究團隊再度合作，成功燃燒1024塊TPU，將BERT預訓練模型的訓練時長從3天縮減到了76分鐘。batch size技術是加速神經網絡訓練的關鍵，在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中，作者提出了LAMB優化器，它支持自適應元素更新和分層校正。

論文傳送門：https://arxiv.org/pdf/1904.00962.pdf

論文摘要：batch size增加到很大時的模型訓練是加速大型分布式系統中深度神經網絡訓練的關鍵。但是，這種模型訓練很難，因為它會導致一種泛化差距。直接優化通常會導致測試集上的準確性下降。

BERT是一種先進的深度學習模型，它建立在語義理解的深度雙向轉換器上。當我們增加batch size的大小（如超過8192）時，此前的模型訓練技巧在BERT上表現得并不好。BERT預訓練也需要很長時間才能完成，如在16個TPUv3上大約需要三天。

為了解決這個問題，我們提出了LAMB優化器，可將batch size擴展到65536，且不會降低準確率。LAMB是一個通用優化器，batch size大小均使用，且除了學習率之外不需要別的參數調整。

基線BERT-Large模型需要100萬次迭代才能完成預訓練，而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內存限制，接近TPUv3 pod，結果可在76分鐘內完成BERT訓練。

據悉，該論文的一作是來自UC Berkeley計算機科學部的在讀博士尤洋，同時也是Google Brain的實習生。據公開信息顯示，尤洋的導師是美國科學院與工程院院士，ACM/IEEE fellow，伯克利計算機系主任，以及首批中關村海外顧問James Demmel教授。他當前的研究重點是大規模深度學習訓練算法的分布式優化。2017年9月，尤洋等人的新算法以24分鐘完成ImageNet訓練，刷新世界紀錄。

在此之前，他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構實習。尤洋本科就讀于中國農業大學計算機系，碩士保送清華大學計算機系，是一名杠杠的理工學霸！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4810

瀏覽量
102918
TPU

TPU

+關注

關注
0

文章
152

瀏覽量
21097
深度學習

深度學習

+關注

關注
73

文章
5555

瀏覽量
122534
訓練模型

訓練模型

+關注

關注
1

文章
37

瀏覽量
3940

原文標題：1024塊TPU在燃燒！BERT訓練從3天縮短到76分鐘 | 技術頭條

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

精選推薦
更多

文章

資料

帖子

MPS MPM3695GPJ-20電源模塊產品特性

MPS芯源系統
1小時前

128 閱讀

傳統路線與其利天下的分水嶺，無刷電鉆驅動方案對比--【其利天下】

其利天下技術
17小時前

263 閱讀

智多晶PLL使用注意事項

智多晶
18小時前

207 閱讀

【飛凌嵌入式】基于i.MX9352開發板M核的FreeRTOS設計例程

飛凌嵌入式
18小時前

266 閱讀

HZ-T536-SP_EVM：藏在Labubu百萬身價背后的“中國芯”

合眾恒躍
18小時前

409 閱讀

TQG19E速度傳感器說明書

其實znvm
967

5積分

46下載

IDF輸入設備框架

麥特拉布
34.92 MB

2積分

1下載

TinyPart由objective-C編寫的iOS模塊化框架

劉超
0.84 MB

免費

0下載

JCCMapPicker三級聯動地圖選擇器

小黑羊
0.07 MB

2積分

2下載

會說話的CR定時器

djfldsthtr
0.12 MB

2積分

1下載

【正點原子STM32MP257開發板試用】介紹、上電測試、系統連接

jf_07365693
1天前

167 閱讀

無線應用射頻微波電路設計

yuu_cool
1天前

189 閱讀

HarmonyOS NEXT應用開發-Notification Kit（用戶通知服務）概述與notificationManager.publish

李洋水蛟龍
1天前

219 閱讀

【RA4L1-SENSOR】+ RA4L1-SENSOR開發板之讀取RA4L1 Sensor開發板芯片溫度

jf_43382582
1天前

239 閱讀

【RA4L1-SENSOR】+ RA4L1-SENSOR開發板之電壓測量儀使用LCD顯示電壓你們都學不會的

jf_43382582
1天前

270 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

1024塊TPU在燃燒！將BERT預訓練模型的訓練時長從3天縮減到了76分鐘

評論