【新智元導讀】AI模型進入大數據時代,單機早已不能滿足訓練模型的要求,最近Google Brain和DeepMind聯手發布了一個可以分布式訓練模型的框架Launchpad,堪稱AI界的MapReduce。
正如吳恩達所言,當代機器學習算法的成功很大程度上是由于模型和數據集大小的增加,在大規模數據下進行分布式訓練也逐漸變得普遍,而如何在大規模數據、大模型的情況下進行計算,還是一個挑戰。
分布式學習過程也會使實現過程復雜化,這對于許多不熟悉分布式系統機制的機器學習從業者來說是個問題,尤其是那些具有復雜通信拓撲結構的機器學習從業者。
在arxiv上一篇新論文中,來自 DeepMind 和 Google Brain 的研究團隊用 Launchpad 解決了這個問題,Launchpad 是一種編程模型,它簡化了定義和啟動分布式計算實例的過程。
論文的第一作者是來自DeepMind的華人Yang Fan,畢業于香港中文大學。
Launchpad 將分布式系統的拓撲描述為一個圖形數據結構,這樣圖中的每個節點都代表一個服務,即研究人員正在運行的基本計算單元。
將句柄構造為節點的引用,將客戶端表示為尚未構造的服務。
圖的邊表示兩個服務之間的通信,并在構建時將與一個節點相關聯的句柄給予另一個節點時創建。
通過這種方式,Launchpad 可以通過傳遞節點句柄來定義跨服務通信。Launchpad 的計算構建塊由不同的服務類型表示,每種服務類型由特定于該類型的節點和句柄類表示。
論文中提出的 Launchpad 的生命周期可以分為三個階段: 設置、啟動和執行。設置階段構造程序數據結構; 在啟動階段,處理這個數據結構以分配資源、地址等,并啟動指定服務; 然后執行階段運行服務,例如為服務通信創建客戶端。
Launchpad 是用流行的編程語言 Python 實現的,它簡化了定義程序和節點數據結構以及為單個平臺啟動的過程。Launchpad 框架還可以很容易地用任何其他宿主語言實現,包括 c/c + + 等低級編程語言。
Launchpad 編程模型非常豐富,足以容納各種各樣的分布式系統,包括參數服務器、 MapReduce和 Evolution Strategies。
研究人員用簡潔的代碼詳細描述了如何將 Launchpad 應用到這些常見的分布式系統范例中,并說明了該框架在簡化本研究領域常用機器學習算法和組件的設計過程方面的能力。
總的來說,Launchpad 是一個實用的、用戶友好的、表達性強的框架,用于機器學習研究人員和實踐者詳細說明分布式系統,作者表示,這個框架能夠處理日益復雜的機器學習模型。其他框架
2020年,DeepMind 發布過一個強化學習優化框架Acme,可以讓AI驅動的智能體在不同的執行規模上運行,從而簡化強化學習算法的開發過程。
強化學習可以讓智能體與環境互動,生成他們自己的訓練數據,這在電子游戲、機器人技術、自動駕駛機器人出租車等領域取得了突破。
隨著所使用的訓練數據量的增加,這促使設計了一個系統,使智能體與環境實例相互作用,迅速積累經驗。DeepMind 斷言,將算法的單進程原型擴展到分布式系統通常需要重新實現相關的智能體,這就是 Acme 框架的用武之地。
DeepMind研究員寫道,「Acme 是一個用于構建可讀、高效、面向研究的 RL 算法的框架。Acme 的核心是設計用于簡單描述 RL 智能體,這些智能體可以在不同規模的執行中運行,包括分布式智能體。」
Determined AI也是一個深度學習神器。Determined使深度學習工程師可以集中精力大規模構建和訓練模型,而無需擔心DevOps,或者為常見任務(如容錯或實驗跟蹤)編寫代碼。更快的分布式訓練,智能的超參優化,實驗跟蹤和可視化。
一萬億模型要來了?谷歌大腦和DeepMind聯手發布分布式訓練框架Launchpad
Determined主要運用了Horovod,以Horovod為起點,研究人員運用了多年的專業知識和經驗,使得整個訓練過程比庫存配置要快得多。
Horovod 是一套面向TensorFlow 的分布式訓練框架,由Uber 構建并開源,目前已經運行于Uber 的Michelangelo 機器學習即服務平臺上。Horovod 能夠簡化并加速分布式深度學習項目的啟動與運行。當數據較多或者模型較大時,為提高機器學習模型訓練效率,一般采用多 GPU 的分布式訓練。TensorFlow 集群存在諸多缺點,如概念太多、學習曲線陡峭、修改的代碼量大、性能損失較大等,而 Horovod 則讓深度學習變得更加美好,隨著規模增大,Horovod 性能基本是線性增加的,損失遠小于 TensorFlow。
2019年,字節跳動AI lab開源了一款高性能分布式框架BytePS,在性能上顛覆了過去幾年allreduce流派一直占據上風的局面,超出目前其他所有分布式訓練框架一倍以上的性能,且同時能夠支持Tensorflow、PyTorch、MXNet等開源庫。
BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用戶只要在代碼中引用BytePS的插件,就可以獲得高性能的分布式訓練。BytePS的核心邏輯,則實現在BytePS core里。具體的通信細節,完全由BytePS完成,用戶完全不需要操心。
來源:reddit
責任編輯:haq
-
谷歌
+關注
關注
27文章
6203瀏覽量
106090 -
AI
+關注
關注
87文章
31711瀏覽量
270507 -
機器學習
+關注
關注
66文章
8446瀏覽量
133124
原文標題:一萬億模型要來了?谷歌大腦和DeepMind聯手發布分布式訓練框架Launchpad
文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
谷歌加速AI部門整合:AI Studio團隊并入DeepMind
壁仞科技與軟通動力聯合發布創新AI PC產品
谷歌任命原Character.AI首席執行官為Gemini聯合技術負責人
谷歌借助Gemini AI系統深化對機器人的訓練
谷歌發布多模態AI新品,加劇AI巨頭競爭
谷歌DeepMind發布人工智能模型AlphaFold最新版本
谷歌DeepMind推出新一代藥物研發AI模型AlphaFold 3
MediaTek攜手生態伙伴聯合發布《生成式AI手機產業白皮書》
潤和軟件與新財富聯合發布金融AI對話式搜索引擎“金融搜一搜”產品
![潤和軟件與新財富<b class='flag-5'>聯合發布</b>金融<b class='flag-5'>AI</b>對話式搜索引擎“金融搜一搜”產品](https://file1.elecfans.com/web2/M00/C6/A2/wKgZomYLaq2AAPRHAAAljjwHHMU708.png)
評論