好看的玄幻小说,雪鹰领主,琅琊榜海宴小说

世界頂尖科技公司的工程師常常發現，為了滿足公司的獨特需求，他們不得不為現有軟件基礎上開發定制替代方案。

近日，Uber將自己的Horovod(一個跨多臺機器的分布式深度學習訓練框架)引入開源項目LF深度學習基金會。Uber利用Horovod支持自動駕駛汽車、欺詐檢測和出行預測，該項目的貢獻者包括Amazon、IBM、Intel和Nvidia。

Horovod是一個分布式的TensorFlow訓練框架，目標是使分布式深度學習快速且易于使用。在Uber內部，他們發現MPI模型比帶參數服務器的分布式TensorFlow簡單得多，所需的代碼更改也少得多。

除了Uber，阿里巴巴、亞馬遜和Nvidia也在使用Horovod。Horovod項目可以與TensorFlow、Keras和PyTorch等流行框架一起使用。

Uber上個月加入了Linux基金會，并加入了AT&T和諾基亞等其他科技公司的行列，支持LF深度學習基金會的開源項目。LF深度學習基金會成立于3月，旨在支持針對深度學習和機器學習的開源項目，是Linux基金會的一部分。

自該基金會成立以來，其他項目還包括機器學習平臺Angel和彈性深度學習(Elastic Deep learning)，這是一個幫助云服務提供商利用TensorFlow等框架制作云集群服務的項目。

根據Uber的說法，Horovod讓開發人員只需幾行代碼就可以完成任務。這不僅加快了初始修改過程，而且進一步簡化了調試。考慮到深度學習項目的高度迭代性，這同樣可以節省大量時間。

在過去的幾年里，深度學習的進步推動了圖像處理、語音識別和預測的巨大進步。在Uber，深度學習應用于整個業務，從自動駕駛研究到出行預測和欺詐預防，并為用戶創造更好的體驗。

由于種種原因，TensorFlow已經成為Uber首選的深度學習庫。首先，該框架是用于深度學習的最廣泛使用的開源框架之一，這使得新用戶很容易上手。

它還結合了高性能和修補低級模型細節的能力——例如，可以同時使用高級api，如Keras，并使用NVIDIA的CUDA工具包實現自己的自定義操作符。

此外，TensorFlow還支持各種深度學習用例的端到端支持，從進行探索性研究到將模型部署到云服務器、移動應用程序甚至自動駕駛汽車上。

去年，Uber Engineering推出了米開朗基羅(Michelangelo)，這是一個內部的“mvc即服務”(mvc -as-a-service)平臺，它讓機器學習自主化，讓大規模構建和部署這些系統變得容易。

Horovod正是這個米開朗基羅復雜平臺的組成部分，Uber開發這個平臺是為了為其內部的深度學習努力奠定基礎。該公司將該軟件描述為管理AI開發生命周期各個方面的端到端系統。

鑒于Uber此次宣布開放Horovod，它可能還會隨著時間的推移發布米開朗基羅其他組件的代碼。

Horovod的出現，也反應不同企業在縱深涉及深度學習時遇到了不少問題。

隨著Uber使用越來越多的機器學習模型，它們的規模和數據消耗顯著增長。在大多數情況下，模型仍然足夠小，可以容納一個服務器中的一個或多個GPU，但是隨著數據集的增長，訓練時間也在增加，有時需要一周甚至更長時間。

此后，Uber轉向了分布式深度學習訓練。標準的分布式TensorFlow包引入了許多新概念：workers、參數服務器、tf.Server()、tf.ClusterSpec()、tf.train. syncreasoptimizer()和tf.train.replicas_device_setter()等等。雖然對某些場景有益，但這也引入了難以診斷的bug，從而減慢了訓練速度。

第二個問題是關于Uber規模計算的挑戰。在運行了一些基準測試之后，他們發現不能使標準的分布式TensorFlow按比例擴展，以及需要的服務。例如，在128個GPU上進行訓練時，由于效率低下，損失了大約一半的資源。

當Uber在128個NVIDIA Pascal GPU上運行標準的TensorFlow基準測試套件時，他們發現Inception V3和ResNet-101模型都無法利用將近一半的GPU資源。

標準的分布式TensorFlow包使用參數服務器方法來平均梯度。在這種方法中，每個流程都有兩個潛在角色之一：Worker或參數服務器。Worker用于處理訓練數據，計算梯度，并將它們發送到參數服務器進行平均。

Uber認為，雖然這種方法提高了性能，但遇到了兩個挑戰：確定Worker與參數服務器的正確比例。

如果使用一個參數服務器，它可能會成為網絡或計算瓶頸。如果使用多個參數服務器，通信模式將變成“all-to-all”，這可能會使網絡互連飽和。

處理增加TensorFlow程序復雜性：在測試中，每個用戶的分布式TensorFlow必須顯式啟動每個Worker和參數服務器，通過服務發現周圍信息，如所有的Worker和參數服務器的主機和端口，并修改培訓計劃構建tf.Server()和一個適當的tf.ClusterSpec()。

此外，用戶必須確保使用tf.train.device_replica_setter()適當地放置所有操作，并修改代碼以使用towers來利用服務器中的多個GPU。這通常會導致陡峭的學習曲線和大量的代碼重構，從而占用實際建模的時間。

2017年初，百度發表了一篇文章《將HPC技術深度學習》,涉及到不同的算法平均梯度和溝通這些梯度(上面的第2步和第3步)，該算法基于Patarasuk和Yuan在2009年的論文《工作站集群帶寬最優全約算法》中引入的方法。

在環約簡算法中，每個N個節點與兩個節點通信2*(N-1)次。在此通信過程中，節點發送和接收數據緩沖區的塊。在前N-1次迭代中，接收到的值被添加到節點緩沖區的值中。在第二次N-1迭代中，接收到的值替換節點緩沖區中保存的值。

百度的論文認為，該算法是帶寬最優的，這意味著如果緩沖區足夠大，它將最優地利用可用網絡。

Uber也意識到，采用環減少(ring-allreduce)方法可以提高可用性和性能，這促使我們自己開發實現，以滿足Uber的TensorFlow需求。隨后，Uber采用了百度的TensorFlow ring-allreduce算法，并在此基礎上進行了構建。

Uber將代碼轉換為一個名為Horovod的獨立Python包，這個包是以俄羅斯傳統的民間舞蹈命名的，在這種舞蹈中，表演者挽著手臂繞圈跳舞，就像分布式TensorFlow進程使用Horovod彼此通信一樣。

Uber目前的不同團隊都可能使用不同版本的TensorFlow，但他們希望所有團隊都能夠利用ring-allreduce算法，而不需要升級到TensorFlow的最新版本，對自己的版本應用補丁，甚至不需要花時間構建框架。

有了一個獨立的包，Uber表示就可以根據硬件的不同，將安裝Horovod所需的時間從大約1小時縮短到幾分鐘。Horovod在Inception V3和ResNet-101中都達到了90%的縮放效率，在VGG-16中達到了79%的縮放效率。

此外，Uber用NCCL替換了百度ring-allreduce實現，NCCL是NVIDIA的集合通信庫，它提供了高度優化的ring-allreduce版本。NCCL 2引入了跨多臺機器運行ring-allreduce的能力，能夠利用它的許多性能提升優化。

Uber還在此基礎上增加了對適合單個服務器模型的支持，可能是在多個GPU上，而原來的版本只支持適合單個GPU的模型。

Horovod項目負責人亞歷克斯?瑟蓋夫(Alex Sergeev)表示，Horovod是為了讓各行各業的人工智能研究人員能夠更快、更直觀地進行深度學習模型訓練。后續隨著Horovod在功能和應用方面的不斷成熟，加入LF將使我們能夠進一步擴大它在開源生態系統中的影響。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像處理

圖像處理

+關注

關注
27

文章
1325

瀏覽量
57764
自動駕駛

自動駕駛

+關注

關注
788

文章
14223

瀏覽量
169693
深度學習

深度學習

+關注

關注
73

文章
5555

瀏覽量
122534

原文標題：Horovod ? Tensor flow ? Uber開源分布式深度學習模型 | GGAI海外

文章出處：【微信號：ilove-ev，微信公眾號：高工智能汽車】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

Uber一個跨多臺機器的分布式深度學習訓練框架引入開源項目LF深度學習基金會

評論