在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘FACEBOOK未來的機器學(xué)習(xí)平臺

jmiy_worldofai ? 來源:lp ? 2019-03-26 09:25 ? 次閱讀

粗看上去,世界上的超大規(guī)模用戶和云構(gòu)建商制造的東西通常看上去和感覺上去都像超級計算機,但如果你仔細(xì)觀察,就常會看到一些相當(dāng)大的差異。差異之一是,他們的機器并不是為了實現(xiàn)最高性能而不惜一切代價去設(shè)計,而是在性能和成本之間實現(xiàn)了最佳平衡。

簡而言之,這就是為什么社交網(wǎng)絡(luò)巨頭Facebook(世界上最大的人工智能用戶之一)大量訂購英偉達(dá)的HGX-1和HGX-2系統(tǒng)用于機器學(xué)習(xí)訓(xùn)練,然后就到此為止了。(HGX-1和HGX-2系統(tǒng)是GPU加速器制造商英偉達(dá)的DGX系列的超大規(guī)模用戶版本。)

這并不是巧合,為什么微軟、谷歌、亞馬遜網(wǎng)絡(luò)服務(wù)、阿里巴巴、騰訊、百度,以及中國第四大巨頭(中國移動或京東)同樣設(shè)計自己的服務(wù)器,或是使用Facebook在2011年創(chuàng)建的開放計算項目(OCP)中的設(shè)計,或是在OCP啟動六個月后由阿里巴巴、百度和騰訊發(fā)起了天蝎計劃項目。在某些情況下,他們甚至設(shè)計自己的ASIC或在FPGA上運行專門用于機器學(xué)習(xí)的算法

公平地說,F(xiàn)acebook確實在2017年6月安裝了英偉達(dá)DGX-1 CPU-GPU混合系統(tǒng)的半定制實現(xiàn),該系統(tǒng)有124個節(jié)點,峰值雙精度性能為4.9 petaflops,在HPC常用的Linpack并行Fortran基準(zhǔn)測試中的評價為3.31petaflops。但這是個例外,不是常規(guī)。

但是,F(xiàn)acebook喜歡設(shè)計自己的硬件,然后將其開源,試圖圍繞這些設(shè)計構(gòu)建一個生態(tài)系統(tǒng),以降低工程和制造成本,并降低供應(yīng)鏈風(fēng)險,因為越來越多的公司進(jìn)入了開放計算領(lǐng)域。這與微軟幾年前加入OCP并將一系列完全不同的開源基礎(chǔ)設(shè)施設(shè)計(從服務(wù)器到存儲到交換)拋入OCP生態(tài)系統(tǒng)的原因相同。這增加了創(chuàng)新,但也導(dǎo)致了供應(yīng)鏈分叉。

在本周于圣何塞舉行的OCP全球峰會上,F(xiàn)acebook展示了針對機器學(xué)習(xí)訓(xùn)練和基礎(chǔ)設(shè)施的未來系統(tǒng)設(shè)計,讓世界有機會看到針對現(xiàn)代數(shù)據(jù)中心的這兩個日益重要的工作負(fù)載的成本優(yōu)化設(shè)備的至少一個潛在的未來。這些設(shè)計非常有趣,表明Facebook熱衷于創(chuàng)建能夠容納盡可能多的供應(yīng)商的不同類型計算的系統(tǒng),再次降低成本和供應(yīng)鏈風(fēng)險。

不是基本訓(xùn)練

第一臺新機器代號為“Zion”,它的目標(biāo)是Facebook上的機器學(xué)習(xí)訓(xùn)練工作負(fù)載。Zion系統(tǒng)由兩個不同的子系統(tǒng)組成,就像英偉達(dá)的DGX-1和微軟的HGX-1,也包括DGX-2和HGX-2,以及ODM和OEM廠商為客戶制造的各種等價產(chǎn)品。 Zion系統(tǒng)是兩年前Facebook在OCP峰會上與微軟的HGX-1一起發(fā)布的“Big Basin”ceepie-geepie系統(tǒng)的繼承者,這兩個系統(tǒng)的設(shè)計都為OCP做出了貢獻(xiàn)。Big Basin機器的主機支持多達(dá)8個英偉達(dá)的“Pascal”GP100或“Volta”GV100 GPU加速器,以及兩個英特爾Xeon CPU。巧妙之處在于CPU計算和GPU計算是分開的,分別位于不同的主板和不同的機箱中,因此它們可以單獨升級。具體取決于品牌和型號。

Big Basin是對其前身“Big Sur”的徹底改進(jìn),后者是一款密度較低的設(shè)計,基于單個主板,配備兩個Xeon CPU和多達(dá)8個PCI-Express Nvidia Tesla加速器(M40或K80是最受歡迎的)。Big Sur于2015年12月曝光。Facebook在談到設(shè)計時表示,開發(fā)工作已經(jīng)基本完成,還沒有投入生產(chǎn),這意味著Zion機器還沒有投入生產(chǎn),但很快就會問世。(我們在2018年1月討論了Facebook不斷演變的AI工作負(fù)載,以及運行這些工作負(fù)載的機器。)Zion機器的變化顯示了Facebook在混合CPU-GPU機器上的想法的變遷,這些想法是我們許多人都想不到的。

Zion機器的兩個子系統(tǒng)被稱為“Emerald Pools”和“Angels Landing”,分別指的是GPU和CPU子系統(tǒng)。盡管facebook多年來一直表示,其服務(wù)器設(shè)計的目的是允許選擇處理器或加速器,但在這個例子中,facebook和微軟合作提出了一種獨特的封裝和主板插接方法,稱為OCP加速器模塊(簡稱OAM),該方法允許使用具有不同插座和熱量的加速器,可以選擇250瓦至350瓦不等的風(fēng)冷,未來則可以選擇高達(dá)700瓦的水冷,但就硬件形式而言,所有這些都一致部署在這些加速系統(tǒng)中。

超大規(guī)模用戶谷歌、阿里巴巴和騰訊將與Facebook和微軟一起推廣OAM封裝,芯片制造AMD、英特爾、Xilinx、Habana、高通和Graphcore也是如此。系統(tǒng)制造商IBM、聯(lián)想、浪潮、廣達(dá)電腦、企鵝計算、華為技術(shù)、WiWynn、Molex和BittWare也都支持OAM。毫無疑問,其它公司也將效仿它們的芯片和系統(tǒng)——惠普和戴爾顯然是缺席的OEM,而富士康和Inventec則是缺席的主要ODM。

通過OAM,加速器被插入一個便攜式插座,它的管腳在一側(cè),然后是一組標(biāo)準(zhǔn)的并行管腳,它在概念上類似于英偉達(dá)的SXM2插座,用于Pascal和Volta GPU上的NVLink,從模塊上取下并插入主板上匹配的端口中。下圖說明了它的原理:

任何插入Emerald Pools機箱的特定加速器都會有散熱器,散熱器具有不同數(shù)量的鰭片和不同的材料,可用于冷卻其下方的設(shè)備,但高度一致,因此無論哪種加速器插入插槽,散熱器都能以一致的方式保持整個機箱中的氣流不變。雖然Facebook沒有這么說,但沒有理由不能將多個不兼容的加速器插入Emerald Pools機箱,并使用該機箱中實現(xiàn)的PCI-Express交換結(jié)構(gòu)相互連接并與主機CPU連接。下圖是OAM的外觀:

它看起來很像小型汽車電池,不是嗎?

每個OAM的尺寸為102毫米×165毫米,足夠容納我們認(rèn)為未來將會越來越大的多芯片模塊。對于耗電量高達(dá)350瓦的設(shè)備,OAM可支持12伏特的輸入;對于需要驅(qū)動高達(dá)700瓦的設(shè)備,OAM可支持48伏特的輸入;風(fēng)冷的散熱能力預(yù)計將在450瓦左右。當(dāng)前的OAM規(guī)范允許在加速器和主機之間提供一個或兩個PCI-Express 3.0 x16插槽,而且很顯然,更快的PCI-Express 4.0和5.0插槽已在規(guī)劃圖中。這樣就剩下6到7個PCI-Express鏈路用于交叉耦合加速器。順便說一句,這些鏈路可以分成兩部分,以提供更多的互連鏈路,并可以增加或減少任意給定鏈路的通道數(shù)量。

下圖是Emerald Pools機箱,里面插了8個加速器中的7個。

Emerald Pools底座后面有四個PCI-Express交換機,位于圖片的右側(cè),每個交換機都插入對應(yīng)的Angels Landing CPU機箱(即Zion系統(tǒng)的另一半)上的配套PCI-Express交換機。該系統(tǒng)的CPU部分沒有在Facebook展位上展出,但Facebook技術(shù)項目經(jīng)理、設(shè)計其AI系統(tǒng)的工程師之一Sam Naghshineh在一次演講中展示了這臺機器:

你可以看到,4個PCI-Express 3.0管線從加速器底座和CPU底座上出來,將它們連接在一起。關(guān)于Angels Landing有趣的一點不是它總共有4個服務(wù)器底座,每個都有一對Xeon SP處理器,這是超大規(guī)模數(shù)據(jù)中心的常規(guī)設(shè)計。巧妙之處在于,由于在系統(tǒng)的CPU端進(jìn)行機器學(xué)習(xí)訓(xùn)練期間,對數(shù)據(jù)密集處理的需求不斷增加,于是它使用處理器上的UltraPath Interconnect(UPI)鏈接將這4個雙插槽機器捆綁在一起,以創(chuàng)建一個8插槽共享內(nèi)存節(jié)點。按照Naghshineh的說法,從技術(shù)上講,這稱為扭曲超立方體拓?fù)洌?/p>

這個大CPU節(jié)點設(shè)計為擁有2 TB的DRAM主內(nèi)存,而無需使用大內(nèi)存條或Optan3D XPoint主內(nèi)存,而且重要的是,該節(jié)點可在系統(tǒng)的CPU端提供足夠的內(nèi)存帶寬,從而無需使用HBM內(nèi)存。(這并不是說英特爾或AMD CPU還擁有HBM內(nèi)存,但某些場合它們確實擁有HBM內(nèi)存,尤其是對于HPC和AI工作負(fù)載而言。)這8個插槽的DRAM內(nèi)存帶寬和容量一樣重要。

如你所見,Angels Landing CPU機箱中的每個CPU都有自己的網(wǎng)絡(luò)接口卡以及PCI-Express 3.0 x16插槽,用于將CPU連接到PCI-Express交換機結(jié)構(gòu),該交換機結(jié)構(gòu)將加速器計算復(fù)合體連接在一起,并連接到CPU。這些加速器鏈接在上圖中幾乎完全連接的混合立方體網(wǎng)格中,但還可以支持其他拓?fù)洌缦滤荆?/p>

左圖中,每個加速器有6個端口,8個加速器連接在一個混合立方體網(wǎng)格中。右圖中,仍然有8個設(shè)備,但是每個設(shè)備都有一個額外的端口(總共7個),這些設(shè)備可以按照all-to-all的互連方式進(jìn)行鏈接。顯然還有其他選擇,重點是不同的神經(jīng)網(wǎng)絡(luò)在不同的互連拓?fù)浣Y(jié)構(gòu)中效果更好,這將允許Facebook和其他公司改變互連的拓?fù)浣Y(jié)構(gòu),以滿足神經(jīng)網(wǎng)絡(luò)的需求。

推理的未來

Facebook毫不掩飾地表示,它希望擁有比目前市場上更高效的推理機,這是Facebook去年在一篇論文中討論的一個話題。在本周的OCP全球峰會上,F(xiàn)acebook公司高層概述了機器學(xué)習(xí)推理硬件的未來。

Facebook技術(shù)和戰(zhàn)略主管Vijay Rao提醒大家,早在1980年,英特爾就為8086系列處理器設(shè)計了8087數(shù)學(xué)協(xié)處理器,這些處理器如今是客戶端的核心芯片和服務(wù)器上的Xeon芯片的前身。這些機器可以在2.4瓦的熱度范圍內(nèi)實現(xiàn)50 kiloflops(32位單精度),達(dá)到相當(dāng)驚人的每瓦20.8 kiloflops。Facebook的目標(biāo)是使用像INT8這樣的低精度數(shù)學(xué)運算,來達(dá)到接近每瓦5 teraflops,如果你看看英偉達(dá)的GV100,它可以達(dá)到每瓦特0.4 teraflops。

Rao在他的主題演講中解釋說:“我們一直在與許多合作伙伴密切合作,設(shè)計用于推理的ASIC。與傳統(tǒng)CPU相比,在加速器中運行推理的吞吐量增加是值得的。在我們的情況下,應(yīng)該是每瓦特10倍左右。”

Rao大致談到了將M.2推理引擎組合到微服務(wù)器卡上,然后將它們插入到2015年創(chuàng)建的“Yosemite”服務(wù)器機箱中,F(xiàn)acebook設(shè)計該機箱是為了完成基本的基礎(chǔ)設(shè)施工作。但當(dāng)天晚些時候,Naghshineh實際展示了它的實現(xiàn)方法。以下是M.2推理引擎的“Kings Canyon”系列:

Facebook正試圖鼓勵推理芯片制造商支持兩種不同的形式。一個是單個的寬M.2單元,最大支持12瓦,并帶有一個PCI-Express x4接口,另一個具有兩倍大的內(nèi)存、20瓦的熱度范圍,一對PCI-Express x4端口,可以單獨使用或捆綁使用。這些M.2推理卡中的多個被插入“Glacier Point”載卡中,該載卡插入真正的PCI-Express x16插槽,最多可以有4個載卡被插入Yosemite機箱,如下所示:

群集推理引擎的框圖如下所示:

這樣做的唯一原因與使用低核心計數(shù)、高頻率、單插槽的微型服務(wù)器來運行電子設(shè)計自動化(EDA)工作負(fù)載相同,英特爾就是這樣做的,盡管它想要向世界銷售雙插槽服務(wù)器。推理工作負(fù)載類似于Web服務(wù)和EDA驗證:你可以將整個較小規(guī)模的工作分派到大量松散耦合(幾乎沒有耦合,完全不是真正耦合)計算單元中的一個,然后一次執(zhí)行大量的這些任務(wù),并同時完成大量工作。對一位數(shù)據(jù)的推斷決不依賴于對無數(shù)其他工作的推斷。機器學(xué)習(xí)訓(xùn)練則不同,它更像傳統(tǒng)的HPC仿真和建模,在不同的程度和頻率下,對一個計算元素進(jìn)行的任何處理都依賴于其他計算元素的結(jié)果。

因此,我們所看到的用于機器學(xué)習(xí)訓(xùn)練和推理的截然不同的硬件設(shè)計都來自Facebook。我們可以肯定的是,F(xiàn)acebook希望能夠采用它認(rèn)為適合框架的任何類型的CPU和加速器進(jìn)行訓(xùn)練,以及任何價格低廉的芯片推理引擎,在任意給定的時間內(nèi),它的性能都比CPU好10倍。今天在Facebook運行在X86服務(wù)器上的推理業(yè)務(wù)是英特爾的失敗。或許也未必,沒準(zhǔn)Facebook會決定在今年晚些時候推出M.2 Nervana NNP推理引擎。我們將會看到推理是如何流過Kings Canyon的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    807

    瀏覽量

    38090
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8441

    瀏覽量

    133087
  • 生態(tài)系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    704

    瀏覽量

    20784

原文標(biāo)題:揭秘FACEBOOK未來的機器學(xué)習(xí)平臺

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2016機器學(xué)習(xí)行業(yè)應(yīng)用國際峰會:唯「智」者,「造」未來

    ?  在此大背景下,IBM與CDA數(shù)據(jù)分析研究院共同舉辦題為《唯「智」者,「造」未來》的機器學(xué)習(xí)行業(yè)應(yīng)用國際峰會,將于2016年11月22日在北京?北大博雅國際酒店舉行。屆時,包括人工智能研究院、工信部在內(nèi)
    發(fā)表于 11-08 17:51

    人工智能和機器學(xué)習(xí)的前世今生

    。Netflix有一個很好的關(guān)于下一個你想看的節(jié)目的想法,Facebook可以在照片中識別你和你的朋友,這要感謝機器學(xué)習(xí).。機器學(xué)習(xí)是關(guān)于自
    發(fā)表于 08-27 10:16

    Facebook背后的軟件揭秘

    Facebook的擴展性挑戰(zhàn)在我們討論細(xì)節(jié)之前,這里有一些Facebook已經(jīng)做的軟件規(guī)模:◆Facebook有570000000000每月頁面瀏覽量 (據(jù)Google Ad Planner
    發(fā)表于 07-16 06:48

    機器學(xué)習(xí)的創(chuàng)新/開發(fā)和應(yīng)用能力

    機器學(xué)習(xí)未來在工業(yè)領(lǐng)域采用機器學(xué)習(xí)機器學(xué)習(xí)和大數(shù)據(jù)工業(yè)人工智能生態(tài)系統(tǒng)
    發(fā)表于 12-16 07:47

    機器學(xué)習(xí)未來

    機器學(xué)習(xí)未來在工業(yè)領(lǐng)域采用機器學(xué)習(xí)機器學(xué)習(xí)和大數(shù)據(jù)
    發(fā)表于 01-27 06:02

    機器學(xué)習(xí)與軟件平臺的融合

    本文將探討機器學(xué)習(xí)與軟件平臺的融合。
    發(fā)表于 01-28 06:36

    Facebook決定削減對機器學(xué)習(xí)和人工智能技術(shù)的投資

    由于Messenger聊天機器人的錯誤率高達(dá)70%,Facebook已決定削減對機器學(xué)習(xí)和人工智能技術(shù)的投資。為此,Facebook將放棄打
    發(fā)表于 03-06 09:11 ?683次閱讀

    深度揭示 Facebook 內(nèi)部支持機器學(xué)習(xí)的硬件和軟件基礎(chǔ)架構(gòu)

    近日 Facebook 研究團隊公開一篇 HPCA 2018 論文,作者包括 Caffe 作者賈揚清等人,深度揭示了 Facebook 內(nèi)部支持機器學(xué)習(xí)的硬件和軟件基礎(chǔ)架構(gòu)。
    的頭像 發(fā)表于 12-31 00:38 ?4753次閱讀
    深度揭示 <b class='flag-5'>Facebook</b> 內(nèi)部支持<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的硬件和軟件基礎(chǔ)架構(gòu)

    介紹Facebook機器學(xué)習(xí)方面的軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運算需求

    機器學(xué)習(xí)Facebook的眾多產(chǎn)品和服務(wù)中都有著舉足輕重的地位。 本文將詳細(xì)介紹Facebook機器
    的頭像 發(fā)表于 01-24 11:23 ?4319次閱讀
    介紹<b class='flag-5'>Facebook</b>在<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方面的軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運算需求

    Facebook機器學(xué)習(xí)是什么?它能用來做什么?

    Facebook機器學(xué)習(xí)功能可以幫助你的廣告系列取得最佳表現(xiàn)。Facebook平臺可以通過實時確定表現(xiàn)最佳的版位、預(yù)算分配以及廣告系列的競
    的頭像 發(fā)表于 04-02 15:49 ?2740次閱讀
    <b class='flag-5'>Facebook</b><b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>是什么?它能用來做什么?

    Facebook用AI技術(shù)優(yōu)化機器人 推動其他形式機器學(xué)習(xí)的發(fā)展

    盡管Facebook不銷售機器人,但該公司研究人員在大量使用機器人。機器人技術(shù)的進(jìn)步可以推動其他形式機器
    發(fā)表于 05-21 16:31 ?700次閱讀

    機器學(xué)習(xí)未來系統(tǒng)設(shè)計和平臺創(chuàng)建中的關(guān)鍵組成部分

    對于負(fù)責(zé)將機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)應(yīng)用在計算軟件的EDA研究項目的Elias Fallon來說,他對電子設(shè)計行業(yè)的未來發(fā)展有著獨特的見解。
    的頭像 發(fā)表于 11-24 11:46 ?1853次閱讀

    Facebook開發(fā)出更加強大的機器學(xué)習(xí)模型

    近日,Facebook公司分享了兩個內(nèi)部人工智能項目的細(xì)節(jié),分別是Learning from video和TimeSformer,這兩個項目旨在促進(jìn)更強大的機器學(xué)習(xí)模型的開發(fā)。
    的頭像 發(fā)表于 03-18 09:18 ?1759次閱讀

    機器學(xué)習(xí)可以幫助未來的癌癥診斷

    機器學(xué)習(xí)可以幫助未來的癌癥診斷
    的頭像 發(fā)表于 12-30 09:40 ?1016次閱讀

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生
    的頭像 發(fā)表于 12-25 11:54 ?162次閱讀
    主站蜘蛛池模板: 高清精品女厕在线观看 | 欧美日剧在线免费 | 亚洲成人综合在线 | 噜噜噜色噜噜噜久久 | 国语一级毛片私人影院 | 中文字幕一区二区三区四区 | 毛片一区| 狠狠干狠狠操视频 | 圆胖肥女人性视频 | 久久精品影视 | 在线视频观看一区 | 最新黄色大片 | 2o18国产大陆天天弄 | 午夜在线观看视频在线播放版 | 在线观看高清免费播放 | 男人资源 | 午夜国产片 | 香蕉视频黄色在线观看 | 又粗又大撑满了好爽 | 奇米一区二区三区四区久久 | 亚洲一区二区在线免费观看 | 男人天堂网在线播放 | 久久九九国产精品怡红院 | 久久精品视频观看 | 俺也来俺也去俺也射 | 日本三黄色大 | 天天干天天综合 | 欧美video free xxxxx | 97精品久久天干天天蜜 | 同性恋激情视频 | 日本三黄色大 | 免费aa | 欧日韩视频777888 | 久久伊人色 | 国产精品一区二区综合 | 一级看片免费视频囗交 | 色综合久久久久综合99 | 免费看黄色网 | 欧美日韩乱国产 | 高清不卡一区二区三区 | 日韩一区二区视频 |