在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TPU憑什么成為深度學(xué)習(xí)的首選處理器?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-09-04 16:04 ? 次閱讀

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計(jì)算支持,包括翻譯、照片、搜索助理和 Gmail 等。

Cloud TPU 將 TPU 作為可擴(kuò)展的云計(jì)算資源,并為所有在 Google Cloud 上運(yùn)行尖端 ML 模型的開發(fā)者與數(shù)據(jù)科學(xué)家提供計(jì)算資源。在 Google Next’18 中,我們宣布 TPU v2 現(xiàn)在已經(jīng)得到用戶的廣泛使用,包括那些免費(fèi)試用用戶,而 TPU v3 目前已經(jīng)發(fā)布了內(nèi)部測試版。

第三代 Cloud TPU

如上為 tpudemo.com 截圖,該網(wǎng)站 PPT 解釋了 TPU 的特性與定義。在本文中,我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運(yùn)算

在我們對比 CPU、GPU 和 TPU 之前,我們可以先了解到底機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計(jì)算。如下所示,假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉(zhuǎn)化為包含 784 個(gè)元素的向量。神經(jīng)元會接收所有 784 個(gè)值,并將它們與參數(shù)值(上圖紅線)相乘,因此才能識別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征,因而能計(jì)算輸入圖像與「8」之間的相似性:

這是對神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋,即將數(shù)據(jù)與對應(yīng)的參數(shù)相乘(上圖兩種顏色的點(diǎn)),并將它們加在一起(上圖右側(cè)收集計(jì)算結(jié)果)。如果我們能得到最高的預(yù)測值,那么我們會發(fā)現(xiàn)輸入數(shù)據(jù)與對應(yīng)參數(shù)非常匹配,這也就最可能是正確的答案。

簡單而言,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運(yùn)算,這在我們大學(xué)的線性代數(shù)中會提到。所以關(guān)鍵點(diǎn)是我們該如何快速執(zhí)行大型矩陣運(yùn)算,同時(shí)還需要更小的能耗。

CPU 如何運(yùn)行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運(yùn)算任務(wù)呢?一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器,這意味著 CPU 與軟件和內(nèi)存的運(yùn)行方式如下:

CPU 如何運(yùn)行:該動圖僅展示了概念性原理,并不反映 CPU 的實(shí)際運(yùn)算行為。

CPU 最大的優(yōu)勢是靈活性。通過馮諾依曼架構(gòu),我們可以為數(shù)百萬的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是,由于 CPU 非常靈活,硬件無法一直了解下一個(gè)計(jì)算是什么,直到它讀取了軟件的下一個(gè)指令。CPU 必須在內(nèi)部將每次計(jì)算的結(jié)果保存到內(nèi)存中(也被稱為寄存器或 L1 緩存)。內(nèi)存訪問成為 CPU 架構(gòu)的不足,被稱為馮諾依曼瓶頸。雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運(yùn)算中的每一步都是完全可預(yù)測的,每一個(gè) CPU 的算術(shù)邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個(gè)接一個(gè)地執(zhí)行它們,每一次都需要訪問內(nèi)存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡單的策略:在單個(gè)處理器中使用成千上萬個(gè) ALU?,F(xiàn)代 GPU 通常在單個(gè)處理器中擁有 2500-5000 個(gè) ALU,意味著你可以同時(shí)執(zhí)行數(shù)千次乘法和加法運(yùn)算。

GPU 如何工作:這個(gè)動畫僅用于概念展示。并不反映真實(shí)處理器的實(shí)際工作方式。

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好,例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實(shí)際上,相比 CPU,GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負(fù)載中能實(shí)現(xiàn)高幾個(gè)數(shù)量級的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中最受歡迎的處理器架構(gòu)。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問題,馮諾依曼瓶頸。在每次幾千個(gè) ALU 的計(jì)算中,GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計(jì)算結(jié)果。因?yàn)?GPU 在其 ALU 上執(zhí)行更多的并行計(jì)算,它也會成比例地耗費(fèi)更多的能量來訪問內(nèi)存,同時(shí)也因?yàn)閺?fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計(jì) TPU 的時(shí)候,我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著,我們沒有設(shè)計(jì)一種通用的處理器,而是專用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。TPU 不能運(yùn)行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù),但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運(yùn)算,同時(shí) TPU 的速度非常快、能耗非常小且物理空間占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因?yàn)樵撎幚砥鞯闹饕蝿?wù)是矩陣處理,TPU 的硬件設(shè)計(jì)者知道該運(yùn)算過程的每個(gè)步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來,以構(gòu)建那些運(yùn)算符的物理矩陣。這被稱作脈動陣列(Systolic Array)架構(gòu)。在 Cloud TPU v2 的例子中,有兩個(gè) 128X128 的脈動陣列,在單個(gè)處理器中集成了 32768 個(gè) ALU 的 16 位浮點(diǎn)值。

我們來看看一個(gè)脈動陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算。首先,TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

然后,TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個(gè)乘法被執(zhí)行后,其結(jié)果將被傳遞到下一個(gè)乘法器,同時(shí)執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計(jì)算和數(shù)據(jù)傳遞的整個(gè)過程中,不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運(yùn)算上達(dá)到高計(jì)算吞吐量,同時(shí)能耗和物理空間都很小。

好處:成本降低至 1/5

因此使用 TPU 架構(gòu)的好處就是:降低成本。以下是截至 2018 年 8 月(寫這篇文章的時(shí)候)Cloud TPU v2 的使用價(jià)格。

Cloud TPU v2 的價(jià)格,截至 2018 年 8 月。

斯坦福大學(xué)發(fā)布了深度學(xué)習(xí)和推理的基準(zhǔn)套裝 DAWNBench。你可以在上面找到不同的任務(wù)、模型、計(jì)算平臺以及各自的基準(zhǔn)結(jié)果的組合。

DAWNBench:https://dawn.cs.stanford.edu/benchmark/

在 DAWNBench 比賽于 2018 年 4 月結(jié)束的時(shí)候,非 TPU 處理器的最低訓(xùn)練成本是 72.40 美元(使用現(xiàn)場實(shí)例訓(xùn)練 ResNet-50 達(dá)到 93% 準(zhǔn)確率)。而使用 Cloud TPU v2 搶占式計(jì)價(jià),你可以在 12.87 美元的價(jià)格完成相同的訓(xùn)練結(jié)果。這僅相當(dāng)于非 TPU 的不到 1/5 的成本。這正是神經(jīng)網(wǎng)絡(luò)領(lǐng)域特定架構(gòu)的威力之所在。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19824

    瀏覽量

    233719
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4916

    瀏覽量

    130725
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    21097

原文標(biāo)題:僅需1/5成本:TPU是如何超越GPU,成為深度學(xué)習(xí)首選處理器的

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    智能芯片市場格局一變再變 TPU將成深度學(xué)習(xí)的未來?

    在Google I/O 2016的主題演講進(jìn)入尾聲時(shí),谷歌的CEO皮采提到了一項(xiàng)他們這段時(shí)間在AI和機(jī)器學(xué)習(xí)上取得的成果,一款叫做Tensor Processing Unit(張量處理單元)的處理器,簡稱
    發(fā)表于 05-19 11:49 ?1474次閱讀

    CORAL-EDGE-TPU:珊瑚開發(fā)板TPU

    包括一個(gè)上系統(tǒng)模塊(SOM)和護(hù)壁板。SOM基于iMX 8M應(yīng)用處理器,還包含LPDDR4內(nèi)存,eMMC存儲,雙頻Wi-Fi和Edge TPU。Edge TPU是由Google設(shè)計(jì)的小型ASIC
    發(fā)表于 05-29 10:43

    CPU,GPU,TPU,NPU都是什么

    嵌入式算法移植優(yōu)化學(xué)習(xí)筆記5——CPU,GPU,TPU,NPU都是什么一、什么是CPU?二、什么是GPU?三、什么是TPU?四、什么是NPU?附:一、什么是CPU?中央處理器(CPU)
    發(fā)表于 12-15 06:07

    谷歌新神經(jīng)計(jì)算專用處理器TPU超越CPU與GPU的原因

    網(wǎng)絡(luò)巨擘谷歌(Google)日前指出,該公司的Tensor處理器TPU)在機(jī)器學(xué)習(xí)的測試中,以數(shù)量級的效能優(yōu)勢超越英特爾(Intel)的Xeon處理器和Nvidia的繪圖
    發(fā)表于 04-28 09:39 ?1256次閱讀
    谷歌新神經(jīng)計(jì)算專用<b class='flag-5'>處理器</b><b class='flag-5'>TPU</b>超越CPU與GPU的原因

    寒武紀(jì)科技將發(fā)布深度學(xué)習(xí)專用處理器

    人工智能繞不過深度學(xué)習(xí)。目前深度學(xué)習(xí)的應(yīng)用還是基于通用處理器如CPU、GPU。寒武紀(jì)科技陳天石表示,在幾年前的谷歌大腦項(xiàng)目,用了1.6萬個(gè)C
    發(fā)表于 10-11 15:53 ?0次下載
    寒武紀(jì)科技將發(fā)布<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>專用<b class='flag-5'>處理器</b>

    Google正式發(fā)布了第三代AI人工智能/機(jī)器學(xué)習(xí)專用處理器TPU 3.0

    Google I/O 2018開發(fā)者大會期間,Google正式發(fā)布了第三代AI人工智能/機(jī)器學(xué)習(xí)專用處理器TPU 3.0。
    發(fā)表于 05-11 15:46 ?2201次閱讀

    Google發(fā)布超低功耗的ASIC芯片Edge TPU處理器

    Google于美國當(dāng)?shù)貢r(shí)間周三在Next云端大會,重磅發(fā)布了Edge TPU處理器。
    的頭像 發(fā)表于 07-30 14:11 ?9185次閱讀

    TPU/GPU /FPGA誰將能成為智能時(shí)代協(xié)處理器的領(lǐng)跑者

    深度學(xué)習(xí)應(yīng)用大量涌現(xiàn)使超級計(jì)算機(jī)的架構(gòu)逐漸向深度學(xué)習(xí)應(yīng)用優(yōu)化,從傳統(tǒng) CPU 為主 GPU 為輔的英特爾處理器變?yōu)?GPU 為主 CPU 為
    發(fā)表于 08-31 09:55 ?1855次閱讀

    獨(dú)特的方式操縱SRAM單元以處理深度學(xué)習(xí)任務(wù)

    操作/秒/瓦(TOPS / W)。它的計(jì)算密度可以擊敗Google的TPU一個(gè)數(shù)量級。 該設(shè)計(jì)是使用內(nèi)存中計(jì)算方法的加速產(chǎn)品線中最新的一種。設(shè)計(jì)使用40納米NOR閃存單元的深度學(xué)習(xí)
    的頭像 發(fā)表于 09-19 09:15 ?1990次閱讀

    深度學(xué)習(xí)算法進(jìn)行優(yōu)化的處理器——NPU

    NPU(Neural-network Processing Unit,嵌入式神經(jīng)網(wǎng)絡(luò)處理器)是針對深度學(xué)習(xí)*算法進(jìn)行優(yōu)化的處理器。它能像人類神經(jīng)網(wǎng)絡(luò)一樣快速、高效地
    發(fā)表于 10-17 10:53 ?2801次閱讀

    基于 TPU v4的超級計(jì)算機(jī)性能解析

    谷歌張量處理器(tensor processing unit,TPU)是該公司為機(jī)器學(xué)習(xí)定制的專用芯片(ASIC),第一代發(fā)布于 2016 年,成為了 AlphaGo 背后的算力。與
    發(fā)表于 04-23 12:35 ?1296次閱讀
    基于 <b class='flag-5'>TPU</b> v4的超級計(jì)算機(jī)性能解析

    深度學(xué)習(xí)服務(wù)器怎么做 深度學(xué)習(xí)服務(wù)器diy 深度學(xué)習(xí)服務(wù)器主板用什么

    。因此,深度學(xué)習(xí)服務(wù)器逐漸成為了人們進(jìn)行深度學(xué)習(xí)實(shí)驗(yàn)的必要工具。本文將介紹深度
    的頭像 發(fā)表于 08-17 16:11 ?1111次閱讀

    TPU和NPU的區(qū)別

    和NPU之間的區(qū)別。 什么是TPU? TPU,即Tensor Processing Unit,是由Google公司開發(fā)的專用於深度學(xué)習(xí)的加速
    的頭像 發(fā)表于 08-27 17:08 ?1w次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?549次閱讀

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學(xué)習(xí)應(yīng)用設(shè)計(jì)的硬件加速。它的開發(fā)源于對人工智能(AI)
    的頭像 發(fā)表于 04-22 09:41 ?1005次閱讀
    <b class='flag-5'>TPU</b><b class='flag-5'>處理器</b>的特性和工作原理
    主站蜘蛛池模板: 国产精品漂亮美女在线观看 | 国产精品资源在线播放 | 九九热免费在线观看 | 日本又粗又长一进一出抽搐 | 成人免费午间影院在线观看 | 在线观看免费黄视频 | 精品欧美一区二区三区 | 求av网址| 欧美色吧视频在线观看 | 色五月视频 | 手机看片a永久免费看大片 手机毛片 | 狠狠操狠狠| 亚洲综合欧美日本另类激情 | 国产午夜精品理论片在线 | 国产精品久久婷婷六月丁香 | 色九九| 日本久草网 | 一区二区三区四区电影 | 日本视频网站在线www色 | 123456成年免费视频 | 加勒比视频一区 | 成 黄 色 激 情视频网站 | 国产在线观看色 | 视频一区二区免费 | 91久久人澡人人添人人爽 | 精品国产午夜久久久久九九 | 西西人体44rt高清午夜 | 特级一级毛片免费看 | 亚洲一区二区三区免费视频 | 97在线精品| h黄色| 欧美一级特黄aa大片 | 国产精品电影一区 | 久久婷人人澡人人爽 | 男人不识本网站上遍色站也枉然 | 激情五月开心婷婷 | 一级做a爰片久久毛片毛片 一级做a爰片久久毛片美女图片 | 日本人xxxxxxxxxⅹ69| 色偷偷91综合久久噜噜 | xx网成人| 亚洲综合区图片小说区 |