在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文理清CPU、GPU和TPU的關系

羅欣 ? 來源:Google Cloud ? 作者:Kaz Sato ? 2018-09-04 11:12 ? 次閱讀

很多讀者可能分不清楚 CPUGPU 和 TPU 之間的區別,因此 Google Cloud 將在這篇博客中簡要介紹它們之間的區別,并討論為什么 TPU 能加速深度學習

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設計,并專門用于機器學習工作負載。TPU 為谷歌的主要產品提供了計算支持,包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴展的云計算資源,并為所有在 Google Cloud 上運行尖端 ML 模型的開發者與數據科學家提供計算資源。在 Google Next’18 中,我們宣布 TPU v2 現在已經得到用戶的廣泛使用,包括那些免費試用用戶,而 TPU v3 目前已經發布了內部測試版。

第三代 Cloud TPU

如上為 tpudemo.com 截圖,該網站 PPT 解釋了 TPU 的特性與定義。在本文中,我們將關注 TPU 某些特定的屬性。

神經網絡如何運算

在我們對比 CPU、GPU 和 TPU 之前,我們可以先了解到底機器學習或神經網絡需要什么樣的計算。如下所示,假設我們使用單層神經網絡識別手寫數字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉化為包含 784 個元素的向量。神經元會接收所有 784 個值,并將它們與參數值(上圖紅線)相乘,因此才能識別為「8」。其中參數值的作用類似于用「濾波器」從數據中抽取特征,因而能計算輸入圖像與「8」之間的相似性:

這是對神經網絡做數據分類最基礎的解釋,即將數據與對應的參數相乘(上圖兩種顏色的點),并將它們加在一起(上圖右側收集計算結果)。如果我們能得到最高的預測值,那么我們會發現輸入數據與對應參數非常匹配,這也就最可能是正確的答案。

簡單而言,神經網絡在數據和參數之間需要執行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算,這在我們大學的線性代數中會提到。所以關鍵點是我們該如何快速執行大型矩陣運算,同時還需要更小的能耗。

CPU 如何運行

因此 CPU 如何來執行這樣的大型矩陣運算任務呢?一般 CPU 是基于馮諾依曼架構的通用處理器,這意味著 CPU 與軟件和內存的運行方式如下:

CPU 如何運行:該動圖僅展示了概念性原理,并不反映 CPU 的實際運算行為。

CPU 最大的優勢是靈活性。通過馮諾依曼架構,我們可以為數百萬的不同應用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執行銀行交易或者使用神經網絡分類圖像。

但是,由于 CPU 非常靈活,硬件無法一直了解下一個計算是什么,直到它讀取了軟件的下一個指令。CPU 必須在內部將每次計算的結果保存到內存中(也被稱為寄存器或 L1 緩存)。內存訪問成為 CPU 架構的不足,被稱為馮諾依曼瓶頸。雖然神經網絡的大規模運算中的每一步都是完全可預測的,每一個 CPU 的算術邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個接一個地執行它們,每一次都需要訪問內存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡單的策略:在單個處理器中使用成千上萬個 ALU。現代 GPU 通常在單個處理器中擁有 2500-5000 個 ALU,意味著你可以同時執行數千次乘法和加法運算。

GPU 如何工作:這個動畫僅用于概念展示。并不反映真實處理器的實際工作方式。

這種 GPU 架構在有大量并行化的應用中工作得很好,例如在神經網絡中的矩陣乘法。實際上,相比 CPU,GPU 在深度學習的典型訓練工作負載中能實現高幾個數量級的吞吐量。這正是為什么 GPU 是深度學習中最受歡迎的處理器架構。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬種不同的應用和軟件。這又把我們帶回到了基礎的問題,馮諾依曼瓶頸。在每次幾千個 ALU 的計算中,GPU 都需要訪問寄存器或共享內存來讀取和保存中間計算結果。因為 GPU 在其 ALU 上執行更多的并行計算,它也會成比例地耗費更多的能量來訪問內存,同時也因為復雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當谷歌設計 TPU 的時候,我們構建了一種領域特定的架構。這意味著,我們沒有設計一種通用的處理器,而是專用于神經網絡工作負載的矩陣處理器。TPU 不能運行文本處理軟件、控制火箭引擎或執行銀行業務,但它們可以為神經網絡處理大量的乘法和加法運算,同時 TPU 的速度非常快、能耗非常小且物理空間占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因為該處理器的主要任務是矩陣處理,TPU 的硬件設計者知道該運算過程的每個步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來,以構建那些運算符的物理矩陣。這被稱作脈動陣列(Systolic Array)架構。在 Cloud TPU v2 的例子中,有兩個 128X128 的脈動陣列,在單個處理器中集成了 32768 個 ALU 的 16 位浮點值。

我們來看看一個脈動陣列如何執行神經網絡計算。首先,TPU 從內存加載參數到乘法器和加法器的矩陣中。

然后,TPU 從內存加載數據。當每個乘法被執行后,其結果將被傳遞到下一個乘法器,同時執行加法。因此結果將是所有數據和參數乘積的和。在大量計算和數據傳遞的整個過程中,不需要執行任何的內存訪問。

這就是為什么 TPU 可以在神經網絡運算上達到高計算吞吐量,同時能耗和物理空間都很小。

好處:成本降低至 1/5

因此使用 TPU 架構的好處就是:降低成本。以下是截至 2018 年 8 月(寫這篇文章的時候)Cloud TPU v2 的使用價格。

Cloud TPU v2 的價格,截至 2018 年 8 月。

斯坦福大學發布了深度學習和推理的基準套裝 DAWNBench。你可以在上面找到不同的任務、模型、計算平臺以及各自的基準結果的組合。

DAWNBench:https://dawn.cs.stanford.edu/benchmark/

在 DAWNBench 比賽于 2018 年 4 月結束的時候,非 TPU 處理器的最低訓練成本是 72.40 美元(使用現場實例訓練 ResNet-50 達到 93% 準確率)。而使用 Cloud TPU v2 搶占式計價,你可以在 12.87 美元的價格完成相同的訓練結果。這僅相當于非 TPU 的不到 1/5 的成本。這正是神經網絡領域特定架構的威力之所在。

本文來源:Google Cloud Kaz Sato

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11013

    瀏覽量

    215305
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4886

    瀏覽量

    130437
  • TPU
    TPU
    +關注

    關注

    0

    文章

    151

    瀏覽量

    21034
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    CPU\GPU引領,國產AI PC進階

    電子發燒友網報道(/黃晶晶)當前AI PC已經成為PC產業的下個浪潮,國產CPUGPU廠商在PC市場直處于追趕態勢,AI PC給了大
    的頭像 發表于 09-01 02:15 ?5489次閱讀
    <b class='flag-5'>CPU</b>\<b class='flag-5'>GPU</b>引領,國產AI PC進階

    CPUGPU:渲染技術的演進和趨勢

    渲染技術是計算機圖形學的核心內容之,它是將三維場景轉換為二維圖像的過程。渲染技術直在不斷演進,從最初的CPU渲染到后來的GPU渲染,性能和質量都有了顯著提升。
    的頭像 發表于 02-21 11:11 ?524次閱讀
    從<b class='flag-5'>CPU</b>到<b class='flag-5'>GPU</b>:渲染技術的演進和趨勢

    RK3588性能設置 CPU GPU DDR NPU 頻率設置

    RK3588 CPU GPU DDR定頻策略
    的頭像 發表于 02-15 16:09 ?1468次閱讀

    GPU渲染才是大勢所趨?CPU渲染與GPU渲染的現狀與未來

    在3D建模和渲染領域,隨著技術的發展,CPU渲染和GPU渲染這兩種方法逐漸呈現出各自獨特的優勢,并且在不同的應用場景中各有側重。盡管當前我們處在CPU渲染和
    的頭像 發表于 02-06 11:04 ?448次閱讀
    <b class='flag-5'>GPU</b>渲染才是大勢所趨?<b class='flag-5'>CPU</b>渲染與<b class='flag-5'>GPU</b>渲染的現狀與未來

    2024年GPU出貨量增長顯著,超越CPU

    6%的同比增長,總量超過2.51億顆,這數據不僅彰顯了GPU市場的繁榮,也反映了當前市場對于圖形處理能力的巨大需求。 尤為值得提的是,與同樣作為計算機核心部件的CPU相比,
    的頭像 發表于 01-17 14:12 ?381次閱讀

    FPGA+GPU+CPU國產化人工智能平臺

    平臺采用國產化FPGA+GPU+CPU構建嵌入式多核異構智算終端,可形成FPGA+GPU、FPGA+CPUCPU+FPGA等組合模式,形成低功耗、高可擴展性的硬件系統,結合使用場景靈
    的頭像 發表于 01-07 16:42 ?830次閱讀
    FPGA+<b class='flag-5'>GPU+CPU</b>國產化人工智能平臺

    文理解多模態大語言模型——下

    /understanding-multimodal-llms ? 《文理解多模態大語言模型 - 上》介紹了什么是多模態大語言模型,以及構建多模態 LLM 有兩種主要方式之:統嵌入
    的頭像 發表于 12-03 15:18 ?459次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理</b>解多模態大語言模型——下

    看懂】大白話解釋“GPUGPU算力”

    隨著大模型的興起,“GPU算力”這個詞正頻繁出現在人工智能、游戲、圖形設計等工作場景中,什么是GPU,它與CPU的區別是什么?以及到底什么是GPU算力?本篇文章主要從以下5個角度,讓您
    的頭像 發表于 10-29 08:05 ?2058次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    【「大模型時代的基礎架構」閱讀體驗】+ 第、二章學習感受

    常用的機器學習算法,重點剖析了元線性回歸算法,由此引出機器學習算法的運算特征,此后分別描述了使用CPUGPUTPU和NPU運行機器學習算法的特點,比如
    發表于 10-10 10:36

    動畫渲染用GPU還是CPU的選擇思路

    對話Imagination中國區董事長:以GPU為支點加強軟硬件協同,助力數【白皮書下載】分布式功能安全的創新與突破本文來源:渲染101動畫渲染動畫渲染是個計算密集型的過程,需要強大的硬件支持
    的頭像 發表于 09-28 08:05 ?573次閱讀
    動畫渲染用<b class='flag-5'>GPU</b>還是<b class='flag-5'>CPU</b>的選擇思路

    CPU時鐘周期與主頻的關系和區別

    CPU時鐘周期與主頻是計算機體系結構中兩個緊密相連且至關重要的概念,它們之間既存在關系又有所區別。以下將詳細闡述CPU時鐘周期與主頻的關系和區別。
    的頭像 發表于 09-26 15:46 ?3182次閱讀

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    ,在訓練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學習算法,特別是深度學習算法在各個領域的廣泛應用,對于高效、低功耗的AI計算硬件需求日益增長。傳統的CPUGPU
    的頭像 發表于 07-31 01:08 ?3699次閱讀

    Arm發布針對旗艦智能手機的新CPUGPU IP

    全球領先的芯片設計公司Arm宣布了針對旗艦智能手機市場的全新CPUGPU IP設計方案——Cortex-X925 CPU和Immortalis G925 GPU。這兩款產品均基于Ar
    的頭像 發表于 05-31 09:44 ?793次閱讀

    RTC和CPU有什么關系

    ,但又相互依賴,共同確保計算機系統的穩定運行和時間的準確同步。本文將從多個角度深入探討RTC與CPU之間的關系,以及它們如何協同工作以提供高效、準確的計算服務。
    的頭像 發表于 05-30 17:07 ?1077次閱讀

    CPU渲染和GPU渲染優劣分析

    使用計算機進行渲染時,有兩種流行的系統:基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計算機的CPU來執行場景并將其渲染到接近完美。這也是執行渲染的更傳統方式。
    的頭像 發表于 05-23 08:27 ?1001次閱讀
    <b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染優劣分析
    主站蜘蛛池模板: 色老头免费视频 | 天天操天天干天天插 | 欧美xxxx日本| 四虎影院观看 | 亚洲一区视频在线 | 在线免费视频网站 | 免费看污黄视频软件 | 天天干在线观看 | 日韩黄a级成人毛片 | 免费的毛片网站 | 成人精品在线观看 | 婷婷色在线 | 色老成人精品视频在线观看 | 天天干b| 午夜嘿嘿嘿 | 午夜噜噜噜私人影院在线播放 | 一区二区午夜 | 久久性妇女精品免费 | 色欧美综合 | 国产欧美精品午夜在线播放 | 一级a爰片久久毛片 | 福利片网站| 欧美成人eee在线 | 亚洲色图图片专区 | 午色影院| 美女扒开尿口给男人桶爽视频 | bt天堂资源种子在线 | 操xxx| 色老头综合免费视频 | 4438x成人免费 | 夜夜天天 | 亚洲jjzzjjzz在线观看 | 操欧美女人 | 中文字幕成人乱码在线电影 | 超黄视频在线观看 | 欧美成人全部免费观看1314色 | 日本色黄| 人人搞人人 | 国产精品热久久毛片 | 久久九九国产精品怡红院 | 色婷婷视频在线观看 |