91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌最便宜TPU值不值得買?TPU在執行神經網絡計算方面的優勢

DPVg_AI_era ? 來源:lp ? 2019-03-21 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌本月推出千元級搭載Edge TPU芯片的開發板,性能令人期待。本文以可視化圖形的方式,對比TPU、GPUCPU,解釋了TPU在執行神經網絡計算方面的優勢。

谷歌最便宜 TPU 值不值得買?

谷歌 Edge TPU 在本月初終于公布價格 —— 不足 1000 元人民幣,遠低于 TPU。

實際上,Edge TPU 基本上就是機器學習樹莓派,它是一個用 TPU 在邊緣進行推理的設備。

Edge TPU(安裝在 Coral 開發板上)

云 vs 邊緣

Edge TPU顯然是在邊緣(edge)運行的,但邊緣是什么呢?為什么我們不選擇在云上運行所有東西呢?

在云中運行代碼意味著你使用的CPU、GPU和TPU都是通過瀏覽器提供的。在云中運行代碼的主要優點是,你可以為特定的代碼分配必要的計算能力(訓練大型模型可能需要大量的計算)。

邊緣與云相反,意味著你是在本地運行代碼(也就是說你能夠實際接觸到運行代碼的設備)。在邊緣運行代碼的主要優點是沒有網絡延遲。由于物聯網設備通常要頻繁地生成數據,因此運行在邊緣上的代碼非常適合基于物聯網的解決方案。

對比 CPU、GPU,深度剖析 TPU

TPU(Tensor Processing Unit, 張量處理器)是類似于CPU或GPU的一種處理器。不過,它們之間存在很大的差異。最大的區別是TPU是ASIC,即專用集成電路。ASIC經過優化,可以執行特定類型的應用程序。對于TPU來說,它的特定任務就是執行神經網絡中常用的乘積累加運算。CPU和GPU并未針對特定類型的應用程序進行優化,因此它們不是ASIC。

下面我們分別看看 CPU、GPU 和 TPU 如何使用各自的架構執行累積乘加運算:

在 CPU 上進行累積乘加運算

CPU 通過從內存中讀取每個輸入和權重,將它們與其 ALU (上圖中的計算器) 相乘,然后將它們寫回內存中,最后將所有相乘的值相加,從而執行乘積累加運算。

現代 CPU 通過其每個內核上的大量緩存、分支預測和高時鐘頻率得到增強。這些都有助于降低 CPU 的延遲。

GPU 上的乘積累加運算

GPU 的原理類似,但它有成千上萬的 ALU 來執行計算。計算可以在所有 ALU 上并行進行。這被稱為 SIMD (單指令流多數據流),一個很好的例子就是神經網絡中的多重加法運算。

然而,GPU 并不使用上述那些能夠降低延遲的功能。它還需要協調它的數千個 ALU,這進一步減少了延遲。

簡而言之,GPU 通過并行計算來大幅提高吞吐量,代價是延遲增加。或者換句話說:

CPU 是一個強大而訓練有素的斯巴達戰士,而 GPU 就像一支龐大的農民大軍,但農民大軍可以打敗斯巴達戰士,因為他們人多。

讀取 TPU 上的乘加操作的權重

TPU 的運作方式非常不同。它的 ALU 是直接相互連接的,不需要使用內存。它們可以直接提供傳遞信息,從而大大減少延遲。

從上圖中可以看出,神經網絡的所有權重都被加載到 ALU 中。完成此操作后,神經網絡的輸入將加載到這些 ALU 中以執行乘積累加操作。這個過程如下圖所示:

TPU 上的乘加操作

如上圖所示,神經網絡的所有輸入并不是同時插入 ALU 的,而是從左到右逐步地插入。這樣做是為了防止內存訪問,因為 ALU 的輸出將傳播到下一個 ALU。這都是通過脈動陣列 (systolic array) 的方式完成的,如下圖所示。

使用脈動陣列執行乘加操作

上圖中的每個灰色單元表示 TPU 中的一個 ALU (其中包含一個權重)。在 ALU 中,乘加操作是通過將 ALU 從頂部得到的輸入乘以它的權重,然后將它與從左編得到的值相加。此操作的結果將傳播到右側,繼續完成乘加操作。ALU 從頂部得到的輸入被傳播到底部,用于為神經網絡層中的下一個神經元執行乘加操作。

在每一行的末尾,可以找到層中每個神經元的乘加運算的結果,而不需要在運算之間使用內存。

使用這種脈動陣列顯著提高了 Edge TPU 的性能。

Edge TPU 推理速度超過其他處理器架構

TPU 還有一個重要步驟是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位權重進行計算,而通常使用 32 位權重,所以我們應該將權重從 32 位轉換為 8 位。這個過程叫做量化。

量化基本上是將更精確的 32 位數字近似到 8 位數字。這個過程如下圖所示:

量化

四舍五入會降低精度。然而,神經網絡具有很好的泛化能力 (例如 dropout),因此在使用量化時不會受到很大的影響,如下圖所示。

非量化模型與量化模型的精度

量化的優勢更為顯著。它減少了計算量和內存需求,從而提高了計算的能源效率。

Edge TPU 執行推理的速度比任何其他處理器架構都要快。它不僅速度更快,而且通過使用量化和更少的內存操作,從而更加環保。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108158
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134635
  • TPU
    TPU
    +關注

    關注

    0

    文章

    154

    瀏覽量

    21204

原文標題:一文讀懂:谷歌千元級Edge TPU為何如此之快?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速器。它的開發源于對人工智能(AI)和機器學習應用的需求,尤其是深度學習中的神經網絡計算
    的頭像 發表于 04-22 09:41 ?1473次閱讀
    <b class='flag-5'>TPU</b>處理器的特性和工作原理

    Google推出第七代TPU芯片Ironwood

    Google Cloud Next 25 大會上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴展性最佳的定制 AI 加速器,更是第一款專為推理而設計的
    的頭像 發表于 04-16 11:20 ?597次閱讀
    Google推出第七代<b class='flag-5'>TPU</b>芯片Ironwood

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布了 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設計。這款功能強大的 AI 加速器旨在處理
    的頭像 發表于 04-12 11:10 ?1840次閱讀
    <b class='flag-5'>谷歌</b>第七代<b class='flag-5'>TPU</b> Ironwood深度解讀:AI推理時代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理的 AI 模型新引擎?

    電子發燒友網報道(文 / 李彎彎)日前,谷歌 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該芯片預計于今年晚些時候面向 Google
    的頭像 發表于 04-12 00:57 ?2444次閱讀

    BP神經網絡與卷積神經網絡的比較

    BP神經網絡與卷積神經網絡多個方面存在顯著差異,以下是對兩者的比較: 一、結構特點 BP神經網絡 : BP
    的頭像 發表于 02-12 15:53 ?673次閱讀

    什么是BP神經網絡的反向傳播算法

    神經網絡(即反向傳播神經網絡)的核心,它建立梯度下降法的基礎上,是一種適合于多層神經元網絡的學習算法。該算法通過計算每層
    的頭像 發表于 02-12 15:18 ?775次閱讀

    TPU編程競賽系列|第九屆集創賽“算能杯”火熱報名中!

    第九屆全國大學生集成電路創新創業大賽(以下簡稱“集創賽”)正式開始報名。算能在處理器應用方向特別設立了“TPU賦能的邊緣計算架構優化與創新應用設計”賽題,誠邀各校參賽隊伍充分發揮TPU的算力
    的頭像 發表于 02-06 13:41 ?1169次閱讀
    <b class='flag-5'>TPU</b>編程競賽系列|第九屆集創賽“算能杯”火熱報名中!

    人工神經網絡的原理和多種神經網絡架構方法

    在上一篇文章中,我們介紹了傳統機器學習的基礎知識和多種算法。本文中,我們會介紹人工神經網絡的原理和多種神經網絡架構方法,供各位老師選擇。 01 人工神經網絡 ? 人工
    的頭像 發表于 01-09 10:24 ?1204次閱讀
    人工<b class='flag-5'>神經網絡</b>的原理和多種<b class='flag-5'>神經網絡</b>架構方法

    卷積神經網絡與傳統神經網絡的比較

    深度學習領域,神經網絡模型被廣泛應用于各種任務,如圖像識別、自然語言處理和游戲智能等。其中,卷積神經網絡(CNNs)和傳統神經網絡是兩種常見的模型。 1. 結構差異 1.1 傳統
    的頭像 發表于 11-15 14:53 ?1878次閱讀

    RNN模型與傳統神經網絡的區別

    神經網絡是機器學習領域中的一種強大工具,它們能夠模擬人腦處理信息的方式。隨著技術的發展,神經網絡的類型也不斷增加,其中循環神經網絡(RNN)和傳統
    的頭像 發表于 11-15 09:42 ?1133次閱讀

    NPU邊緣計算中的優勢

    和GPU相比,NPU處理神經網絡相關的計算任務時,能夠提供更高的能效比和更快的處理速度。NPU通過優化數據流和計算結構,使得神經網絡的前向
    的頭像 發表于 11-15 09:13 ?1262次閱讀

    LSTM神經網絡時間序列預測中的應用

    時間序列預測是數據分析中的一個重要領域,它涉及到基于歷史數據預測未來值。隨著深度學習技術的發展,長短期記憶(LSTM)神經網絡因其處理序列數據方面的優勢而受到廣泛關注。 LSTM
    的頭像 發表于 11-13 09:54 ?2053次閱讀

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    訓練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學習算法,特別是深度學習算法
    的頭像 發表于 07-31 01:08 ?3957次閱讀

    如何選擇神經網絡種類

    人工智能和機器學習領域,選擇適合的神經網絡種類是構建高效、準確模型的關鍵步驟。這一過程涉及對任務類型、數據特性、計算資源及模型性能要求等多方面的綜合考慮。
    的頭像 發表于 07-24 11:29 ?1200次閱讀

    FPGA深度神經網絡中的應用

    、低功耗等特點,逐漸成為深度神經網絡邊緣計算和設備端推理的重要硬件平臺。本文將詳細探討FPGA深度神經網絡中的應用,包括其
    的頭像 發表于 07-24 10:42 ?1208次閱讀
    主站蜘蛛池模板: 国产乱淫a∨片免费视频 | 91欧美精品激情在线观看 | 亚洲免费看片 | 国产成人啪午夜精品网站男同 | 不卡视频免费在线观看 | 求av网址 | 久久精品久久久久 | 亚洲色五月 | 可以免费看黄色的网站 | 在线观看网站黄 | 99自拍视频| 久热中文字幕在线精品免费 | 成人影院在线观看视频 | 成人黄色三级 | 免费看h视频 | 高清欧美色欧美综合网站 | 欧美xxxx极品流血 | 福利视频一区二区牛牛 | 久热网 | 久热国产在线 | 男人和女人在床做黄的网站 | 国内自拍 亚洲系列 欧美系列 | 午夜视频久久 | 成人狠狠色综合 | 国产九色在线 | 香蕉成人国产精品免费看网站 | 黄色在线视频网 | 九九精品免费观看在线 | 天天色综合6 | 一级特黄a 大片免费 | 天堂在线免费 | 又长又大又粗又硬3p免费视 | 天天舔天天干天天操 | 乱人伦xxxx国语对白 | 日本成人免费观看 | 一道精品视频一区二区三区男同 | 五月天婷婷基地 | 22sihu国产精品视频影视资讯 | 国产精品福利视频手机免费观看 | 开心激情五月婷婷 | 午夜影院黄 |