在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

GPU面臨挑戰(zhàn)及應用場景解析

sakobpqhz ? 來源:算力基建 ? 2023-02-06 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1、TPU 主要思路:針對人工智能算法需求裁剪計算精度

機器學習算法上,TPU比傳統(tǒng)的加速方案(谷歌之前使用GPU加速方案)在能耗效率上提升一個數(shù)量級,相比傳統(tǒng)解決方案領先7年(摩爾定律三代節(jié)點)。

例如在GPU中,通常支持IEEE754-2008標準浮點數(shù)操作,這一浮點數(shù)字寬為32位,其中尾數(shù)字寬為23+1(使用隱藏尾數(shù)技術)位。 如果數(shù)據(jù)通道中使用8位字寬的低精度尾數(shù),則GPU中各個計算部件所需的晶體管和功耗均會大大減少。

例如,在GPU計算核心中,面積最大,功耗最高的計算部件是ALU,ALU中最重要的部件是浮點MA(乘加混合)單元,現(xiàn)有技術下這一單元的延遲與尾數(shù)的字寬log2N成大致正比,而面積/功耗/晶體管數(shù)量大體上與N2log2N成正比。 如果字寬由24比特減少到8比特,那么MA的面積可降至約1/14左右,約一個數(shù)量級。 由圖可知ALU占據(jù)了GPU芯片面積的很大比例,因此單單優(yōu)化ALU即可獲得足夠提高。

poYBAGPgd9-ASwKBAAHu3EEGYrQ730.png

除了降低字寬所帶來的關鍵組件優(yōu)化,GPU原有組件中針對圖像處理的組件如光柵、材質(zhì)貼圖單元,均可以根據(jù)人工智能的計算需求選擇優(yōu)化或裁剪。 對普通GPU進行深度定制處理,削減在神經(jīng)網(wǎng)絡算法不需要的數(shù)據(jù)位寬和功能即可達到谷歌所宣稱的“能耗效率上提升一個數(shù)量級”,因此業(yè)內(nèi)有專家認為谷歌采用了此種思路。

2、從谷歌 TPU 設計思路看人工智能硬件發(fā)展趨勢

目前的GPU加速方案以及FPGA加速方案在人工智能計算領域都存明顯缺點:

在計算單元上,GPU的內(nèi)置計算單元主要針對圖像處理設計,計算精度過高存在浪費; FPGA的LUT功能過于弱小,沒有針對低精度浮點計算優(yōu)化;

在NOC架構(gòu)上,F(xiàn)PGA和GPU原始設計匹配的目標均與神經(jīng)網(wǎng)絡計算存在很大差異性,因此用于人工智能計算加速都存在一定缺憾。

以上表現(xiàn)在計算需求雷達圖上即為圖:GPU(藍線)和FPGA(紅線)均不能較好的覆蓋住人工智能的需求(綠線)。 除了進程交互問題外,實時性和計算延遲同樣是人工智能加速的一個重要問題。 在人工智能的一些應用場景,如無人駕駛汽車中,汽車的運行速度可能高達40m/s,在計算中額外0.1s的延遲意味著汽車多行駛4米,這就是生與死的差距。 GPU的延遲和實時性較差從長期來看會影響其應用在類似無人駕駛這樣在實時性和延遲要求較高的場景中。

pYYBAGPgd96AeC6eAADqtQBZsfA438.png

3、GPU/FPGA 用于神經(jīng)網(wǎng)絡計算的弱點:片上網(wǎng)絡

在人工智能硬件領域,F(xiàn)PGA加速同樣是一條有競爭力的技術路徑。 早在中國搜索引擎巨頭百度就嘗試與Altera合作探索使用FPGA加速神經(jīng)網(wǎng)絡運算用于搜索結(jié)果的優(yōu)化中,微軟也在bing搜索服務中做了相似的探索。 Auviz Systems公司在2015年發(fā)布了一份研究數(shù)據(jù),在神經(jīng)網(wǎng)絡計算中,高端FPGA可處理14個或更多圖像/秒/瓦特,而同期一個高端的GPU僅能處理4個圖像/秒/瓦特。

但目前學術界已有共識,不管是FPGA還是GPU,由于其最初設計匹配的計算模型與神經(jīng)網(wǎng)絡計算模型存在不同,其并行計算核心之間的通信架構(gòu)-NOC(Network on Chip,片上網(wǎng)絡)應用在神經(jīng)網(wǎng)絡運算中均存在缺點。

由于FPGA/GPU針對的并行計算模型不同,其片上網(wǎng)絡的實現(xiàn)方式也就不同:

GPU最初針對圖像處理SIMT類任務優(yōu)化,各個處理核心之間的通信較少且形式簡單,因此計算節(jié)點主要通過片上共享存儲通信,原理如圖: A/C計算節(jié)點分別向片上共享存儲的不同地址寫入數(shù)據(jù),然后B/D通過讀數(shù)據(jù)的方式完成A->B/C->D的通信。 這種片上網(wǎng)絡每次通信涉及讀寫片上共享存儲各一次,不僅速度慢,當通信量更多(原本不會發(fā)生在圖形處理任務中)的時候存儲的讀寫端口還會因堵塞成為系統(tǒng)性能的關鍵瓶頸。

FPGA包含大量細粒度,可編程,但功能較弱的LUT(Look up table查找表)計算節(jié)點,各個LUT之間通過網(wǎng)格狀NOC連接,網(wǎng)格的節(jié)點具備Routing(路由)功能。 FPGA可以提供計算單元間直接通訊功能:A節(jié)點可通過路由網(wǎng)絡沿著紅色箭頭將數(shù)據(jù)傳輸至芯片上任意計算節(jié)點B,且傳輸路徑動態(tài)可編程。 因此網(wǎng)格NOC相比共享內(nèi)存方案能提供大的多的片上通訊容量,相比之下也不易出現(xiàn)瓶頸節(jié)點堵塞問題。 Auviz Systems能夠得出FPGA在神經(jīng)網(wǎng)絡處理中優(yōu)于高端GPU的方案的結(jié)論,很大程度依靠FPGA的片上通信能力而不是羸弱的LUT計算能力。

poYBAGPgd96AJVlkAADj1gZqpSQ892.png

神經(jīng)網(wǎng)絡作為一種并行計算程序,適配的計算節(jié)點通訊硬件是提升性能的關鍵要素之一。 目前FPGA和GPU的片上網(wǎng)絡架構(gòu)均不完全匹配神經(jīng)網(wǎng)絡的實際需求,相比之下GPU的共享內(nèi)存連接的匹配度更差一些。 學術界對于定制特殊的NOC去匹配神經(jīng)網(wǎng)絡加速需求已有一定研究,但之前因神經(jīng)網(wǎng)絡算法本身沒有商用化,因此定制NOC硬件這一思路也停留在實驗室內(nèi)。 隨著人工智能實用化和產(chǎn)業(yè)化的發(fā)展,這些技術將對現(xiàn)有的GPU/FPGA方案形成威脅和替代。

02 GPU 未來較適應場景解析

GPU雖然不能處理所有大規(guī)模并行計算問題,但在其適應的特定計算領域,特別是圖形優(yōu)化處理上依然具備絕對性能優(yōu)勢。 GPU未來較為適合拓展應用場景應為VR/AR(虛擬現(xiàn)實/增強現(xiàn)實)、云計算+游戲結(jié)合、以及云計算服務器中為特定的大數(shù)據(jù)分析提供加速。 在這些領域的增長點有可能是獨立GPU突破現(xiàn)有增長遲緩障礙的新增長領域。

1、VR 應用:持續(xù)增長的優(yōu)勢領域

在VR(Virtual Reality,虛擬現(xiàn)實)設備性能指標中,圖像顯示性能是其核心競爭力。 在VR中降低從用戶頭部動作到畫面改變的延遲至20毫秒以下是防止用戶眩暈的必要條件; 而達到這點除了需要軟件和OS優(yōu)化以外,足夠的硬件圖像計算能力是基礎。 表1舉例了VR圖形顯示的要求以及大眾級顯卡能夠提供的圖形顯示水平:

poYBAGPgd96ACil-AAEE8oFOS74849.png

正因目前大眾顯卡無法提供VR所需的圖形處理計算能力,現(xiàn)有的兩大主流頭顯Oculus Rift和HTC VIVE均要求配套的PC配置頂級顯卡,如Nvidia GTX970或AMDR9 290級別的顯卡。 從長期來看,VR/AR設備將拉動中高端GPU市場的持續(xù)增長。

VR以及AR(增強現(xiàn)實)更廣闊的應用在于獨立一體機上:獨立一體機具備移動能力,讓VR/AR超脫出了客廳應用這一范疇,與移動互聯(lián)網(wǎng)結(jié)合后成為每個人都需要消費電子產(chǎn)品。 但移動一體機對計算芯片的能耗,體積乃至散熱都有著嚴格的要求。 目前SoC(System on Chip, 片上系統(tǒng))上集成GPU在移動一體機上的優(yōu)勢是獨立GPU顯卡暫時無法動搖的。

2、云計算/大數(shù)據(jù)應用

亞馬遜風靡全球的計算平臺EC2中,Nvidia GPU已經(jīng)被作為一個重要的并行計算組件提供給客戶,用作大規(guī)模并行浮點數(shù)計算。 用戶每使用一個實例可調(diào)用兩個Nvidia Tesla m2050 GPU。 在EC2中調(diào)用GPU的原理是AWS的管理程序Hypervisor被直接跳過,而DomU OS和應用可以直接通過IO與GPU通信,充分發(fā)揮GPU在浮點數(shù)的并行計算能力。

3、GPU,云和游戲服務結(jié)合

在現(xiàn)如今互聯(lián)網(wǎng)基礎設施已經(jīng)完善的市場,把GPU和云計算以及游戲結(jié)合在一起是游戲產(chǎn)業(yè)下一個具有吸引力的發(fā)展方向。

對于游戲開發(fā)者,不需要擔心盜版問題; 對于游戲運營商,云服務可以獲得更精確的客戶資料,開展新式計費; 對于游戲玩家,無需購買昂貴高端游戲主機或PC,初始投資少; 對于游戲玩家,云服務游戲更具備移動性。

目前云計算+GPU+游戲這個模式限于現(xiàn)有網(wǎng)絡基礎設施限制,依然沒有大規(guī)模商用,但Nvidia依然對其抱有厚望并積極推動。 從這個側(cè)面也可以看出,Nvidia自己也知道GPU未來最主要的應用領域依然是游戲的圖像處理上。

GPU還有一塊市場是軍用GPU市場,這一市場與民用GPU市場有著很大不同。 民用GPU追求畫面性能的極致,以最好的畫面滿足消費者,特別是游戲玩家的需求; 而軍用GPU更多的要求在于高可靠性、高耐用性、抗高空輻射、能在野戰(zhàn)環(huán)境下安全使用。 需求的導向不同導致GPU從工藝到芯片設計理念都截然不同。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6230

    瀏覽量

    107829
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4925

    瀏覽量

    130901
  • 人工智能
    +關注

    關注

    1805

    文章

    48898

    瀏覽量

    247845
  • 機器學習
    +關注

    關注

    66

    文章

    8499

    瀏覽量

    134315
  • TPU
    TPU
    +關注

    關注

    0

    文章

    152

    瀏覽量

    21138

原文標題:GPU面臨挑戰(zhàn)及應用場景解析

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【F3使用場景】F3經(jīng)典使用場景

    摘要: 概括F3經(jīng)典使用場景1. 人工智能深度學習客戶,推理應用最近兩年,人工智能在全球掀起了巨大的應用熱潮,除了互聯(lián)網(wǎng)巨頭,如Google,F(xiàn)acebook,Alibaba之外,涌現(xiàn)出
    發(fā)表于 05-17 20:33

    =>的使用場景有哪些

    使用場景
    發(fā)表于 10-27 13:25

    使用空中鼠標系統(tǒng)面臨哪些挑戰(zhàn)?如何去克服這些挑戰(zhàn)?

    使用空中鼠標系統(tǒng)面臨哪些挑戰(zhàn)?如何去克服這些挑戰(zhàn)?
    發(fā)表于 05-10 07:26

    有什么方法可以解決HID設計面臨挑戰(zhàn)?

    HID設計面臨哪些挑戰(zhàn)?有什么方法可以解決HID設計面臨挑戰(zhàn)?
    發(fā)表于 05-17 06:06

    汽車無線安全應用面臨哪些設計挑戰(zhàn)

    汽車無線安全應用面臨哪些設計挑戰(zhàn)?
    發(fā)表于 05-19 06:41

    高速通信面臨挑戰(zhàn)是什么?

    高速通信面臨挑戰(zhàn)是什么?
    發(fā)表于 05-24 06:34

    RFID原理是什么?RFID技術面臨哪些挑戰(zhàn)?

    RFID原理是什么?RFID技術面臨哪些挑戰(zhàn)?
    發(fā)表于 05-26 06:06

    HUD 2.0面臨哪些挑戰(zhàn)?如何去解決?

    HUD 2.0的發(fā)展動力是什么?HUD 2.0面臨哪些挑戰(zhàn)?如何去解決?
    發(fā)表于 06-01 06:44

    一文看完GPU八大應用場景,搶食千億美元市場

    的不斷增長,未來GPU應用市場將會被多領域劃分,誰將是增長最快的應用市場呢?答案或許就在以下GPU八大應用場景中。游戲設備如果你是一位游戲愛好者,你大概率會知道購買游戲設備,會更看重其GPU
    發(fā)表于 12-07 09:59

    GPU八大主流的應用場景

    的不斷增長,未來GPU應用市場將會被多領域劃分,誰將是增長最快的應用市場呢?答案或許就在以下GPU八大應用場景中。游戲設備如果你是一位游戲愛好者,你大概率會知道購買游戲設備,會更看重其GPU
    發(fā)表于 12-07 10:04

    MS9331的應用場景是什么?

    MS9331的應用場景是什么?
    發(fā)表于 02-11 06:41

    GPU深度學習面臨挑戰(zhàn)分析

    人工智能的興起觸發(fā)了市場對 GPU 的大量需求,但 GPU 在 AI 場景中的應用面臨使用壽命短、使用成本高等問題?,F(xiàn)場可編程門陣列 (FPGA) 這一可以定制化硬件處理器反倒是更好的
    的頭像 發(fā)表于 12-11 15:02 ?2987次閱讀

    揭秘GPU: 高端GPU架構(gòu)設計的挑戰(zhàn)

    在計算領域,GPU(圖形處理單元)一直是性能飛躍的代表。眾所周知,高端GPU的設計充滿了挑戰(zhàn)。GPU的架構(gòu)創(chuàng)新,為軟件承接大模型訓練和推理場景
    的頭像 發(fā)表于 12-21 08:28 ?1242次閱讀
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b>架構(gòu)設計的<b class='flag-5'>挑戰(zhàn)</b>

    輸電線路分布式故障定位裝置的原理、優(yōu)勢與應用場景解析

    輸電線路分布式故障定位裝置的原理、優(yōu)勢與應用場景解析
    的頭像 發(fā)表于 05-16 09:25 ?190次閱讀

    GPU架構(gòu)深度解析

    、游戲娛樂等領域。本文將深入探討GPU架構(gòu)的演變歷程、核心組件以及其在不同應用場景中的優(yōu)勢。1、GPU架構(gòu)的演變早期的GPU采用固定功能流水線架構(gòu),專為圖形渲染任務而
    的頭像 發(fā)表于 05-30 10:36 ?288次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)深度<b class='flag-5'>解析</b>
    主站蜘蛛池模板: 香蕉视频网站在线播放 | 国产特级毛片 | 欧美丝妇| 国产美女精品久久久久久久免费 | 日本在线观看高清不卡免v 日本在线观看永久免费网站 | 欧美婷婷六月丁香综合色 | 国产网站免费视频 | 三级免费黄录像 | 国产美女叼嘿视频免费看 | 久久综合一 | 激情综合网五月激情 | 日本在线视频一区二区 | 国产精品毛片久久久久久久 | 婷婷综合久久狠狠色99h | 国产成人精品高清在线 | 青青热久免费精品视频在线观看 | 国模最新私拍视频在线观看 | 伊人天伊人天天网综合视频 | 黄在线观看在线播放720p | 亚洲国产精品久久网午夜 | 亚洲色图图片专区 | 日本a级特黄三级三级三级 日本边添边爱边摸边做边爱 | 国产一区二区三区美女在线观看 | 亚洲精品成人久久久影院 | 女人张开腿让男人桶免费最新 | 国产色秀视频 | 国产香蕉在线精彩视频 | 香港三级在线视频 | 婷婷综合七月激情啪啪 | 国产亚洲精品在天天在线麻豆 | 福利三区 | 99热精品久久只有精品30 | 看真人一级毛片 | 一区二区三区网站在线免费线观看 | 一本大道加勒比久久 | 华人永久免费视频 | 日本精品一卡二卡≡卡四卡 | 日本一区二区三区视频在线 | 欧美zooz人禽交免费 | 人人做人人爽人人爱秋霞影视 | 亚洲一区色 |