在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Series4擁有經得起未來考驗的性能和計算密度

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:Imagination Tech ? 2021-04-19 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學習的多功能性和強大功能意味著現代神經網絡在機器翻譯、動作識別、任務規劃、情感分析和圖像處理等領域有著廣泛的應用。隨著該領域的不斷成熟,不可避免的,專業化程度也越來越高,而且呈現加速的趨勢。這使保持現有技術水平成為一項挑戰,更不用說預測神經網絡的未來計算需求了。

神經網絡加速器 (NNA) IP 的設計者手頭有一項艱巨的任務:確保他們的產品具有足夠的通用性,能夠應用于當前和未來非常廣泛的應用,同時保證高性能。在Imagination公司最前沿的 IMG Series4 NNA 所針對的移動、汽車、數據中心嵌入式領域中,對帶寬、面積和功耗有更嚴格的限制。Imagination公司的工程師們已經找到了創新的方法來應對這些嚴峻挑戰,并提供超高性能和面向未來的IP。

利用率與靈活性

每個IMG Series4 多核NNA的核心是行業領先的卷積引擎陣列,每秒可執行 10 萬億次操作。四核Series4 NNA每秒可完成驚人的40萬億次操作,簡稱40TOPS。其架構的一個顯著特點是效率:數據盡可能緊密地打包在卷積引擎的輸入上,以實現最大可能的利用率,這意味著芯片面積保持最小。Series4 NNA 包含幾個高度優化、可快速配置的硬件模塊,用于池化、標準化和激活功能等操作。

這種專業化程度顯然在網絡與硬件很匹配的情況下獲得了巨大的回報,也就是說,當網絡由卷積層、池化層、激活層等“傳統”層組成,但是這樣的體系結構如何擴展以支持更復雜的操作,比如注意機制和非最大化抑制?

有兩個明顯的選擇:

在硬件中添加新的專用塊。

使硬件具有高度可編程性和通用性。

其中第一個主要問題是,它會導致硬件膨脹和暗硅——如果在一些應用程序中需要多1%的計算時間,那么我們需要一個固定的功能模塊嗎?不——我們必須獲得盡可能重復使用硬件。這也意味著硬件總是保持最前沿的工藝技術。添加固定功能模塊說明硬件未來會過時,NNA的設計師們之前遇到過不少硬件適用性受限于操作類型的案例。第一種方法導致硬件膨脹或強制使用額外的“協處理器”,如GPUDSPCPU:硅面積、帶寬、能量和復雜性都會增加。大多數NNA 設計人員都選擇第二種方案。這種方法的例子是基于向量 ALU 和脈動陣列的設計。復雜性從硬件轉移到軟件,這一切都符合計算機體系結構中歷史悠久的 RISC(精簡指令集計算機)哲學。然而,要付出巨大的代價——計算密度的降低。為達到40 TOPS 的目標, Series4 NNA架構師必須容忍芯片面積和功耗的大幅增長。Imagination的研究人員認為,一定存在第三種方式。他們的策略是利用新穎的編譯技術和他們稱之為“簡化操作集計算”(ROSC)的新設計理念來換取靈活性。

Series4 NNA具有巨大的計算密度,用于運行標準層,如卷積層、池化層、激活層和完全連接的圖層,這些層占據了神經網絡中大部分計算需求。從本質上講,它具有冗余的計算能力。簡單地說,ROSC 就是從這個簡化的“操作集”中重新配置和重組操作,以構建各種各樣的其他操作:乍一看,這些基礎操作似乎很難實現。這種重新分配任務通常會導致較低的利用率,因為硬件模塊并未用于其主要目的;但是,由于Series4 NNA具有如此多的原始計算能力,即使利用率為1%,例如每秒 400 千兆次操作,在其上運行復雜操作的速度通常仍遠遠快于在“片外”執行復雜操作的速度,例如在CPU或者GPU上。以這種方式在設備上保持處理可節省寶貴的系統資源,包括 CPU/GPU 時間、功率和帶寬。復雜操作可以實施為多個硬件通道的較簡單操作計算圖。因此,Series4 NNA使用帶有張量分塊的新型片上存儲器系統來保持數據本地化(有關此主題的詳細白皮書,請參看鏈接) - 這可以被用來以最小的系統開銷在多個硬件通道上運行復雜的操作。

ROSC 概念背后的關鍵是,專用硬件模塊通常可以配置以執行其他任務。即使由于這種重新分配任務而導致使用率下降,硬件的巨大計算能力也彌補了這一不足。這使得Series4 架構師能夠吃上蛋糕——無需額外的硬件復雜性或面積,Series4可以在原始性能很重要的地方具備閃電般的速度,并且在必要時,具有足夠的靈活性來處理任意復雜的高級操作。

不要低估架構!

Series4有五種主要可配置的計算硬件模塊類型,可稱為:

卷積引擎

池化單元

標準化單元

元素操作單元

激活單元

圖1:單個硬件模塊通常可以配置為執行范圍非常廣泛的任務。這些可配置的硬件模塊每一個都比乍一看可能做的更多。例如,Series 4卷積引擎可以配置為執行圖 1所示的操作(以及其他許多操作),而無需依賴于其他計算硬件模塊。使用幾個這樣的模塊的組合,可以實現更廣泛的操作范圍。事實上,Series4可以使用高級的圖形降低編譯器技術來配置,以覆蓋現代神經網絡中遇到的幾乎所有操作。

標簽可能具有誤導性。僅僅因為一個硬件模塊被標記為“卷積引擎”或“池化模塊”并不意味著這是它所能做的全部——在正確的人手中,這些模塊可以做的遠遠超過他們在tin上所說的!下面給出了使用多個硬件模塊組合實施復雜操作的兩個示例。

Softmax

Softmax是神經網絡中的一種常見操作,通常用于需要離散概率的場合。在某些情況下,它也用于使張量進行歸一化,以便沿某個軸或多個軸的所有元素都在 [0,1]范圍內,且總和為1。在網絡中,Softmax通常只占計算的一小部分。例如,在大多數 ImageNet 分類網絡中,Softmax占計算的最大比重不到 0.01%。為了與ROSC 避免將芯片面積浪費為“暗硅”的策略保持一致,4系列 沒有專用的Softmax硬件;相反,它是在其他可用操作方面實現的。這使它成為我們如何應用上述原則的一個最佳例子。從本質上講,該策略是用一系列數學上相同但由硬件直接支持的操作構成的操作(“計算子圖”)來替換Softmax。Softmax是一個復雜的操作,需要五個階段,如圖2所示。其中四個交叉通道最大化削減、指數、跨通道求和削減和除法——在Series4上也沒有專門的硬件!但是,我們可以在Series4上以創造性的方法運行它們,如下所述。圖2:將Softmax分解為其組成部分。

一個1×1的卷積與權重張量和一個完全由1組成的過濾器可以用來實現跨通道的求和。

除法可以用一個張量與另一個張量的倒數相乘來實現。Series4的 LRN(本地響應歸一化)模塊可以配置為計算倒數。

交叉通道最大值可以通過將信道轉換置到空間軸上并執行一系列空間最大池化操作來實現。之后,它被轉置回通道軸上。

由于指數僅限于負值和零輸入值,激活 LUT 可以配置為指數衰減函數。

總之,這將產生一個替換子圖,其中包含大約10到15個操作(取決于輸入張量的大小),這些操作在幾個硬件過程中執行。ROSC的見解是,這個圖比在CPU或協處理器上執行更快、更簡單。避免了完全可編程和專用固定功能硬件的兩種極端情況,并且編譯過程中包含了最容易管理的復雜性。

此外,用于Softmax的操作替換可以重用為其他高級操作。一旦實現了一些這樣的高級操作,就很容易看到如何構建一個可重用操作替換庫,從而使將來的操作更容易降到Series4。這就是ROSC如何引領未來。

三維卷積

卷積引擎和Series4中的相關數據輸入和輸出針對一維和二維卷積進行了高度優化——這非常有意義,因為在大多數CNN(卷積神經網絡)中,這些引擎占據了絕大多數計算量。

061e0f46-9ed7-11eb-8b86-12bb97331649.jpg

圖3:用二維卷積和元素求和實現的三維卷積。

但是,Series4硬件不支持三維和更高維度的卷積。三維卷積是復雜運算的一個具體例子,可使用圖形降低技術將其降低到Series4。在這種情況下,該子圖是根據二維卷積和元素加法構建的。無論編譯器在哪里“看到”原始置身事外中的三維卷積,在Series4上運行的機器代碼生成前,編譯器都會用該子圖形的等效版本替換它。

圖3顯示了一個三維卷積的例子,在深度軸上,內核大小為3,步長為2。卷積在深度軸上展開。相同顏色的卷積具有相同的權重。這種策略很容易擴展到高維和其他三維操作,如三維池和三維反褶積。這種三維卷積的方法是一個很好的例子,說明了如何將軟件設計成與硬件的優點相結合,從而擴展其適用性。

結論

高性能的神經網絡加速器很難設計,因為它們需要平衡兩個看似矛盾的目標:它們需要大量的并行性和計算密度,以便在幾分之一秒內完成一個典型神經網絡中的數百萬個操作;它們需要足夠的靈活性來處理這些問題現代神經網絡中有數百種不同類型的操作,還有那些尚未被發明的操作!通常必須在高效、更固定的函數方法和效率較低但更通用的方法之間進行折衷。Imagination公司的工程師們已經開發出一種令人興奮的創新方法,它提供了兩全其美的效果。Series4不包含任何近似ALU的可編程性所需的東西,而是有幾個非常有效的硬件模塊,設計用于執行特定的、通常發生的操作的計算。使用新的編譯技術可以實現完全的靈活性,通過這種技術,可以從一組簡化的基本操作中構建非常廣泛的操作。這種方法被稱為簡化運算集計算(簡稱ROSC)。通過以這種方式協調硬件和軟件設計,Series4擁有經得起未來考驗的、世界一流的性能和計算密度,同時又不犧牲靈活性。

原文標題:靈活、面向未來、高性能推理的簡化操作集計算

文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103440
  • 深度學習
    +關注

    關注

    73

    文章

    5560

    瀏覽量

    122748

原文標題:靈活、面向未來、高性能推理的簡化操作集計算

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    ESP32-P4—具備豐富IO連接、HMI和出色安全特性的高性能SoC

    ESP32-P4搭載雙核RISC-V處理器,擁有 AI指令擴展、先進的內存子系統,并集成高速外設。ESP32-P4專為高性能和高安全的應用設計,充分滿足下一代嵌入式應用對人機界面支持、
    發表于 06-30 11:01

    Vicor 高密度模塊電源為邊緣計算帶來成本效益

    邊緣計算對于充分發揮人工智能 (AI)、機器學習和物聯網 (IoT) 的全部潛能至關重要。供電和供電效率對于下一代邊緣計算機系統優化性能非常關鍵。 隨著邊緣計算機數據處理的增加,該行業
    發表于 05-16 13:34 ?748次閱讀

    密度、低功耗,關聯AI與云計算

    分布式存儲通過業界最高密設計,可承載EB級數據量,同時最低功耗特性有效應對直播、XR游戲等新興業務的數據存儲需求?。浪潮SA5248M4服務器采用模塊化設計,實現4計算密度提升,并通
    的頭像 發表于 04-01 08:25 ?322次閱讀
    高<b class='flag-5'>密度</b>、低功耗,關聯AI與云<b class='flag-5'>計算</b>

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    的發展,加速創新和降低成本。 總之,FPGA與AI的結合正在重塑芯片生態,推動技術融合、應用拓展和產業變革。未來,FPGA將在AI加速、邊緣計算和高性能計算等領域發揮重要作用,同時其
    發表于 03-03 11:21

    ADS1285如何計算等效噪聲和等效噪聲功率譜密度

    通過短接adc輸入端,得到內部噪聲數據 請問如何計算公式計算等效噪聲和等效噪聲功率譜密度
    發表于 11-19 08:25

    15TS Series 1500W Transient Voltage Suppressor

    15TS Series 1500W Transient Voltage Suppressor指的是一系列高性能的瞬態電壓抑制二極管(Transient Voltage Suppressor,TVS
    發表于 11-13 21:54

    AI高性能計算平臺是什么

    AI高性能計算平臺不僅是AI技術發展的基石,更是推動AI應用落地、加速產業升級的重要工具。以下,是對AI高性能計算平臺的介紹,由AI部落小編為您整理分享。
    的頭像 發表于 11-11 09:56 ?678次閱讀

    邊緣計算未來發展趨勢

    的網絡環境。未來,邊緣計算將與5G技術進一步融合,推動更多創新應用的落地。 同時,邊緣計算與人工智能(AI)技術的結合也將更加緊密。AI技術將優化邊緣節點的性能,實現設備的自學習和自適
    的頭像 發表于 10-24 14:21 ?1746次閱讀

    如何提高云計算性能和效率

    提高云計算性能和效率是一個多維度的問題,需要從計算性能、存儲性能、網絡性能等多個方面入手。以下
    的頭像 發表于 10-24 09:23 ?1061次閱讀

    嵌入式系統的未來趨勢有哪些?

    嵌入式系統是指將我們的操作系統和功能軟件集成于計算機硬件系統之中,形成一個專用的計算機系統。那么嵌入式系統的未來趨勢有哪些呢? 1. 人工智能與機器學習的整合 隨著現代人工智能(AI)和機器學習
    發表于 09-12 15:42

    樹莓派4b和什么性能計算機相當

    樹莓派4B與何種性能計算機相當,這個問題涉及到多個方面的比較,包括處理器性能、內存大小、接口豐富度以及應用場景等。以下是從這些方面進行的綜合分析: 1. 處理器
    的頭像 發表于 08-30 17:01 ?2030次閱讀

    密度存儲系統集成必選,8盤位SATA/SAS熱插拔硬盤抽取盒

    不得不向體積妥協,這似乎與追求緊湊設計的未來趨勢背道而馳。然而,高密度存儲,作為一種先進的存儲解決方案,以其高性能、大容量、高密度等特點,切實滿足備份、高
    的頭像 發表于 08-30 16:41 ?795次閱讀
    高<b class='flag-5'>密度</b>存儲系統集成必選,8盤位SATA/SAS熱插拔硬盤抽取盒

    計算運放電路中電阻噪聲密度時,等效電阻值為什么是RI和Rf的并聯值?

    計算運放電路中電阻噪聲密度時,等效電阻值為什么是RI和Rf的并聯值?同樣噪聲增益的情況下,同相放大和方向放大的電阻噪聲密度有啥區別?電路圖如下所示:
    發表于 08-15 07:32

    288芯MPO光纖配線架 萬兆高密度OM3OM4配置詳解

    288芯MPO光纖配線架 萬兆高密度OM3OM4配置詳解
    的頭像 發表于 07-30 09:53 ?1036次閱讀
    288芯MPO光纖配線架 萬兆高<b class='flag-5'>密度</b>OM3OM<b class='flag-5'>4</b>配置詳解

    pcb板密度,影響性能的重要因素

    PCB電路板密度是指PCB 上元件和布線的密集程度,pcb板密度是評估 PCB 設計質量和性能的重要指標之一。捷多邦小編整理了關于pcb板密度的相關內容,一起看看吧~ 較高的PCB 板
    的頭像 發表于 07-25 17:26 ?1522次閱讀
    主站蜘蛛池模板: 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 天天操天天射天天色 | 国产高清免费视频 | 人人插人人爱 | 伊人久久成人爱综合网 | 免费视频在线视频观看1 | 五月婷婷丁香花 | 5g国产精品影院天天5g天天爽 | 中国美女毛片 | 国产亚洲精品仙踪林在线播放 | 亚洲精品一区二区中文 | 欧美黑人性色黄在线视频 | 狠狠干亚洲色图 | 爽好舒服快受不了了老师 | 免费看吻胸亲嘴激烈网站 | 天天爱夜夜| 曰本黄色一级 | 天堂资源bt| 午夜国产福利在线 | 色偷偷综合 | 国产特黄一级毛片特黄 | 农村的毛片丨级 | 濑亚美莉iptd619在线观看 | 亚洲xx网 | 日本一区二区三区在线 视频观看免费 | 免费黄色大片视频 | 免费在线欧美 | 日本级毛片免费观看 | 黄页网站视频免费 视频 | 99久久精品免费看国产 | 日韩毛片一级 | 人人做天天爱夜夜爽中字 | 人人看操| 午夜两性色视频免费网站 | 欧美三级在线观看视频 | 国产精品成人四虎免费视频 | 91av视频在线| 开心激情播播网 | 四虎永久网址 | 免费一级欧美片在线观看 | 天天操天天玩 |