在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI/ML應用和處理器的架構探索

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:嵌入式計算設計 ? 2022-07-08 17:03 ? 次閱讀

行業背景

人工智能AI) 應用程序考慮了計算、存儲、內存、管道、通信接口、軟件和控制。此外,人工智能應用程序處理可以分布在處理器內的多核、PCIe 主干上的多個處理器板、分布在以太網網絡中的計算機、高性能計算機或跨數據中心的系統中。此外,人工智能處理器還具有巨大的內存大小要求、訪問時間限制、模擬和數字分布以及硬件-軟件分區。

問題

人工智能應用的架構探索很復雜,涉及多項研究。首先,我們可以針對單個問題,例如內存訪問,或者可以查看完整的處理器或系統。大多數設計都是從內存訪問開始的。有很多選擇——SRAMDRAM、本地與分布式存儲、內存計算以及緩存反向傳播系數與丟棄。

第二個評估部門是總線或網絡拓撲。虛擬原型可以具有用于處理器內部的片上網絡、TileLink 或 AMBA AXI 總線、用于連接多處理器板和機箱的 PCIe 或以太網,以及用于訪問數據中心的 Wifi/5G/Internet 路由器。

使用虛擬原型的第三項研究是計算。這可以建模為處理器內核、多處理器、加速器、FPGA、Multi-Accumulate 和模擬處理。最后一部分是傳感器、網絡、數學運算、DMA、自定義邏輯、仲裁器、調度器和控制功能的接口

此外,人工智能處理器和系統的架構探索具有挑戰性,因為它將數據密集型任務圖應用于硬件的全部功能。

模型構建

在 Mirabilis,我們使用 VisualSim 對 AI 應用程序進行架構探索。VisualSim 的用戶在具有大量 AI 硬件和軟件建模組件的圖形離散事件仿真平臺中非常快速地組裝虛擬原型。該原型可用于進行時間、吞吐量、功耗和服務質量的權衡。提供超過 20 種 AI 處理器和嵌入式系統模板,以加速開發新的 AI 應用程序。

為 AI 系統的權衡而生成的報告包括響應時間、吞吐量、緩沖區占用率、平均功率、能耗和資源效率。

ADAS模型構建

首先,讓我們考慮自動駕駛 (ADAS) 應用程序,這是圖 1 中的一種人工智能部署形式。ADAS 應用程序與計算機或電子控制單元 (ECU) 和網絡上的許多應用程序共存。 ADAS 任務的正確運行還依賴于現有系統的傳感器和執行器。

poYBAGLH8vGAa_RSAAI0sk_genQ618.png

圖 1. 汽車設計中 AI 應用程序的邏輯到物理架構

早期的架構權衡可以測試和評估假設以快速識別瓶頸,并優化規范以滿足時序、吞吐量、功率和功能要求。在圖 1 中,您將看到體系結構模型需要硬件、網絡、應用程序任務、傳感器、衰減器和流量激勵來獲得對整個系統操作的可見性。圖 2 顯示了映射到物理架構的 ADAS 邏輯架構的實現。

架構模型的一個很好的特性是能夠分離設計的所有部分,這樣就可以研究單個操作的性能。在圖 2 中,您會注意到現有任務被單獨列出,網絡與 ECU、傳感器生成和 ADAS 邏輯任務組織。ADAS 任務圖中的每個功能都映射到一個 ECU。

pYYBAGLH8vyABhJdAAKozTfxomM207.png

圖 2. ADAS 映射到 ECU 網絡的汽車系統系統模型

ADAS分析

當模擬圖2中的ADAS模型時,可以得到各種報告。在圖 3 中,顯示了完成 ADAS 任務的延遲以及電池為此任務耗散的相關熱量。其他感興趣的圖可以是測量的功率、網絡吞吐量、電池消耗、CPU 利用率和緩沖區占用。

poYBAGLH8wWAMvWTAAMtxKUt3Gk534.png

圖 3. ADAS 架構模型的分析報告

處理器模型構建

AI 處理器和系統的設計人員針對應用程序類型、訓練與推理、成本點、功耗和尺寸限制進行實驗。例如,設計人員可以將子網絡分配到流水線階段,權衡深度神經網絡 (DNN) 與傳統機器學習算法,測量 GPU、TPU、AI 處理器、FPGA 和傳統處理器上的算法性能,評估融合計算和內存的好處在芯片上計算類似于人腦功能的模擬技術對功率的影響,并構建具有針對單個應用程序的部分功能集的 SoC。

從 PowerPoint 到新 AI 處理器的第一個原型的時間非常短,第一個生產樣品不能有任何瓶頸或錯誤。因此,建模成為強制性的。

圖 4 顯示了 Google 張量處理器的內部視圖。框圖已轉換為圖 5 中的架構模型。處理器通過 PCIe 接口接收來自主機的請求。MM、TG2、TG3 和 TG4 是來自獨立主機的不同請求流。權重存儲在片外 DDR3 中并被調用到權重 FIFO。到達的請求在統一本地緩沖區中存儲和更新,并發送到矩陣多單元進行處理。當請求通過 AI 管道處理完畢后,將其返回到統一緩沖區以響應主機。

pYYBAGLH8w6AUY5cAAH5cVXHPd0055.png

圖 4. 來自 Google 的 TPU-1

pYYBAGLH8xeAES5nAAH9blh3v80920.png

圖5. AI 硬件架構的 VisualSim 模型頂視圖

處理器模型分析

在圖 6 中,您可以查看片外 DDR3 中的延遲和反向傳播權重管理。延遲是從主機發送請求到接收響應的時間。您將看到 TG3 和 TG4 能夠分別保持低延遲,直到 200 us 和 350 us。MM 和 TG2 在模擬的早期就開始緩沖。由于這組流量配置文件存在大量緩沖并且延遲增加,因此當前的 TPU 配置不足以處理負載和處理。TG3 和 TG4 的更高優先級有助于維持更長的運營時間。

poYBAGLH8yGAb-mYAAHT-36YM8g888.png

圖 6. 架構探索權衡的統計數據

汽車設計施工

poYBAGLH8yqAeDErAADu_tWXouM594.png

圖 7. 帶有 CAN 總線、傳感器和 ECU 的汽車網絡

當今的汽車設計包含許多需要大量機器學習和推理的安全和自動駕駛功能。可用的時間表將決定處理是在 ECU 完成還是發送到數據中心。例如,可以在本地進行制動決策,同時可以將空調溫度的變化發送到遠程處理。兩者都需要一些基于輸入傳感器和攝像頭的人工智能。

圖 7 是包含 ECU、CAN-FD、以太網和網關的網絡框圖。

pYYBAGLH8zKABDcwAAOrtsXCqXU994.png

圖 8. 自動駕駛和 E/E 架構的 VisualSim 模型

圖 8 捕獲了圖 7 的一部分,它將 CAN-FD 網絡與包含多個 ARM 內核和一個 GPU 的高性能 Nvidia DrivePX 集成。以太網/TSN/AVB 和網關已從模型中移除以簡化視圖。在此模型中,重點是了解 SoC 的內部行為。該應用程序是由車輛上的攝像頭傳感器觸發的 MPEG 視頻捕獲、處理和渲染。

汽車設計分析

圖 9 顯示了 AMBA 總線和 DDR3 內存的統計數據。您可以看到跨多個主服務器的工作負載分布。可以評估應用程序管道的瓶頸,確定最高周期時間的任務、內存使用情況以及每個單獨任務的延遲。

poYBAGLH8zuADCzoAAKvaLBwix8310.png

圖 9. 總線和內存活動報告

用例和流量模式應用于作為硬件、RTOS 和網絡組合的架構模型。周期性流量配置文件用于對雷達、激光雷達和攝像頭進行建模,而用例可以是自動駕駛、聊天機器人、搜索、學習、推理、大數據處理、圖像識別和疾病檢測。用例和流量可以根據輸入速率、數據大小、處理時間、優先級、依賴性、先決條件、反向傳播循環、系數、任務圖和內存訪問而變化。通過改變屬性在系統模型上模擬用例。這會生成各種統計數據和圖表,包括緩存命中率、流水線利用率、拒絕的請求數、每條指令或任務的瓦特數、吞吐量、緩沖區占用率和狀態圖。

poYBAGLH8teAdkAAAACYtpBw9Uc115.png

圖 10. 實時測量 AI 處理器的功耗

圖 10 顯示了系統和芯片的功耗。除了散熱、電池充電消耗率和電池生命周期變化外,該模型還可以捕捉動態功率變化。該模型繪制了每個設備的狀態活動、相關的瞬時峰值和系統的平均功率。獲得有關功耗的早期反饋有助于熱和機械團隊設計外殼和冷卻方法。大多數機箱對每個板都有最大功率限制。這種早期的功耗信息可用于執行架構與性能的權衡,從而尋找降低功耗的方法。

進一步的探索場景

以下是一些突出使用 AI 架構模型和分析的附加示例。

1. 360度激光掃描儀、立體攝像頭、魚眼攝像頭、毫米波雷達、聲納或激光雷達的自動駕駛系統,通過網關連接到多個IEEE802.1Q網絡上的20個ECU。該原型用于測試 OEM 硬件配置的功能包,以確定硬件和網絡要求。主動安全行動的響應時間是主要標準。

2. 用于學習和推理任務的人工智能處理器是使用由 32 個內核、32 個加速器、4 個 HBM2.0、8 個 DDR5、多個 DMA 和完整緩存一致性構建的片上網絡骨干定義的。該模型使用 RISC-V、ARM Z1 和專有內核的變體進行了試驗。實現的目標是鏈路上的 40Gbps,同時保持較低的路由器頻率并重新訓練網絡路由。

3. 需要一個 32 層的深度神經網絡,將內存從 40GB 降低到 7GB 以下。數據吞吐量和響應時間沒有改變。該模型設置有用于處理和反向傳播的內存訪問行為的功能流程圖。對于不同的數據大小和任務圖,該模型確定了數據的丟棄量以及各種片外 DRAM 大小和 SSD 存儲選項。任務圖隨任意數量的圖和幾個輸入和輸出而變化。

4. 使用ARM處理器和AXI總線進行低成本AI處理的通用SoC。目標是獲得最低的每瓦功率,從而最大限度地提高內存帶寬。乘法累加函數被卸載到向量指令,加密到 IP 核,以及自定義算法到加速器。構建該模型的明確目的是評估不同的高速緩存存儲器層次結構以提高命中率和總線拓撲以減少延遲。

5. 模數 AI 處理器需要對功耗進行徹底分析,并對所達到的吞吐量進行準確分析。在該模型中,非線性控制在離散事件模擬器中建模為一系列線性函數,以加快模擬時間。在這種情況下,對功能進行了測試以檢查行為并衡量真正的節能效果。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    38

    文章

    7528

    瀏覽量

    164348
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101176
  • soc
    soc
    +關注

    關注

    38

    文章

    4204

    瀏覽量

    219105
收藏 人收藏

    評論

    相關推薦

    對稱多處理器和非對稱多處理器的區別

    隨著計算需求的日益增長,單處理器系統已經無法滿足高性能計算的需求。多處理器系統應運而生,它們通過將多個處理器集成到一個系統中來提高計算能力。在多處理器系統中,有兩種主要的
    的頭像 發表于 10-10 15:58 ?1319次閱讀

    簡述微處理器的指令集架構

    處理器的指令集架構(Instruction Set Architecture,ISA)是計算機體系結構中的核心組成部分,它定義了計算機能夠執行的指令集合、數據類型、寄存、內存訪問方式等,是連接
    的頭像 發表于 10-05 14:59 ?567次閱讀

    AMD推出全新銳龍AI 300系列處理器

    在 Computex 2024 上,AMD 宣布了一系列突破性的、旨在開啟 AI 體驗新時代的下一代架構和產品。AMD為下一代 AI PC推出了全新的 AMD 銳龍AI 300 系列
    的頭像 發表于 09-19 10:55 ?963次閱讀
    AMD推出全新銳龍<b class='flag-5'>AI</b> 300系列<b class='flag-5'>處理器</b>

    ARM處理器和CISC處理器的區別

    ARM處理器和CISC(復雜指令集計算機)處理器在多個方面存在顯著的區別。這些區別主要體現在架構原理、性能與功耗、設計目標、應用領域以及市場生態等方面。
    的頭像 發表于 09-10 11:10 ?571次閱讀

    處理器的指令集架構介紹

    處理器的指令集架構(Instruction Set Architecture,ISA)是計算機體系結構中至關重要的部分,它定義了微處理器能夠執行的操作和指令的集合,以及這些指令如何被組織、存儲
    的頭像 發表于 08-22 10:53 ?1576次閱讀

    國產新型AI PC處理器亮相上海

    處理器
    北京中科同志科技股份有限公司
    發布于 :2024年08月01日 09:21:01

    ai服務是什么架構類型

    架構AI服務通常具有較高的通用性,可以運行各種人工智能算法。但是,CPU架構AI服務
    的頭像 發表于 07-02 09:51 ?1239次閱讀

    聯發科或將與英偉達開發Arm架構AI PC處理器

    據悉,聯發科正與英偉達合作,共同開發基于Arm架構AI PC處理器。這款新芯片預計將在第三季度完成設計定案,第四季度進入驗證階段。
    的頭像 發表于 05-13 10:18 ?588次閱讀

    英特爾酷睿Ultra處理器突破500個AI模型優化

    英特爾在最新推出的英特爾? 酷睿? Ultra處理器上宣布,超過500款AI模型已得到優化運行。這款處理器無疑是市場上領先的AI PC處理器
    的頭像 發表于 05-09 11:18 ?831次閱讀

    嵌入式微處理器的分類 嵌入式微處理器的種類和型號

    的分類可以從多個角度進行劃分,比如架構、指令集、用途等。下面將從這些角度詳細介紹嵌入式微處理器的種類和型號。 一、架構分類 嵌入式微處理器架構
    的頭像 發表于 05-04 16:31 ?2390次閱讀

    嵌入式微處理器架構可分為

    嵌入式微處理器架構是指用于嵌入式系統的微處理器的設計和組織方式。嵌入式系統是指內嵌在其他電子設備中的計算機系統,它們通常用于實時控制、通信、處理數據等任務。嵌入式微
    的頭像 發表于 04-21 14:39 ?1231次閱讀

    嵌入式微處理器的基礎是什么

    要求的硬件和軟件技術。 在嵌入式微處理器的基礎上,我們可以考慮以下幾個方面進行詳細討論: 處理器架構和指令集:嵌入式微處理器通常在特定的指令集架構
    的頭像 發表于 04-21 14:34 ?1152次閱讀

    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制,搭載適用于AI/ML工作負載的神經網絡協同處理器

    4 月 18 日 -先進的安全、互聯、節能的人工智能和機器學習(AI/ML)微控制(MCU)和融合處理器供應商Alif Semiconductor?今天宣布推出Balletto?系
    發表于 04-18 17:51 ?704次閱讀
    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制<b class='flag-5'>器</b>,搭載適用于<b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>工作負載的神經網絡協同<b class='flag-5'>處理器</b>

    Achronix新推出一款用于AI/ML計算或者大模型的B200芯片

    近日舉辦的GTC大會把人工智能/機器學習(AI/ML)領域中的算力比拼又帶到了一個新的高度,這不只是說明了通用圖形處理器(GPGPU)時代的來臨
    的頭像 發表于 03-28 15:48 ?899次閱讀
    Achronix新推出一款用于<b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>計算或者大模型的B200芯片

    全新發布的AMD銳龍8000G系列臺式機處理器,為個人AI處理賦能!

    AI時代來臨!全新發布的AMD銳龍8000G系列臺式機處理器,憑借強大的性能,助力解鎖非凡游戲體驗、專業級生產力,探索神奇的AI世界。
    的頭像 發表于 03-18 15:35 ?795次閱讀
    主站蜘蛛池模板: 男人天堂资源网 | 色男人的天堂 | 亚洲成人在线免费观看 | 美女视频黄a| 激情91| www.综合色| 天天综合天天综合 | 免费在线观看大片影视大全 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 亚洲天天看 | 亚洲电影一区二区三区 | 中文字幕精品一区二区2021年 | 高清一区二区三区四区五区 | 欧美巨波霸乳影院67194 | hs网站免费 | 狠狠色丁香婷婷综合久久来 | 男女一级特黄a大片 | 色天使色护士 | 免费高清特级毛片 | 日本黄色免费片 | 日本黄色影片在线观看 | 插菊综合网 | 视频亚洲一区 | 1区2区3区 | 操碰人人 | 1515hh四虎免费观38com | 国产精品福利在线观看免费不卡 | 黄网在线观看 | 一级日本大片免费观看视频 | 婷婷色香五月激情综合2020 | 天天伊人网| 人人操天天射 | 日本a级三级三级三级久久 日本a级影院 | 国产三级a三级三级野外 | 欧美成人性动漫在线观看 | 欧美在线色视频 | 在线亚洲色图 | www.黄com| 黄视频免费在线观看 | 丁香婷婷网| 哟交小u女国产精品视频 |