在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【產(chǎn)品測(cè)試】利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用

innswaiter ? 2022-11-29 18:36 ? 次閱讀

XilinxVersal AI Core 系列器件旨在解決獨(dú)特且最困難的 AI 推理問題,方法是使用高計(jì)算效率 ASIC 級(jí) AI 計(jì)算引擎和靈活的可編程結(jié)構(gòu)來構(gòu)建具有加速器的 AI 應(yīng)用,從而最大限度地提高任何給定工作負(fù)載的效率,同時(shí)提供低功耗和低延遲。

Versal AI Core 系列VCK190 評(píng)估套件采用VC1902器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件專為需要高吞吐量 AI 推理和信號(hào)處理計(jì)算性能的設(shè)計(jì)而設(shè)計(jì)。VCK190 套件的計(jì)算能力是當(dāng)前服務(wù)器級(jí) CPU 的 100 倍,并具有多種連接選項(xiàng),是從云到邊緣的各種應(yīng)用的理想評(píng)估和原型設(shè)計(jì)平臺(tái)。

賽靈思 Versal AI 內(nèi)核系列 VCK190 評(píng)估套件圖像圖 1:賽靈思 Versal AI 內(nèi)核系列 VCK190 評(píng)估套件。(圖片來源:AMD, Inc)

VCK190 評(píng)估套件的主要特性

  • 板載 Versal AI 核心系列設(shè)備
    • 配備 Versal ACAP XCVC1902 量產(chǎn)芯片
    • AI 和 DSP 引擎的計(jì)算性能比當(dāng)今的服務(wù)器級(jí) CPU 高 100 倍
    • 用于快速原型設(shè)計(jì)的預(yù)構(gòu)建合作伙伴參考設(shè)計(jì)
  • 用于前沿應(yīng)用開發(fā)的最新連接技術(shù)
    • 內(nèi)置 PCIe 第 4 代硬 IP,用于高性能設(shè)備接口,如 NVMe? 固態(tài)盤和主機(jī)處理器
    • 內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡(luò)接口
    • DDR4 和 LPDDR4 內(nèi)存接口
  • 協(xié)同優(yōu)化工具和調(diào)試方法
    • Vivado? ML, Vitis 統(tǒng)一軟件平臺(tái), Vitis? AI, 用于 AI 推理應(yīng)用開發(fā)的 AI 引擎工具

利用賽靈思 Versal AI 內(nèi)核系列器件實(shí)現(xiàn) AI 接口加速

賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖圖 2:賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖。(圖片來源:AMD, Inc)

Versal? AI Core 自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 是一款高度集成的多核異構(gòu)設(shè)備,可在硬件和軟件級(jí)別動(dòng)態(tài)適應(yīng)各種 AI 工作負(fù)載,使其成為 AI 邊緣計(jì)算應(yīng)用或云加速器卡的理想選擇。該平臺(tái)集成了用于嵌入式計(jì)算的下一代標(biāo)量引擎、用于硬件靈活性的自適應(yīng)引擎,以及由 DSP 引擎和用于推理和信號(hào)處理的革命性 AI 引擎組成的智能引擎。其結(jié)果是一個(gè)適應(yīng)性強(qiáng)的加速器,其性能、延遲和能效超過了傳統(tǒng) FPGAGPU 的性能、延遲和能效,適用于 AI/ML 工作負(fù)載。

Versal ACAP 平臺(tái)亮點(diǎn)

  • 適應(yīng)性強(qiáng)的引擎:
    • 自定義內(nèi)存層次結(jié)構(gòu)優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動(dòng)和管理
    • 預(yù)處理和后處理功能,包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放
  • 人工智能引擎 (DPU)
    • 矢量處理器的平鋪陣列,使用 XCVC1902 設(shè)備(稱為深度學(xué)習(xí)處理單元或 DPU)時(shí),性能高達(dá) 133 INT8 TOPS
    • 非常適合神經(jīng)網(wǎng)絡(luò),包括CNN,RNN和MLP;硬件可適應(yīng)不斷演變的算法進(jìn)行優(yōu)化
  • 標(biāo)量引擎
    • 四核ARM處理子系統(tǒng),用于安全、電源和比特流管理的平臺(tái)管理控制器

VCK190 人工智能推理性能

與當(dāng)前服務(wù)器級(jí) CPU 相比,VCK190 能夠提供超過 100 倍的計(jì)算性能。下面是基于 C32B6 DPU 內(nèi)核的 AI 引擎實(shí)現(xiàn)的性能示例,批處理 = 6。有關(guān) VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 以 1250 MHz 運(yùn)行,請(qǐng)參閱下表。

| | No | Neural Network | Input Size | GOPS | Performance (fps) (Multiple thread) |
| ---- | -------------------------- | ------------ | ------ | ------------------------------------- |
| 1 | face_landmark | 96x72 | 0.14 | 24605.3 |
| 2 | facerec_resnet20 | 112x96 | 3.5 | 5695.3 |
| 3 | inception_v2 | 224x224 | 4 | 1845.8 |
| 4 | medical_seg_cell_tf2 | 128x128 | 5.3 | 3036.3 |
| 5 | MLPerf_resnet50_v1.5_tf | 224x224 | 8.19 | 2744.2 |
| 6 | RefineDet-Medical_EDD_tf | 320x320 | 9.8 | 1283.6 |
| 7 | tiny_yolov3_vmss | 416x416 | 5.46 | 1424.4 |
| 8 | yolov2_voc_pruned_0_77 | 448x448 | 7.8 | 1366.0 |

Table 1: Example of VCK190 AI Inference performance.

See more detail of VCK190 AI performance from Vitis AI Library User Guide (UG1354), r2.5.0 at https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

How Design Gateway's IP cores accelerate AI application performance?

Design Gateway's IP Cores are designed to handle Networking and Data Storage protocol without need for CPU intervention. This makes it ideal to fully offload CPU systems from complicated protocol processing and which enables them to utilize most of their computing power for AI applications including AI inference, pre and post data processing, user interface, network communication and data storage access for the best possible performance.

Block diagram of example an AI Application with Design Gateway's IP CoresFigure 3: Block diagram of example an AI Application with Design Gateway's IP Cores. (Image source: Design Gateway)

Design Gateway's TCP Offload Engine IP (TOExxG-IP) performance

Processing high speed, high throughput TCP data streams over 10GbE or 25GbE by traditional CPU systems needs more than 50% of CPU time which reduces overall performance of AI applications. According to 10G TCP performance test on Xilinx's MPSoC Linux systems, CPU usage during 10GbE TCP transmission is more than 50%, TCP send and receive data transfer speed could be achieved just around 40% to 60% of 10GbE speed or 400 MB/s to 600 MB/s.

By implementing Design Gateway's TOExxG-IP Core, CPU usage for TCP transmission over 10GbE and 25GbE can be reduced to almost 0% while ethernet bandwidth utilization can be achieved close to 100%. This allows the sending and receiving of data over the TCP network directly by pure hardware logic and be fed into the Versal AI Engine with minimum CPU usage and the lowest possible latency. Figure 4 below shows the CPU usage and TCP transmission speed comparison between TOExxG-IP and MPSoC Linux systems.

Image of performance comparison of 10G/25G TCP transmission by MPSoC Linux systemsFigure 4: Performance comparison of 10G/25G TCP transmission by MPSoC Linux systems and Design Gateway's TOExxG-IP Core. (Image source: Design Gateway)

Design Gateway’s TOExxG-IP for Versal devices

Diagram of TOExxG-IP systems overviewFigure 5: TOExxG-IP systems overview. (Image source: Design Gateway)

The TOExxG-IP core implements the TCP/IP stack (in hardwire logic) and connects with Xilinx’s EMAC Hard IP and Ethernet Subsystem module for the lower-layer hardware interface with 10G/25G/100G Ethernet speed. The user interface of the TOExxG-IP consists of a Register interface for control signals and a FIFO interface for data signals. The TOExxG-IP is designed to connect with Xilinx's Ethernet subsystem through the AXI4-ST interface. The clock frequency of the user interface depends on the Ethernet interface speed (e.g., 156.625 MHz or 322.266 MHz).

TOExxG-IP’s features

  • Full TCP/IP stack implementation without need of the CPU
  • Supports one session with one TOExxG-IP
  • Multi-session can be implemented by using multiple TOExxG-IP instances
  • Support for both Server and Client mode (Passive/Active open and close)
  • Supports Jumbo frame
  • Simple data interface by standard FIFO interface
  • Simple control interface by single port RAM interface

FPGA resource usages on the XCVC1902-VSVA2197-2MP-ES FPGA device are shown in Table 2 below.

| | Family | Example Device | Fmax (MHz) | CLB Regs | CLB LUTs | Slice | IOB | BRAMTile^1^ | URAM | Design Tools |
| ---------------- | -------------------------- | ------------ | ---------- | ---------- | ------- | ----- | -------------- | ------ | -------------- |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 350 | 11340 | 10921 | 2165 | - | 51.5 | - | Vivado2021.2 |

Table 2: Example Implementation Statistics for Versal device.

More details of the TOExxG-IP are described in its datasheet which can be downloaded from Design Gateway’s website at the following links:

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

NVMe-IP 系統(tǒng)概述圖圖 7:NVMe-IP 系統(tǒng)概述。(圖片來源:設(shè)計(jì)網(wǎng)關(guān))

NVMe-IP的功能

  • 能夠?qū)崿F(xiàn)應(yīng)用層、事務(wù)層、數(shù)據(jù)鏈路層和物理層的某些部分,無需CPU或外部DDR存儲(chǔ)器即可訪問NVMe SSD
  • 與賽靈思 PCIe 第 3 代和第 4 代硬 IP 配合使用
  • 能夠利用BRAM和URAM作為數(shù)據(jù)緩沖區(qū),而無需外部存儲(chǔ)器接口
  • 支持六個(gè)命令:識(shí)別、關(guān)機(jī)、寫入、讀取、SMART 和刷新(提供可選的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 資源使用情況如表 2 所示。

| | 家庭 | 示例設(shè)備 | 最大頻率 (兆赫) | 負(fù)載均衡注冊(cè) | 負(fù)載均衡 LUT | 片 | IOB | 布拉姆蒂勒^1^ | 烏蘭 | 設(shè)計(jì)工具 |
| ---------------- | -------------------------- | ------------------- | -------------- | -------------- | ------ | ----- | ---------------- | ------ | ------------ |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 375 | 6280 | 3948 | 1050 | - | 4 | 8 | 萬歲2022.1 |

表 3:Versal 設(shè)備的實(shí)現(xiàn)統(tǒng)計(jì)信息示例。

有關(guān) Versal 器件的 NVMe-IP 的更多詳細(xì)信息,請(qǐng)參見其數(shù)據(jù)表,可通過以下鏈接從 Design Gateway 的網(wǎng)站下載

面向第四代賽靈思的 NVMe IP 核數(shù)據(jù)表

結(jié)論

TOExxG-IP 和 NVMe-IP 內(nèi)核都可以通過將 CPU 系統(tǒng)從計(jì)算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲(chǔ)協(xié)議)中完全卸載來幫助加速 AI 應(yīng)用程序性能,這對(duì)于實(shí)時(shí) AI 應(yīng)用程序至關(guān)重要。這使得賽靈思的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。

VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在 Xilinx 的 Versal AI Core 器件上以盡可能低的 FPGA 資源使用量和極高的能效在 AI 應(yīng)用中實(shí)現(xiàn)最佳性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)關(guān)
    +關(guān)注

    關(guān)注

    9

    文章

    4595

    瀏覽量

    51523
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    嵌入式和人工智能究竟是什么關(guān)系?

    人工智能的結(jié)合,無疑是科技發(fā)展中的一場(chǎng)革命。人工智能硬件加速中,嵌入式系統(tǒng)以其獨(dú)特的優(yōu)勢(shì)和重要性,發(fā)揮著不可或缺的作用。通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等算法,嵌入式系統(tǒng)能夠高效地處理大量數(shù)
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    幸得一好書,特此來分享。感謝平臺(tái),感謝作者。受益匪淺。 閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這一章詳細(xì)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。閱讀這一章后,我深刻感受到了人工智能技術(shù)科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來的革命性變化,以下是我個(gè)人的學(xué)習(xí)
    發(fā)表于 10-14 09:12

    risc-v人工智能圖像處理應(yīng)用前景分析

    RISC-V和Arm內(nèi)核及其定制的機(jī)器學(xué)習(xí)和浮點(diǎn)運(yùn)算單元,用于處理復(fù)雜的人工智能圖像處理任務(wù)。 四、未來發(fā)展趨勢(shì) 隨著人工智能技術(shù)的不斷發(fā)展和普及,RISC-V
    發(fā)表于 09-28 11:00

    人工智能ai4s試讀申請(qǐng)

    目前人工智能在繪畫對(duì)話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題,本書對(duì)ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬按照要求準(zhǔn)備相關(guān)體會(huì)材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學(xué)研究底層的理論模式與主要困境,以及人工智能三要素(數(shù)據(jù)、算法、算力)出發(fā),對(duì)AI for Science的技術(shù)支撐進(jìn)行解讀。 第3章介紹了
    發(fā)表于 09-09 13:54

    【xG24 Matter開發(fā)套件試用體驗(yàn)】深入了解Silicon Labs xG24 Matter開發(fā)套件

    今天把收到的xG24 Matter開發(fā)套件給大家做個(gè)詳細(xì)的介紹,Silicon Labs-芯科科技公司最新推出的一款具有智能和機(jī)器學(xué)習(xí)硬件加速功能的無線物聯(lián)網(wǎng)產(chǎn)品評(píng)估xG24 Matt
    發(fā)表于 08-27 20:23

    報(bào)名開啟!深圳(國(guó)際)通用人工智能大會(huì)將啟幕,國(guó)內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國(guó)際)通用人工智能大會(huì)暨深圳(國(guó)際)通用人工智能產(chǎn)業(yè)博覽會(huì)將在深圳國(guó)際會(huì)展中心(寶安)舉辦。大會(huì)以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領(lǐng)域集
    發(fā)表于 08-22 15:00

    FPGA人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場(chǎng)可編程門陣列)人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速
    發(fā)表于 07-29 17:05

    【xG24 Matter開發(fā)套件試用體驗(yàn)】初識(shí)xG24 Matter開發(fā)套件

    。 借助高性能 2.4 GHz RF、低電流消耗、人工智能 (AI)/機(jī)器學(xué)習(xí) (ML) 硬件加速器和 Secure Vault 等關(guān)鍵功能,物聯(lián)網(wǎng)設(shè)備制造商可以打造智能、強(qiáng)大、節(jié)能且能夠避免遠(yuǎn)程
    發(fā)表于 07-11 23:31

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識(shí)指引 14分50秒 https
    發(fā)表于 05-10 16:46

    FPGA開發(fā)如何降低成本,比如利用免費(fèi)的IP內(nèi)核

    。 了解IP內(nèi)核的特性和使用方式:選定IP內(nèi)核后,應(yīng)詳細(xì)閱讀其文檔,了解內(nèi)核的功能、性能、接口
    發(fā)表于 04-28 09:41

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    機(jī)器人案例.pdf 人工智能 AI泛邊緣:智能安防實(shí)訓(xùn) 31分38秒 https://t.elecfans.com/v/25509.html *附件:泛邊緣案例課.pdf 人工智能 引體向上測(cè)
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛嵌入式
    發(fā)表于 02-26 10:17
    主站蜘蛛池模板: 色妞网 | 国产亚洲欧美一区二区 | 久久夜视频 | 色欧美色| 天天爽夜夜爽一区二区三区 | 黄页网站视频免费 视频 | 色香蕉网站 | 国产精品福利一区二区亚瑟 | 亚洲youjizz| 一级看片免费视频 | 公妇乱淫日本免费观看 | 99精品热女视频专线 | 韩国床戏合集三小时hd中字 | 性久久久久久久久 | 成人sese| 同性同男小说肉黄 | 黄色a网| 免费视频播放 | 亚洲资源在线观看 | www在线观看| 亚1洲二区三区四区免费 | 国久久 | 一本久草| 久久婷婷人人澡人人爱91 | 天天综合亚洲国产色 | 在线不卡一区 | 日本黄色片免费看 | 四虎在线播放免费永久视频 | 特黄a大片免费视频 | 伊人久久大杳蕉综合大象 | 亚洲h视频在线 | 国内精品久久久久久影院老狼 | 日本黄免费 | 狠狠噜噜 | 四虎免费永久观看 | 国产综合精品久久久久成人影 | 奇米777狠狠 | 狼狼狼色精品视频在线播放 | 国外精品视频在线观看免费 | 色婷婷在线视频观看 | 正在播放国产乱子伦视频 |