在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

賽靈思FPGA與VMware vSphere相結合實現高吞吐量、低時延ML推斷性能

454398 ? 來源:Xilinx賽靈思官微 ? 作者:Xilinx賽靈思官微 ? 2020-09-29 11:52 ? 次閱讀

硬件加速器已在數據中心得到普遍使用,一系列新的工作負載已經能夠成熟地發揮 FPGA 的加速優勢及其更優異的計算效率。業界對機器學習 (ML) 的關注度不斷提高,推動 FPGA 加速器在私有云、公有云、混合云數據中心環境中日益普及,從而為計算密集型工作負載加速。近期,在推動 IT 基礎設施向異構計算轉型的過程中,賽靈思與 VMware 展開協作,在 VMware 的云計算虛擬化平臺vSphere上測試 FPGA 加速。由于賽靈思 FPGA 越來越廣泛地應用于 ML 推斷加速,本文將展示的是如何將賽靈思 FPGA 與 VMware vSphere 相結合,在虛擬部署和裸機部署上實現基本相同的高吞吐量、低時延 ML 推斷性能。

“自適應計算”的優勢
FPGA 是一種自適應計算器件,能夠靈活地進行重新編程,從而滿足目標應用不同的處理需求和功能要求。該特性使 FPGA 從 GPUASIC 等架構固定的器件中脫穎而出,更是遠遠優于成本不斷飆升的的定制 ASIC。此外,與其他硬件加速器相比,FPGA 還具備高能效、低時延的優勢,使 FPGA 特別適用于 ML 推斷工作。與基本依靠大量并行處理核心實現高吞吐量的 GPU 不同的是,FPGA 通過定制化硬件內核、數據流流水線和互聯,助力 ML 推斷同時實現高吞吐量和低時延。

01. 在 vSphere 上使用 FPGA 開展 ML 推斷

VMware 在其實驗室中使用賽靈思 Alveo U250 數據中心卡進行測試。使用在Vitis AI中提供的 Docker 容器——為從邊緣到云端的賽靈思硬件平臺提供的 ML 推斷統一開發棧,ML 模型可以迅速完成配置。該容器由經過優化的工具、庫、模型和示例構成。Vitis AI 支持含 Caffe 和 TensorFlow 在內的主流框架以及能夠執行多種深度學習任務的最新模型。此外,Vitis AI 是一種開源應用,可通過訪問GitHub獲取。

賽靈思FPGA與VMware vSphere相結合實現高吞吐量、低時延ML推斷性能

圖 1:Vitis AI 軟件協議棧

目前,賽靈思 FPGA 通過 DirectPath I/O 模式(直通模式)能在 vSphere 上使用。在這種模式下,我們的 FPGA 能夠由運行在虛擬機內部的應用直接訪問,繞過程序管理層,從而最大化性能并最大限度降低時延。配置 DirectPath I/O 模式下的 FPGA 只需簡單的兩步流程:首先,在主機層面上啟用 ESXi,然后將器件添加到目標虛擬機。詳細操作方法參見 VMware KB 一文( https://kb.vmware.com/s/article/1010789 )。請注意,如果運行的是 vSphere 7,則不再需要重啟主機。

02. 高吞吐量、低時延 ML 推斷性能

通過與賽靈思合作,VMware 使用四個 CNN 模型執行推斷任務,對我們的 Alveo U250 加速器卡在 DirectPath I/O 模式工作下的吞吐量和時延性能進行評估。這四個模型分別為Inception_v1、Inception_v2、Resnet50 和 VGG16。這些模型在模型參數數量上不盡相同,因而具備不同的處理復雜性。

測試在搭載兩顆 10 核 Intel Xeon Silver 4114 CPU 和 192GB DDR4 存儲器的 Dell PowerEdge R740 服務器上進行。我們使用 ESXi 7.0 虛擬機程序管理器,將每種模型的端到端性能結果與作為基線的裸機性能進行對比。Ubuntu 16.04(內核版本 4.4.0-116)用作客戶端操作系統和本地操作系統。此外,在整個測試過程中將 Vitis AI v1.1 與 Docker CE 19.03.4 結合使用。同時使用源于 ImageNet2012 的 50k 圖像數據集。為進一步避免圖像讀取過程中遭遇磁盤瓶頸,還創建了一個 RAM 磁盤用于存儲 50k 圖像。

完成這些設置后,虛擬測試和裸機測試之間的性能比較可從下面的兩個圖中進行觀察。一個針對吞吐量,另一個針對時延。y 軸代表虛擬測試和裸機測試間的吞吐量性能比值。y=1.0 代表虛擬測試和裸機測試的吞吐量性能結果相同。

圖 2:在 Alveo U250 FPGA 上運行 ML 推斷時裸機測試和虛擬測試的吞吐量性能比較

圖 3:在 Alveo U250 FPGA 上運行 ML 推斷時裸機測試和虛擬測試的時延性能比較

測試證明,虛擬環境和裸機間在吞吐量和時延兩方面的性能差距最大不超過 2%。這說明在虛擬環境中運行在 vSphere 上的 Alveo U250 的 ML 性能與作為基線的裸機性能極為相近。

03. 云端的 FPGA 性能

在數據中心中采用 FPGA 加速器已成為普遍現象,而且為滿足對異構計算和性能提升的需求,FPGA 加速器的應用還將繼續增長。我們非常高興能夠與 VMware 展開合作,共同確保客戶能充分發揮運行在 vSphere 平臺上的賽靈思 FPGA 加速的全部優勢。我們在 vSphere 上對我們的 Alveo U250 加速器卡進行 ML 推斷性能測試,成功地向客戶證明了該器件在 DirectPath I/O 模式下能夠實現接近裸機的性能。

編輯:hfy


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1641

    文章

    21912

    瀏覽量

    611763
  • 賽靈思
    +關注

    關注

    33

    文章

    1795

    瀏覽量

    132009
  • 云計算
    +關注

    關注

    39

    文章

    7953

    瀏覽量

    138994
  • 機器學習
    +關注

    關注

    66

    文章

    8479

    瀏覽量

    133820
收藏 人收藏

    評論

    相關推薦

    數據吞吐量提升!面向下一代音頻設備,藍牙HDT、星閃、Wi-Fi、UWB同臺競技

    電子發燒友網報道(文/莫婷婷)音頻設備數據吞吐量的提升是當前無線通信領域的一個重要發展趨勢,藍牙、Wi-Fi和UWB作為三種主要的無線通信技術,在這一趨勢中扮演著關鍵角色。 ? 數據吞吐量指的是在
    的頭像 發表于 12-25 01:22 ?2600次閱讀

    吞吐量超高精度加工

    是一款工業超短脈沖 (USP) 激光器,可提供功率 (100 W) 綠光輸出和始終如一的光束質量組合。因此它能夠支持需要高吞吐量的要求嚴格的高精度材料加工應用。 高通量太陽能電池劃片
    的頭像 發表于 02-19 06:21 ?216次閱讀
    <b class='flag-5'>高</b>通<b class='flag-5'>吞吐量</b>超高精度加工

    低溫失效的原因,有沒有別的方法或者一些見解?

    低溫失效的原因,有沒有別的方法或者一些見解。就是芯片工作溫度在100°--40°區間,然后呢我們到了0°以下就不工作了,然后在低溫的情況下監測了電流和電壓都正常,頻率也都正常,頻率不是F
    發表于 12-30 16:28

    ADC芯片的采樣率為100MSPS,位寬16位,那么吞吐量是多少?

    例如ADC芯片的采樣率為100MSPS,位寬16位,那么吞吐量是多少? 用差分LVDS和FPGA相連,FPGA的時鐘速率多少能夠滿足要求/?
    發表于 12-18 08:49

    FPGA產品的主要特點

    近年來,全球半導體供應鏈屢受挑戰,芯片短缺問題一度對行業產生深遠影響。易通過優化供應鏈管理、強化產能規劃,確保客戶的FPGA需求得到及時滿足。面向工業控制、機器視覺、醫療影像、消費電子、汽車智駕等一眾終端領域,易
    的頭像 發表于 12-04 14:20 ?1184次閱讀
    易<b class='flag-5'>靈</b><b class='flag-5'>思</b><b class='flag-5'>FPGA</b>產品的主要特點

    TMS320VC5510 HPI吞吐量和優化

    電子發燒友網站提供《TMS320VC5510 HPI吞吐量和優化.pdf》資料免費下載
    發表于 10-16 09:35 ?0次下載
    TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和優化

    TMS320C6474模塊吞吐量

    電子發燒友網站提供《TMS320C6474模塊吞吐量.pdf》資料免費下載
    發表于 10-15 13:52 ?0次下載
    TMS320C6474模塊<b class='flag-5'>吞吐量</b>

    TMS320C6474通用總線架構(CBA)吞吐量

    電子發燒友網站提供《TMS320C6474通用總線架構(CBA)吞吐量.pdf》資料免費下載
    發表于 10-15 10:29 ?0次下載
    TMS320C6474通用總線架構(CBA)<b class='flag-5'>吞吐量</b>

    TMS320DM36x SoC架構和吞吐量

    電子發燒友網站提供《TMS320DM36x SoC架構和吞吐量.pdf》資料免費下載
    發表于 10-14 10:51 ?0次下載
    TMS320DM36x SoC架構和<b class='flag-5'>吞吐量</b>

    TMS320C6472/TMS320TCI6486的吞吐量應用程序報告

    電子發燒友網站提供《TMS320C6472/TMS320TCI6486的吞吐量應用程序報告.pdf》資料免費下載
    發表于 10-14 09:27 ?0次下載
    TMS320C6472/TMS320TCI6486的<b class='flag-5'>吞吐量</b>應用程序報告

    ASP4644在FPGA SERDES供電中的應用

    ASP4644是一款集成度、四輸出的降壓型模組穩壓器,專為需要紋波和高效率的供電場合設計,如FPGA和SERDES供電。本文將探討如何利用ASP4644的特性實現
    發表于 08-16 14:55

    求助,關于使用iperf測量mesh節點吞吐量問題求解

    我把esp-mesh-lite的no-route例程和iperf例程合在一起,想測試兩個mesh節點間tcp通信的吞吐量,實際過程中一開始流量正常,數秒后客戶端發數據這邊monitor卡死沒有任何
    發表于 07-23 06:59

    科普 | 一文了解FPGA

    )的全方面支持。ADAS/AD 領域是未來中長期的增長點。而汽車級 ACAP 平臺的推出則是實現自動化駕駛 L4 的基礎。未來智能駕駛技術逐漸成熟,
    發表于 07-08 19:36

    FPGA下載問題

    在ARM開發中,通常可供選擇的下載器有多種。清華的FPGA,除了官方的專用下載器,有其他的下載器可以使用嗎?使用下載器可以嗎?
    發表于 06-23 12:28

    用Iperf例程測試ESP32-C6的TCP通信,吞吐量很低的原因?

    為什么我用官網的Iperf例程測試ESP32-C6的TCP通信,吞吐量才0.33Mbps
    發表于 06-06 07:47
    主站蜘蛛池模板: 色咯咯| 色色色色网| 国产农村妇女毛片精品久久 | va在线观看| 免费观看激色视频网站bd | 午夜三级毛片 | 美女网站色视频 | 色天使在线视频 | 成人精品一区二区三区电影 | 夜夜夜夜夜夜夜工噜噜噜 | 久久性感美女视频 | 1000部啪啪未满十八勿入中国 | 色综合色综合色综合 | 国产成人精品日本亚洲语音1 | 国产日韩精品欧美一区色 | 俺去啦网婷婷 | 午夜视频免费在线观看 | 天堂在线网 | 欧洲精品不卡1卡2卡三卡四卡 | 欧美极品第一页 | 美女扒开尿囗给男人玩的动图 | 亚洲一区毛片 | 亚欧毛片基地国产毛片基地 | 一级做a爱免费观看视频 | 狠狠色噜狠狠狠狠色综合久 | 欧美呜巴又大粗又长 | 狠狠狠狠狠狠 | 亚洲精品在线视频观看 | 无遮挡一级毛片 | 亚洲hhh| 欧美色图亚洲 | 在线观看视频你懂的 | 99久久免费精品视频 | 国产高清视频免费最新在线 | 天天色天天看 | 久久国产精品网 | 欧美三级成人 | 日韩一级特黄 | 男人j桶进女人j的视频 | 在线观看网站国产 | 丁香六月婷婷综合 |