在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

采用阿里云倚天實例g8y對深度學習推理性能進行測試和比較

jf_9aVl32Dp ? 來源:阿里云開發者社區 ? 作者:彈性計算-百曉生 ? 2022-11-25 10:33 ? 次閱讀

簡介:本次實測涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦等四種常見的深度學習推理場景

近幾年,深度學習在視覺、自然語言處理、搜索廣告推薦等工業界的各個領域廣泛落地。深度學習模型參數量的指數級上升、以及新的業務對復雜模型的需求,都要求云廠商的彈性計算能夠降低算力成本、提高計算效率,尤其是深度學習的推理,將會成為優化的重點。在此因素影響下,阿里云平頭哥團隊推出了全球首個5nm 制程的 ARM Server 芯片倚天710。該芯片基于 ARM Neoverse N2 架構,支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等擴展指令集,能在科學/AI計算領域獲得性能優勢。

在本文中,我們聚焦于采用倚天710芯片的 ECS倚天實例g8y,對深度學習推理任務的性能進行了測試和比較。

01 Workloads

本次分析,我們選擇了四種常見的深度學習推理場景,涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦領域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

實例類型

我們在阿里云兩種實例類型上進行測試,分別是ECS g8y(倚天710) 和 ECS g7(Ice Lake),實例均為 8-vCPU

Deep Learning Framework

在所有平臺,我們使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 設備上,TensorFlow 支持兩種后端,我們使用 OneDNN 后端。OneDNN 是一個開源的跨平臺深度學習庫,并且能夠集成 Arm Compute Library(Arm設備的機器學習計算庫)。在 Arm 設備上使用該后端能夠取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是實驗版本,因此在 PyTorch 框架上使用默認的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一種浮點數表示形式,其指數位與單精度浮點數(IEEE FP32)保持一致,但是小數位只有 7 位,因此 BF16 的表示范圍與 FP32 幾乎一致,但是精度較低。BF16 非常適合深度學習,因為通常精度下降并不會顯著降低模型的預測精度,但是16位的數據格式卻能夠節省空間、加速計算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度學習模型的推理性能,在多個場景下跑出了比 g7 更優秀的數據。此外,倚天 710 作為自研芯片,相比 g7 最大有 30% 的價格優勢。

下面四幅圖分別是 Resnet50,SSD,BERT 和 DIN 模型下的對比結果,其中,Resnet,SSD 和 BERT 都來自 MLPerf Inference Benchmark 項目,DIN 是 alibaba 提出的點擊率預測模型。藍色柱狀條是直接性能對比,橙色柱狀條是考慮了單位價格的性能對比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,單位價格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能對比圖

說明:此處設置 Batch Size = 32,測試圖像尺寸為 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能對比圖

說明:此處 Batch Size = 1,測試圖像尺寸為1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能對比圖

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能對比圖

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是實驗性質,因此本次實驗采用默認的 OpenBLAS 后端。OpenBLAS 是一個開源的線性代數庫,我們為其添加了針對 Arm Neoverse N2 的 BFloat16 矩陣乘法計算的優化實現。

OpenBLAS BFloat16 矩陣乘法優化

矩陣乘法和深度學習存在非常緊密的關系,例如深度學習中常見的 Fully Connected Layer,Convolutional Layer等,最終是被轉換成矩陣乘法實現的。因此,加速矩陣乘法最終能加速模型的計算。

OpenBLAS 是一個廣泛使用的計算庫,默認作為 Numpy,PyTorch 等庫的后端,我們在調研中發現該庫不支持倚天 710 的 bf16 指令擴展,在和社區交流后,我們決定利用倚天 710 支持的 BFMMLA 等向量指令實現支持 bf16 數據格式的矩陣乘法,實現后性能的到大幅提升,性能對比如圖 5 所示。該實現目前已經貢獻給開源社區,OpenBLAS 的最新版本 0.3.21 也已經合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩陣乘法性能對比

說明:參與運算的矩陣的行數和列數均為 1000。

PyTorch CNN Performance

OpenBLAS 作為 PyTorch 的默認后端,在矩陣乘法上的優化可以體現在 PyTorch 實現的深度學習模型中,我們以卷積計算占比較高的模型 VGG19 為例,該模型推理時,所有的卷積算子會被轉換為矩陣乘法,并調用 OpenBLAS 完成計算。下圖是 VGG 19 的性能對比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能對比圖

05 結論

本文的分析顯示,在阿里云倚天實例g8y上,多個深度學習模型的推理性能高于同規格 g7,這主要得益于 Arm Neoverse N2 的新指令以及不斷更新的軟件支持(OneDNN、ACL 和 OpenBLAS)。在這個過程中,阿里云編譯器團隊貢獻了一部分軟件優化,后續我們將繼續關注該領域的軟硬件優化,提高 Arm 系列實例在 ML/AI 方面的競爭力。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52252

    瀏覽量

    436914
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9321

    瀏覽量

    375385
  • 深度學習
    +關注

    關注

    73

    文章

    5555

    瀏覽量

    122534

原文標題:性能最高提升50%,ECS倚天實例深度學習推理性能實測

文章出處:【微信號:Arm軟件開發者,微信公眾號:Arm軟件開發者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?635次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

    阿里ECS g9i全球邀測啟動

    今日,在備受矚目的阿里國際開發者大會上,阿里正式向全球用戶推出了其第9代企業級實例——ECS g
    的頭像 發表于 01-22 15:14 ?486次閱讀

    華為彈性服務器 FlexusX 實例下的 Nginx 性能測試

    的 Nginx 性能測試。 ? 一、華為彈性服務器 FlexusX 實例簡介 華為彈性
    的頭像 發表于 01-17 09:17 ?813次閱讀
    華為<b class='flag-5'>云</b>彈性<b class='flag-5'>云</b>服務器 FlexusX <b class='flag-5'>實例</b>下的 Nginx <b class='flag-5'>性能</b><b class='flag-5'>測試</b>

    服務器 Flexus X 實例,鏡像切換與服務器壓力測試

    服務器 Flexus X 壓力測試 1、購買華為 Flexus X 實例 Flexus服務器X實例
    的頭像 發表于 01-03 09:23 ?374次閱讀
    <b class='flag-5'>云</b>服務器 Flexus X <b class='flag-5'>實例</b>,鏡像切換與服務器壓力<b class='flag-5'>測試</b>

    采用華為 Flexus 服務器 X 實例部署 YOLOv3 算法完成目標檢測

    一、前言 1.1 開發需求 這篇文章講解:?采用華為最新推出的 Flexus 服務器 X 實例部署 YOLOv3 算法,完成圖像分析、目標檢測。 隨著計算機視覺技術的飛速發展,
    的頭像 發表于 01-02 12:00 ?476次閱讀
    <b class='flag-5'>采用</b>華為<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服務器 X <b class='flag-5'>實例</b>部署 YOLOv3 算法完成目標檢測

    華為 X 實例 CPU 性能測試詳解與優化策略

    引言 ? 1. 測試環境搭建 ? 1.1 測試實例的選擇 ? 1.2 CPU性能測試工具介紹 ? 1.3 安裝和配置Sysbench ? 2
    的頭像 發表于 12-30 14:52 ?583次閱讀
    華為<b class='flag-5'>云</b> X <b class='flag-5'>實例</b> CPU <b class='flag-5'>性能</b><b class='flag-5'>測試</b>詳解與優化策略

    使用 Memtester 對華為 X 實例進行內存性能測試

    前言 ? 1 華為X實例介紹 ? 2 Memtester 簡介 ? 2.1 什么是Memtester ? 2.2 安裝 Memtester ? 3 測試方案設計 ? 3.1 測試目標
    的頭像 發表于 12-30 14:52 ?436次閱讀
    使用 Memtester 對華為<b class='flag-5'>云</b> X <b class='flag-5'>實例</b><b class='flag-5'>進行</b>內存<b class='flag-5'>性能</b><b class='flag-5'>測試</b>

    華為Flexus X實例,Redis性能加速評測及對比

    加速 Redis 的選項。本文旨在通過實際測試,展示華為 Flexus X 實例在加速 Redis 方面的性能優勢,并與其他業界 U1 實例
    的頭像 發表于 12-29 15:47 ?441次閱讀
    華為<b class='flag-5'>云</b>Flexus X<b class='flag-5'>實例</b>,Redis<b class='flag-5'>性能</b>加速評測及對比

    華為 Flexus X 實例 MySQL 性能加速評測及對比

    X 實例加速 MySQL 測試 7 3.1 sysbench 簡介 8 3.2?Flexus 服務器 X 實例安裝 sysbench
    的頭像 發表于 12-25 17:10 ?503次閱讀
    華為<b class='flag-5'>云</b> Flexus X <b class='flag-5'>實例</b> MySQL <b class='flag-5'>性能</b>加速評測及對比

    Flexus X 實例 CPU、內存及磁盤性能實測與分析

    的網絡帶寬支持。最近華為 828 B2B 企業節正在舉辦,Flexus X 實例的促銷也非常給力,大家可以去看看。為了幫助用戶更好地了解其性能表現,我們通過一系列詳盡的測試,對 Fl
    的頭像 發表于 12-24 17:35 ?552次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能
    的頭像 發表于 12-17 17:47 ?734次閱讀

    阿里開源推理大模型QwQ

    近日,阿里通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里在AI
    的頭像 發表于 11-29 11:30 ?1045次閱讀

    基于哪吒開發板部署YOLOv8模型

    開發板的推理性能,同時測試所推出的 OpenVINO C# API (https://github.com/guojin-yan/OpenVINO-CSharp-API) 項目能否應用到該開發板上,我們使用該開發板,結合 OpenVINO C# API 的異步
    的頭像 發表于 11-15 14:13 ?984次閱讀
    基于哪吒開發板部署YOLOv<b class='flag-5'>8</b>模型

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試
    的頭像 發表于 09-06 15:33 ?711次閱讀
    開箱即用,AISBench<b class='flag-5'>測試</b>展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    TensorFlow與PyTorch深度學習框架的比較與選擇

    學習框架,它們各自擁有獨特的特點和優勢。本文將從背景介紹、核心特性、操作步驟、性能對比以及選擇指南等方面對TensorFlow和PyTorch進行詳細比較,以幫助讀者了解這兩個框架的優
    的頭像 發表于 07-02 14:04 ?1546次閱讀
    主站蜘蛛池模板: 五月天婷婷免费观看视频在线 | 丁香综合激情 | 国产无套粉嫩白浆 | 国产亚洲卡二卡3卡4卡乱码 | 四虎4hu| 天天爽夜夜爽一区二区三区 | 天堂资源bt种子在线 | 天天插天天狠 | 欧美色图网站 | 日本aaaaa| 狠狠躁夜夜躁人人爽天天天天 | 久久综合香蕉久久久久久久 | 色网视频 | 久久98精品久久久久久婷婷 | 国产小视频在线观看 | 黄 色 免 费 网站在线观看 | h视频在线观看免费网站 | 四虎永久在线日韩精品观看 | 亚洲男人的天堂久久香蕉网 | 性欧美处| 青草青视频在线观看 | 在线a免费观看最新网站 | 三级视频中文字幕 | 欧美午夜精品久久久久久黑人 | 特黄aaaaa日本大片免费看 | 日本亚洲免费 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 天堂资源wwww在线看 | 黄黄网| 四虎国产精品免费久久影院 | 欧美12一13高清视频 | 在线观看免费视频一区 | 99热.com| 97视频hd | 天天操天天射天天 | 国产色产综合色产在线观看视频 | 4480yy私人午夜a级国产 | 伊人成综合 | 欧美a级网站 | 就操成人网 | 欧美猛性 |