国际完美世界下载,有声,穿越小说排行榜

MLPerf組織今天發布最新的推理基準測試（Benchmark）MLPerf Inference v0.7結果，總共有23個組織提交了結果，相比上一個版本（MLPerf Inference v0.5）的12個提交者增加了近一倍。

結果顯示，今年5月NVIDIA（Nvidia）發布的安培（Ampere）架構A100 Tensor Core GPU，在云端推理的基準測試性能是最先進Intel CPU的237倍。

MLPerf Inference V0.7部分結果截圖

最新的AI推理測試結果意味著，NVIDIA未來可能在AI推理和訓練市場都占據領導地位，給云端AI推理市場擁有優勢的Intel帶來更大壓力的同時，也將讓其他追趕者面臨更大挑戰。

MLPerf推理基準測試進一步完善的價值

與2019年的MLPerf Inference v0.5版本相比，最新的0.7版本將測試從AI研究的核心視覺和語言的5項測試，擴展了到了包括推薦系統、自然語言理解、語音識別和醫療影像應用的6項測試，并且有分別針對云端和終端推理的測試，還加入了手機和筆記本電腦的結果。

擴展的測試項從MLPerf和業界兩個角度都有積極意義。

MLPerf Inference v0.5測試項

MLPerf Inference v0.7數據中心測試項

MLPerf Inference v0.7邊緣端測試項

任何一個基準測試都需要給業界具有參考價值的指標。MLPerf基準測試是在業界缺乏對AI芯片公認的評價標準的2018年誕生，因此，MLPerf組織既需要給出各方都認可的成績，還需要根據AI行業的發展完善評價標準。

不過，AI行業發展迅速，AI模型的參數越來越多，應用的場景也越來越廣泛。評價AI芯片和系統的推理性能需要涵蓋可編程性、延遲、準確性、模型大小、吞吐量、能效等指標，也需要選擇更具指導價值的模型和應用。

此次增加的推薦系統測試對于互聯網公司意義重大。在王喆的《深度學習推薦系統》一書中提到，2019年天貓“雙11”的成交額是2684億元，假設推薦系統進行了優化，整體的轉化率提高1%，那么增加的成交額大約為26.84億元。

另外，MLPerf Inference v0.7中增加醫療影像3D U-Net模型測試與新冠大流行以及AI在醫療行業的重要性與日俱增密切相關，比如一家初創公司使用AI簡化了超聲心電圖的采集工作，在新冠大流行初期發揮了作用。

基準測試從v0.5到v0.7，能夠為要選用AI芯片和系統的公司提供更直觀和有價值的參考是MLPerf基準測試的價值所在，比如，幫助金融結構的會話式AI更快速回答客戶問題，幫助零售商使用AI保證貨架庫存充足。

與此同時，這也將促進MLPerf組織在業界的受認可程度，從接近翻倍的提交成績的組織就能看出來。

GPU云端推理性能最高是CPU的237倍

過去幾年，云端AI訓練市場NVIDIA擁有絕對優勢，云端AI推理市場被Intel賺取了大部分利潤是事實。這讓不少人都產生了GPU更適合訓練而CPU更適合推理的認知，但MLPerf最新的推理測試結果可能會改變這一觀點。

MLPerf Inference V0.7的測試結果顯示，在數據中心OFFLINE（離線）測試模式下，賽靈思U250和IntelCooper Lake在各個測試模型下與NVIDIAT4的差距不大，但A100對比CPU、FPGA和自家的T4就有明顯的性能差距。

在SERVER模式下的推薦系統DLRM模型下，A100 GPU對比IntelCooper Lake有最高237倍的性能差距，在其他模型下也有比較顯著的差距。值得注意的是，Intel的Cooper Lake系統的狀態還是預覽，其余三款芯片的系統都已經可用。

A100 GPU的優勢也在邊緣推理中也十分明顯。在單數據流（Singel-Stream）測試中，A100對比NVIDIAT4和面向邊緣終端的NVIDIAJetson AGX Xavier有幾倍到十幾倍的性能優勢。在多數據流（Multi-Stream）測試中，A100對比另外兩款自家產品在不同AI模型中有幾倍到二十多倍的性能優勢。

在邊緣OFFLINE模式下，A100對比T4和Jetson AGX Xavier也有幾倍到二十多倍的性能優勢。

這很好地說明A100的安培架構以及其第三代Tensor Core優勢的同時，也表明了NVIDIA能夠覆蓋整個AI推理市場。

在此次提交結果的23家公司中，除了NVIDIA外還有11家其合作伙伴提交了基于NVIDIA GPU的1029個測試結果，占數據中心和邊緣類別中參評測試結果總數的85％以上。

從提交結果的合作伙伴的系統中可以看到，NVIDIAT4仍然是企業的邊緣服務器推理平臺的主要選擇。A100提升到新高度的性能意味著未來企業邊緣服務器在選擇AI推理平臺的時候，可以從T4升級到A100，對于功耗受限的設備，可以選擇Jeston系列產品。

特別值得注意的是，NVIDIA GPU首次在公有云中實現了超越CPU的AI推理能力。

臨界點到來？AI推理芯片市場競爭門檻更高

五年前，只有少數領先的高科技公司使用GPU進行推理。如今，NVIDIAGPU首次在公有云市場實現超越CPU的AI推理能力，或許意味著AI推理市場臨界點的到來。NVIDIA還預測，基于其GPU的總體云端AI推理計算能力每兩年增長約10倍，增長速度高于CPU。

另外，NVIDIA還強調基于A100高性能系統的成本效益。NVIDIA表示，一套DGX A100系統可以提供相當于近1000臺雙插槽CPU服務器的性能，能為客戶AI推薦系統模型從研發走向生產的過程，具有極高的成本效益。

同時，NVIDIA也在不斷優化推理軟件堆棧，進一步提升在推理市場的競爭力。

最先感受到影響的會是Intel，但在云端AI推理市場體現出顯著變化至少需要幾年時間，因為企業在更換平臺的時候會更加謹慎，生態的護城河此時也更能體現出價值。

但無論如何，我們都看到NVIDIA在AI市場的強勢地位。雷鋒網七月底報道，在MLPerf發布的MLPerf Training v0.7基準測試中，A100 Tensor Core GPU，和HDR InfiniBand實現多個DGX A100 系統互聯的龐大集群DGX SuperPOD系統在性能上開創了八個全新里程碑，共打破16項紀錄。

安培架構A100在MLPerf最新的訓練和推理成績表明NVIDIA不僅給云端AI訓練的競爭者更大的壓力，也可能改變AI推理市場的格局。

NVIDIA將其在云端訓練市場的優勢進一步拓展到云端和邊緣推理市場符合AI未來的發展趨勢。有預測指出，隨著AI模型的成熟，市場對云端AI訓練需求的增速將會降低，云端AI推理的市場規模將會迅速增加，并有望在2022年超過訓練市場。

另據市場咨詢公司ABI Research的數據，預計到2025年，邊緣AI芯片市場收入將達到122億美元，云端AI芯片市場收入將達到119億美元，邊緣AI芯片市場將超過云端AI芯片市場。

憑借強大的軟硬件生態系統，NVIDIA和Intel依舊會是AI市場的重要玩家，只是隨著他們競爭力的不斷提升，其他參與AI市場競爭的AI芯片公司們面臨的壓力也隨之增加。
責任編輯：PSY

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5188

瀏覽量
105444
gpu

gpu

+關注

關注
28

文章
4882

瀏覽量
130404

如何在Ollama中使用OpenVINO后端

/GPU/NPU）為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調用流程，還顯著提升了推理性能，特別適合需要高性能和易用性的場景。

發表于 04-14 10:22 ?206次閱讀

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

NVIDIA Dynamo 提高了推理性能，同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本；在 NVIDIA Blackwell 上的推理優化

發表于 03-20 15:03 ?507次閱讀

從零復現，全面開源：360 Light-R1-14B/7B帶來端側AI平權時刻

14B開源颶風，360掀起端側推理性能革命

發表于 03-16 10:47 ?379次閱讀

無法調用GPU插件推理的遠程張量API怎么解決?

運行了使用 GPU 插件的遠程張量 API 的推理。但是，它未能共享 OpenCL* 內存，但結果不正確。

發表于 03-06 06:13

英特爾至強6助力HPE Gen12，AI推理性能提升3倍！

在這個AI人工智能、HPC高性能計算飛速發展的時代，人們對于算力的渴望是空前的，無論是CPU處理器、GPU/NPU加速器，尤其是生成式AI的火爆，GPU/NPU被抬上了空前的超高地位。

發表于 02-18 14:18 ?233次閱讀

英特爾至強6助力HPE Gen12，AI<b class='flag-5'>推理性能</b>提升3<b class='flag-5'>倍</b>！

英偉達A100和H100比較

英偉達A100和H100都是針對高性能計算和人工智能任務設計的GPU，但在性能和特性上存在顯著差異。以下是對這兩款

發表于 02-10 17:05 ?2915次閱讀

英偉達<b class='flag-5'>A100</b>和H<b class='flag-5'>100</b>比較

使用NVIDIA推理平臺提高AI推理性能

NVIDIA推理平臺提高了 AI 推理性能，為零售、電信等行業節省了數百萬美元。

發表于 02-08 09:59 ?530次閱讀

使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發揮出卓越的推理性能。

發表于 12-17 17:47 ?601次閱讀

AMD與NVIDIA GPU優缺點

在圖形處理單元（GPU）市場，AMD和NVIDIA是兩大主要的競爭者，它們各自推出的產品在性能、功耗、價格等方面都有著不同的特點和優勢。一、性能

發表于 10-27 11:15 ?1861次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

近期，第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試（AISBench）。英特爾成為首批通過AISBench大語言模型（LLM）推理性能測試的企業

發表于 09-06 15:33 ?616次閱讀

IB Verbs和NVIDIA DOCA GPUNetIO性能測試

NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一個庫，專門為實時在線 GPU 數據包處理而設計。它結合了 GPUDirect RDMA 和 GPUDirect

發表于 08-23 17:03 ?1036次閱讀

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，提高了大模型產業應用效率，更大規模地釋放大模型的應用價值。”

發表于 08-23 15:48 ?792次閱讀

基于 ARM Cortex M0+內核BAT32A237芯片

組合開關方案性能特點：主芯片BAT32A237可靠性標準參考AEC-Q100 Grade 1級別使用LN總線與主機通信，支持休眠喚醒燈光開關輸入檢測轉向開關輸入檢測雨刮開關輸入檢測洗滌開關輸入檢

發表于 07-31 16:07

Flow Computing引領CPU性能革命:PPU技術實現百倍性能提升

在科技日新月異的今天，芬蘭的一家科技初創公司Flow Computing以其革命性的技術突破，再次讓全球科技界為之震撼。近日，該公司宣布其研發的并行處理單元（PPU）成功實現了對任何CPU架構性能高達100

發表于 06-14 14:34 ?1596次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

架構在高性能計算方面的應用有哪些？ **1. **人工智能訓練和推理 Blackwell 架構的 GPU 核心在訓練性能上相較前代 Hopper H

發表于 05-13 17:16

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA A100 GPU推理性能237倍碾壓CPU

評論

如何在Ollama中使用OpenVINO后端

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

從零復現，全面開源：360 Light-R1-14B/7B帶來端側AI平權時刻

無法調用GPU插件推理的遠程張量API怎么解決?

英特爾至強6助力HPE Gen12，AI推理性能提升3倍！

英偉達A100和H100比較

使用NVIDIA推理平臺提高AI推理性能

解鎖NVIDIA TensorRT-LLM的卓越性能

AMD與NVIDIA GPU優缺點

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

IB Verbs和NVIDIA DOCA GPUNetIO性能測試

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

基于 ARM Cortex M0+內核BAT32A237芯片

Flow Computing引領CPU性能革命:PPU技術實現百倍性能提升

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片