在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達地位不保?BERT訓練吞吐量提升4.7倍

lPCU_elecfans ? 來源:電子發燒友網 ? 作者:電子發燒友網 ? 2022-07-06 11:08 ? 次閱讀

電子發燒友網報道(文/周凱揚)推理和訓練作為AI/ML關鍵的一環,無論是通用的GPU,還是專用的推理/訓練加速器,都想在各大流行模型和機器學習庫上跑出優秀的成績,以展示自己的硬件實力。業界需要一個統一的跑分標準,為此,各大廠商在2018年根據業內指標聯合打造的MLPerf就承擔了這一重任。

不過隨著時間的推移,MLPerf幾乎已經成了英偉達一家獨大的跑分基準,這家GPU廠商憑借自己的產品幾乎統治著整個AI硬件市場。這不,近日公布的MLPerf Training 2.0,就將這些AI硬件公司和服務器廠商提交的具體AI訓練成績公布了出來,其中既有一些新晉成員,也有一些出人意料的結果。

谷歌的反超這次跑分結果中,最驚艷的還是谷歌的TPU v4系統,谷歌憑借這一架構的系統,在五個基準測試中都打破了性能記錄,平均訓練速度比第二名的英偉達A100系統快了1.42倍左右,哪怕是與自己在1.0測試下的成績相比,也提升了1.5倍。

能實現這樣的成績自然離不開谷歌自己的TPU芯片設計,谷歌的每個TPU v4 Pod都由4096個芯片組成,且帶寬做到了6Tbps。除此之外,谷歌有著豐富的用例經驗,相較其他公司而言,谷歌是唯一一個在搜索和視頻領域都已經大規模普及AI/ML應用的。

00f1a358-fcb8-11ec-ba43-dac502259ad0.png

TPU v4與A100的對比 / 谷歌

不過谷歌與英偉達并不是直接競爭關系,他們對標的還是使用英偉達GPU系統的云服務公司,比如微軟的Azure,谷歌也為此特地做了成本對比。如上圖所示,在BERT模型的訓練中,4096個TPU v4芯片與Azure 4096個A100芯片對比,谷歌的方案可以節省35%,ResNet模型的訓練下更是可以節省近50%。

不過以上的成績在所有8項測試中也只是和英偉達平分秋色,而且隨著系統規模的不同,其結果或許會有更多的變化。再者,谷歌的TPU僅限于其自己的云服務,所以總的來說并不算一個通用方案,至少微軟和亞馬遜這樣的競爭對手肯定是用不上。

英偉達地位不保?除了谷歌之外,還取得了不錯的成績的就是英特爾旗下Habana Labs的Gaudi2訓練加速器。這款今年5月推出的處理器,從上一代的16nm換成了臺積電7nm,Tensor處理器內核的數量因此增加了兩倍,使其在ResNet-50的訓練吞吐量上實現了3倍提升,BERT的訓練吞吐量提升了4.7倍。

在與英偉達提交的A100-80GB GPU系統成績相比,Gaudi2在ResNet-50上的訓練時間縮短了36%;與戴爾提交的A100-40GB GPU系統成績相比,Gaudi2在BERT上的訓練時間縮短了45%。

從結果來看,已經有不少廠商的AI硬件已經可以在訓練上對標甚至超過英偉達的GPU生態了,但這并不代表全部機器學習訓練領域。比如在測試中,廠商是不需要將每個項目的測試結果都提交上去的。從這個角度來看,RetinaNet輕量型目標檢測、COCO重型目標檢測、語音識別數據集Librispeech和強化學習Minigo這幾個項目中,只有基于英偉達GPU的系統提交了成績。

不僅如此,如果你看所有提交成績的服務器和云服務公司來看,他們用到的CPU或是AMD的EPYC處理器,或是英特爾的Xeon處理器,但加速器卻是幾乎清一色的英偉達A100。這也證明了在百度、戴爾、H3C、浪潮和聯想這些廠商的眼中,英偉達的GPU依然是最具競爭力的那個。

不可小覷的軟件還有一點需要指出,那就是以上都是封閉組的成績,他們所用到的都是標準的機器學習庫,比如TensorFlow 2.8.0和Pytorch 22.04等。而開放組則不受此限制,可以用到他們自己定制的庫或優化器,這一組中三星和Graphcore都根據不同的軟件配置提交了成績,但最亮眼的還是MosaicML。

01187fc8-fcb8-11ec-ba43-dac502259ad0.png

Composer在ResNet-50下的訓練時間對比 / MosaicML

這家公司所用的加速器硬件同樣是和諸多提交者一樣的英偉達A100-SXM-80GB GPU,但他們用到的是自己用Pytorch編寫的庫Composer。這家公司于今年4月推出了Composer,并聲稱可讓模型訓練速度提升2到4倍。在MLPerf Training 2.0的跑分中,使用MosaicML Composer的對比組在ResNet訓練速度上實現了近4.6倍的提升。不過Composer雖說支持任何模型,但這個提速的表現目前還是體現在ResNet上比較明顯,所以本次也并沒有提交其他模型下的成績。

考慮到英特爾等公司為了提升其軟件開發實力,已經在收購Codeplay這樣的軟件開發公司,MosaicML作為剛公開不久的初創公司,創始人又是英特爾的前AI實驗室骨干,如果能在未來展現出更優秀的成績,說不定也會被英偉達這樣的公司看中。

結語英偉達常年在MLPerf上霸榜,也有不少人認為MLPerf跑分成了英偉達的宣傳工具,然而事實是英特爾、谷歌等同樣重視AI的公司也將其視為一個公平的基準測試,而且MLPerf還有同行評審環節,進一步驗證測試結果。從以上結果來看,AI訓練硬件上的創新仍未停止,無論是GPU、TPU還是IPU都在推陳出新,但跑分結果并不代表任何用例都能達到高性能,還需要廠商自己去調校模型和軟件才能達成最好的成績。

原文標題:AI硬件反超英偉達?跑分來看尚不現實

文章出處:【微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6219

    瀏覽量

    107224
  • 機器學習
    +關注

    關注

    66

    文章

    8481

    瀏覽量

    133880
  • TPU
    TPU
    +關注

    關注

    0

    文章

    151

    瀏覽量

    21034
  • 英偉達
    +關注

    關注

    22

    文章

    3902

    瀏覽量

    92934

原文標題:AI硬件反超英偉達?跑分來看尚不現實

文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    數據吞吐量提升!面向下一代音頻設備,藍牙HDT、星閃、Wi-Fi、UWB同臺競技

    電子發燒友網報道(文/莫婷婷)音頻設備數據吞吐量提升是當前無線通信領域的一個重要發展趨勢,藍牙、Wi-Fi和UWB作為三種主要的無線通信技術,在這一趨勢中扮演著關鍵角色。 ? 數據吞吐量指的是在
    的頭像 發表于 12-25 01:22 ?2645次閱讀

    新思科技攜手英偉加速芯片設計,提升芯片電子設計自動化效率

    宣布在英偉 Grace Blackwell 平臺上實現高達 30 的預期性能提升,加速下一代半導體的電路仿真 ? 摘要: 在今年GTC主題演講中,新思科技作為生態系統的一部分,展示
    發表于 03-19 17:59 ?176次閱讀

    英偉發布Nemotron-CC大型AI訓練數據庫

    ,Nemotron-CC數據庫總計包含了驚人的6.3萬億個Token,其中1.9萬億為精心合成的數據。這一龐大的數據不僅為AI模型的訓練提供了豐富的素材,更為學術界和企業界在探索大語言模型領域時提供了強有力的支持。 英偉
    的頭像 發表于 01-14 14:14 ?356次閱讀

    ADC芯片的采樣率為100MSPS,位寬16位,那么吞吐量是多少?

    例如ADC芯片的采樣率為100MSPS,位寬16位,那么吞吐量是多少? 用差分LVDS和FPGA相連,FPGA的時鐘速率多少能夠滿足要求/?
    發表于 12-18 08:49

    英偉推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統的Transformer架構,nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20。這一顯著的性能提升,無疑將極大地推動AI技術
    的頭像 發表于 10-23 11:30 ?692次閱讀

    TMS320VC5510 HPI吞吐量和優化

    電子發燒友網站提供《TMS320VC5510 HPI吞吐量和優化.pdf》資料免費下載
    發表于 10-16 09:35 ?0次下載
    TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和優化

    TMS320C6474模塊吞吐量

    電子發燒友網站提供《TMS320C6474模塊吞吐量.pdf》資料免費下載
    發表于 10-15 13:52 ?0次下載
    TMS320C6474模塊<b class='flag-5'>吞吐量</b>

    TMS320C6474通用總線架構(CBA)吞吐量

    電子發燒友網站提供《TMS320C6474通用總線架構(CBA)吞吐量.pdf》資料免費下載
    發表于 10-15 10:29 ?0次下載
    TMS320C6474通用總線架構(CBA)<b class='flag-5'>吞吐量</b>

    TMS320DM36x SoC架構和吞吐量

    電子發燒友網站提供《TMS320DM36x SoC架構和吞吐量.pdf》資料免費下載
    發表于 10-14 10:51 ?0次下載
    TMS320DM36x SoC架構和<b class='flag-5'>吞吐量</b>

    TMS320C6472/TMS320TCI6486的吞吐量應用程序報告

    電子發燒友網站提供《TMS320C6472/TMS320TCI6486的吞吐量應用程序報告.pdf》資料免費下載
    發表于 10-14 09:27 ?0次下載
    TMS320C6472/TMS320TCI6486的<b class='flag-5'>吞吐量</b>應用程序報告

    英偉股價一個月內上漲25%

    看好英偉公司的潛力,認為英偉公司的芯片產品供不應求的現象還會長期持續下去,英偉將長期在數據
    的頭像 發表于 10-11 15:23 ?716次閱讀

    求助,關于使用iperf測量mesh節點吞吐量問題求解

    我把esp-mesh-lite的no-route例程和iperf例程合在一起,想測試兩個mesh節點間tcp通信的吞吐量,實際過程中一開始流量正常,數秒后客戶端發數據這邊monitor卡死沒有任何
    發表于 07-23 06:59

    用Iperf例程測試ESP32-C6的TCP通信,吞吐量很低的原因?

    為什么我用官網的Iperf例程測試ESP32-C6的TCP通信,吞吐量才0.33Mbps
    發表于 06-06 07:47

    英偉靜候新品來臨,亞馬遜暫緩購買Grace Hopper

    今年3月,英偉發布了全新的Blackwell處理器,距離前任產品Hopper的發布不過短短一年。英偉首席執行官黃仁勛表示,新款產品在訓練
    的頭像 發表于 05-22 09:07 ?475次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    30 ,能源效率提高了 25 。這些提升使得它能夠更快地處理大規模的人工智能任務,加速模型的訓練和推理過程。 **2. **超級計算機 英偉
    發表于 05-13 17:16
    主站蜘蛛池模板: 午夜在线视频观看 | 欧美xxxx色视频在线观看免费 | 成人午夜免费剧场 | 久久久午夜视频 | 亚洲国产成人精品青青草原100 | 18免费视频 | 五月天婷婷导航 | 欧美资源在线 | 亚洲男人的天堂在线观看 | 人成网站在线观看 | 国产精品久久久精品视频 | 麻豆国产三级在线观看 | 五月综合色婷婷影院在线观看 | 国产va精品免费观看 | 欧美激情综合亚洲五月蜜桃 | 天天做天天做天天综合网 | 久久综合亚洲 | 亚洲一区三区 | 日本成人免费 | h免费在线观看 | 国产 麻豆 | 日本电影在线观看黄 | 久久天天躁狠狠躁夜夜免费观看 | 午夜片 飘香香影院 | 欧洲国产精品精华液 | mmmxxx69日本 | 四虎影院永久地址 | 伊人蕉久 | 国语自产拍在线观看7m | 奇米影视一区 | 84pao强力永久免费高清 | 老湿影院免费体验区 | 2021国产精品自在拍在线播放 | 久久这里精品青草免费 | h视频在线免费看 | 色播.com| 天天干天天操天天玩 | 午夜传媒| 亚洲欧美网 | 99pao在线视频精品免费 | 久插视频|