在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU

GLeX_murata_eet ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-08-13 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU,通過機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則,以離線場(chǎng)景下每秒處理107.8萬(wàn)張圖片的成績(jī),打破MLPerf 1.0推理性能測(cè)試紀(jì)錄。

阿里云自研震旦異構(gòu)計(jì)算加速平臺(tái),適配GPU、ASIC等多種異構(gòu)AI芯片,優(yōu)化編譯代碼,深挖和釋放異構(gòu)芯片算力,支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架,可實(shí)現(xiàn)AI框架及算法的無(wú)縫遷移適配,支持云變端多場(chǎng)景快速部署,大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測(cè)試結(jié)果1.0版中,震旦異構(gòu)計(jì)算加速平臺(tái),基于8卡NVIDIA A100 GPU配置上性能奪魁,在開放規(guī)則的離線場(chǎng)景下取得每秒處理107.8萬(wàn)張圖片的成績(jī)。

首先在頂層算法模型上,使用基于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的模型設(shè)計(jì)方式,這種方式可以獲得比人工設(shè)計(jì)更高效的模型。震旦基于MIT的先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強(qiáng)化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò);之后通過INT8量化獲得硬件加速繼續(xù)提高性能,并在量化前進(jìn)行深度重訓(xùn)練,以保證量化后的精度能夠達(dá)到測(cè)試的精度要求。

IRB即反轉(zhuǎn)殘差塊(Inverted Residual Block),是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個(gè)反轉(zhuǎn)殘差塊包括三層卷積算子,圖上反轉(zhuǎn)殘差塊的長(zhǎng)度代表了該塊的輸出channel數(shù)量。

一般機(jī)器學(xué)習(xí)框架的算子實(shí)現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu),而對(duì)于NAS的反轉(zhuǎn)殘差塊則效率不佳,震旦使用了基于自動(dòng)調(diào)優(yōu)的大規(guī)模算子融合技術(shù),大幅提高了推理時(shí)算子對(duì)GPU的利用率,并且可根據(jù)不同的架構(gòu)自動(dòng)調(diào)優(yōu)到最佳算子實(shí)現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力,例如對(duì)于A100上通過MIG(多實(shí)例GPU)技術(shù)產(chǎn)生的具有不同計(jì)算資源的GPU實(shí)例,震旦算子優(yōu)化技術(shù)可以通過自動(dòng)調(diào)優(yōu)來(lái)進(jìn)一步提升計(jì)算資源利用率。

打破紀(jì)錄的背后,在硬件平臺(tái)上也得益于NVIDIA A100 GPU 強(qiáng)大的算力支持,近5倍于上一代的INT8性能使得超越百萬(wàn)級(jí)性能成為可能。另外,NVIDIA GPU的通用性,即通過CUDA直接對(duì)硬件編程,使得用戶可以針對(duì)其特有的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行定制優(yōu)化,這讓震旦基于GPU的自動(dòng)算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實(shí)。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存,從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測(cè)試結(jié)果1.0版本圖像分類性能測(cè)試中,阿里云震旦異構(gòu)計(jì)算加速平臺(tái),基于NVIDIA A100 GPU平臺(tái)和開放規(guī)則,在離線場(chǎng)景下以每秒處理107.8萬(wàn)張圖片的成績(jī),打破了此前谷歌保持的絕對(duì)性能榜單的世界紀(jì)錄。這也是阿里在通用GPU平臺(tái)第一次取得100萬(wàn)+這樣的成績(jī)。

此次阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA通用GPU硬件,通過機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA GPU單卡性能。無(wú)論是新推出的A100和A10,還是已面市3年的T4,都帶來(lái)了單卡性能的大幅提升。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1245

    瀏覽量

    122228
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4930

    瀏覽量

    131003
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1980

    瀏覽量

    35812

原文標(biāo)題:NVIDIA A100 GPU助力阿里云打破MLPerf推理性能測(cè)試紀(jì)錄

文章出處:【微信號(hào):murata-eetrend,微信公眾號(hào):murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu))

    異構(gòu)計(jì)算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì) 異構(gòu)處理
    的頭像 發(fā)表于 06-23 07:40 ?134次閱讀

    如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號(hào),消息框發(fā)送【異構(gòu)計(jì)算】,即可
    的頭像 發(fā)表于 06-13 08:33 ?327次閱讀
    如何釋放<b class='flag-5'>異構(gòu)計(jì)算</b>的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對(duì)不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?2682次閱讀

    GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)

    傳統(tǒng)的CPU雖然在日常計(jì)算任務(wù)中表現(xiàn)出色,但在面對(duì)大規(guī)模并行計(jì)算需求時(shí),其性能往往捉襟見肘。而GPU加速計(jì)算
    的頭像 發(fā)表于 02-23 16:16 ?406次閱讀

    RK3399處理器:高性能多核異構(gòu)計(jì)算平臺(tái)

    RK3399是一款高性能的多核異構(gòu)計(jì)算平臺(tái),集成了強(qiáng)大的CPU、GPU以及豐富的多媒體和接口功能。其獨(dú)特的雙Cortex-A72+四Cortex-A53大小核CPU結(jié)構(gòu),使得RK3399在處理復(fù)雜
    的頭像 發(fā)表于 02-08 18:04 ?1460次閱讀

    利用NVIDIA DPF引領(lǐng)DPU加速計(jì)算的未來(lái)

    越來(lái)越多的企業(yè)開始采用加速計(jì)算,從而滿足生成式 AI、5G 電信和主權(quán)的需求。NVIDIA 推出了 DOCA 平臺(tái)框架(DPF),該框架提
    的頭像 發(fā)表于 01-24 09:29 ?661次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領(lǐng)DPU<b class='flag-5'>加速</b><b class='flag-5'>云</b><b class='flag-5'>計(jì)算</b>的未來(lái)

    異構(gòu)計(jì)算的概念、核心、優(yōu)勢(shì)、挑戰(zhàn)及考慮因素

    異構(gòu)計(jì)算就像是一支由“多才多藝”處理器組成的團(tuán)隊(duì),每個(gè)成員都有自己的強(qiáng)項(xiàng)和責(zé)任。 ? 什么是異構(gòu)計(jì)算????? “異構(gòu)計(jì)算”指的是在同一個(gè)計(jì)算平臺(tái)
    的頭像 發(fā)表于 01-13 11:43 ?952次閱讀

    GPU加速服務(wù)器怎么用的

    GPU加速服務(wù)器是將GPU硬件與計(jì)算服務(wù)相結(jié)合,通過
    的頭像 發(fā)表于 12-26 11:58 ?429次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    【一文看懂】什么是異構(gòu)計(jì)算

    隨著人工智能、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)的快速發(fā)展,計(jì)算需求的復(fù)雜性不斷提升。傳統(tǒng)的單一計(jì)算架構(gòu)已難以滿足高效處理復(fù)雜任務(wù)的要求,異構(gòu)計(jì)算因此應(yīng)運(yùn)而生,成為現(xiàn)代計(jì)算領(lǐng)域的一個(gè)重要方向。
    的頭像 發(fā)表于 12-04 01:06 ?2698次閱讀
    【一文看懂】什么是<b class='flag-5'>異構(gòu)計(jì)算</b>?

    詳解Arm計(jì)算平臺(tái)的優(yōu)勢(shì)

    對(duì)于人工智能 (AI) 而言,任何單一硬件或計(jì)算組件都無(wú)法成為適合各類工作負(fù)載的萬(wàn)能解決方案。AI 貫穿從云端到邊緣側(cè)的整個(gè)現(xiàn)代計(jì)算領(lǐng)域,為了滿足不同的 AI 用例和需求,一個(gè)可以靈活使用 CPU、GPU 和 NPU 等不同
    的頭像 發(fā)表于 12-03 16:53 ?854次閱讀

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對(duì)卷積核優(yōu)化的思考。 GPU的存儲(chǔ)體系采用了獨(dú)特的倒金字塔結(jié)構(gòu),在我看來(lái)這是其計(jì)算性能的關(guān)鍵。大容量寄存器設(shè)計(jì)破解了傳統(tǒng)馮諾依曼架構(gòu)的內(nèi)存瓶頸,合并訪存機(jī)制巧妙解決了內(nèi)存帶寬限制。NVIDIA
    發(fā)表于 11-24 17:12

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來(lái)
    的頭像 發(fā)表于 10-25 09:23 ?573次閱讀

    打造異構(gòu)計(jì)算新標(biāo)桿!國(guó)數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計(jì)

    參考設(shè)計(jì)是首個(gè)支持異構(gòu)計(jì)算架構(gòu)的CXL硬件設(shè)備,標(biāo)志著CXL技術(shù)在數(shù)據(jù)中心領(lǐng)域迎來(lái)異構(gòu)計(jì)算新階段。 ? 國(guó)數(shù)集聯(lián)基于FPGA與自主研發(fā)的CXL協(xié)議IP的先進(jìn)特性,可實(shí)現(xiàn)CPU、GPU、DDR、SSD
    的頭像 發(fā)表于 08-06 14:19 ?646次閱讀
    打造<b class='flag-5'>異構(gòu)計(jì)算</b>新標(biāo)桿!國(guó)數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計(jì)

    異構(gòu)計(jì)算:解鎖算力潛能的新途徑

    范式,智慧地解鎖了計(jì)算潛能的新境界。異構(gòu)計(jì)算:多元并蓄的智慧之選首先,讓我們揭開異構(gòu)計(jì)算的神秘面紗。簡(jiǎn)單來(lái)說(shuō),異構(gòu)計(jì)算是指將不同類型的計(jì)算
    的頭像 發(fā)表于 07-18 08:28 ?2w次閱讀
    <b class='flag-5'>異構(gòu)計(jì)算</b>:解鎖算力潛能的新途徑
    主站蜘蛛池模板: 夜夜夜夜夜夜夜猛噜噜噜噜噜噜 | 四虎影院永久在线 | 欧美色视频日本 | 色www国产阿娇| 色香色香欲天天天影视综合网 | 国产美女激情视频 | 一区二区在线免费视频 | 特黄特a级特别特级特毛片 特黄特色大片免费播放路01 | 97视频hd | 色视频在线观看 | 天天干天天舔天天射 | 污女网站| 午夜在线视频免费 | 婷婷网址| 不卡一区在线观看 | 天天成人 | 全部在线播放免费毛片 | 色多多在线播放 | 欧美丝袜一区 | 精品一区二区三区免费爱 | 欧美一级在线观看 | 4虎影视国产在线观看精品 4虎影院永久地址www | 亚洲小便 | 色天使在线观看 | 不卡无毒免费毛片视频观看 | 天天天综合网 | 狠狠做深爱婷婷久久一区 | 久久国产精品99久久久久久老狼 | 狠狠色噜噜狠狠狠狠97不卡 | 在线免费观看毛片网站 | 人人干人 | 国产精品久久精品牛牛影视 | 亚洲国产精品久久精品怡红院 | 天堂黄网 | 性在线视频 | 伊人久久大香线蕉电影院 | 欧美午夜影院 | 亚洲国产女人aaa毛片在线 | 爱夜夜性夜夜夜夜夜夜爽 | 欧美69xx| 美女视频一区 |