在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能引發(fā)的圖像分類算法

454398 ? 來源:賽靈思 ? 作者:Quenton Hall ? 2020-11-16 16:40 ? 次閱讀

作者:Quenton Hall,賽靈思公司工業(yè)、視覺、醫(yī)療及科學市場的 AI 系統(tǒng)架構(gòu)師

在上一篇文章中,我們簡要介紹了更高層次的問題,這些問題為優(yōu)化加速器的需求奠定了基礎(chǔ)。作為一個尖銳的問題提醒,現(xiàn)在讓我們通過一個非常簡單的圖像分類算法,來看一看與之相關(guān)聯(lián)的計算成本與功耗。

利用 Mark Horowitz 提供的數(shù)據(jù)點,我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到 Mark 的能耗估計是針對 45nm 節(jié)點的,但業(yè)界專家建議,這些數(shù)據(jù)點將繼續(xù)按當前的半導體工藝尺寸進行調(diào)整。也就是說,無論工藝尺寸是 45nm 還是 16nm,與 FP32 運算相比,INT8 運算的能量成本仍然低一個數(shù)量級。

人工智能引發(fā)能源問題,我們該怎么辦?
數(shù)據(jù)來源:Bill Dally(斯坦福),Cadence 嵌入式神經(jīng)網(wǎng)絡(luò)峰會,2017 年 2 月 1 日

功耗可按以下方式進行計算:

功耗 = 能量(J)/運算*運算/s

從這個等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執(zhí)行特定運算所需的功耗,要么減少運算的次數(shù),或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個目標。ResNet 提供了近乎最先進的圖像分類性能,同時與眾多具有類似性能的可比網(wǎng)絡(luò)相比,它所需的參數(shù)(權(quán)重)更少,這便是它的另一大優(yōu)勢。

為了部署 ResNet50,我們每次推斷必須大約 77 億運算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產(chǎn)生 7.7 * 10E9 的“計算成本”。

現(xiàn)在,讓我們考慮一個相對高容量的推斷應(yīng)用,在該應(yīng)用中,我們可能希望每秒對 1000 幅圖像進行分類。堅持沿用 Mark 的 45nm 能量估算,我們得出以下結(jié)論:

功耗 = 4pJ + 0.4pJ/運算*7.7B運算/圖像 * 1000圖像/s

= 33.88W

作為創(chuàng)新的第一維度,我們可以將網(wǎng)絡(luò)從 FP32 量化到 8 位整數(shù)運算。這將功耗降低了一個數(shù)量級以上。雖然在訓練期間 FP32 的精度有利于反向傳輸,但它在像素數(shù)據(jù)的推斷時間幾乎沒有創(chuàng)造價值。大量研究和論文已經(jīng)表明,在眾多應(yīng)用中,可以分析每一層的權(quán)重分布并對該分布進行量化,同時將預量化的預測精度保持在非常合理的范圍內(nèi)。

此外,量化研究還表明,8 位整數(shù)值對于像素數(shù)據(jù)來說是很好的“通用”解決方案,并且對于典型網(wǎng)絡(luò)的許多內(nèi)層,可以將其量化到 3-4 位,而在預測精度上損失最小。由 Michaela Blott 領(lǐng)導的賽靈思研究實驗室團隊多年來一直致力于二進制神經(jīng)網(wǎng)絡(luò) (BNN) 的研究與部署,并取得了一些令人矚目的成果。(如需了解更多信息,請查看 FINN 和 PYNQ)

如今,我們與DNNDK的重點是將網(wǎng)絡(luò)推斷量化至 INT8。現(xiàn)代賽靈思 FPGA 中的單個 DSP 片可以在單個時鐘周期內(nèi)計算兩個 8 位乘法運算,這并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我們擁有超過 15 種不同的器件變型,從數(shù)百個 DSP 片擴展到數(shù)千個 DSP 片,同時保持應(yīng)用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值為 891MHz。因此,中型 MPSoC 器件是功能強大的計算加速器。

現(xiàn)在,讓我們考慮一下從 FP32 遷移到 INT8 的數(shù)學含義:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像*1000圖像/s

= 1.771W

Mark 在演講中,提出了一個解決計算效率問題的方法,那就是使用專門構(gòu)建的專用加速器。他的觀點適用于機器學習推斷。

上述分析沒有考慮到的是,我們還將看到 FP32 的外部 DDR 流量至少減少四倍。正如您可能預料到的那樣,與外部存儲器訪問相關(guān)的功耗成本比內(nèi)部存儲器高得多,這也是事實。如果我們簡單地利用 Mark 的數(shù)據(jù)點,我們會發(fā)現(xiàn)訪問 DRAM 的能量成本大約是 1.3-2.6nJ,而訪問 L1 存儲器的能量成本可能是 10-100pJ。看起來,與訪問內(nèi)部存儲器(如賽靈思 SoC 中發(fā)現(xiàn)的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 訪問的能量成本至少高出一個數(shù)量級。

除了量化所提供的優(yōu)勢以外,我們還可以使用網(wǎng)絡(luò)剪枝技術(shù)來減少推斷所需的計算工作負載。使用賽靈思Vitis AI 優(yōu)化器工具,可以將在 ILSCVR2012(ImageNet 1000 類)上訓練的圖像分類模型的計算工作負載減少 30-40%,精度損失不到 1%。再者,如果我們減少預測類的數(shù)量,我們可以進一步增加這些性能提升。現(xiàn)實情況是,大多數(shù)現(xiàn)實中的圖像分類網(wǎng)絡(luò)都是在有限數(shù)量的類別上進行訓練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個經(jīng)過剪枝的 VGG-SSD 實現(xiàn)方案在四個類別上進行訓練,需要 17 個 GOP(與原始網(wǎng)絡(luò)需要 117 個 GOP 相比),在精度上沒有損失!誰說 VGG 沒有內(nèi)存效率?

然而,如果我們簡單地假設(shè)我們在 ILSCVR2012 上訓練我們的分類器,我們發(fā)現(xiàn)我們通常可以通過剪枝減少大約 30% 的計算工作負載。考慮到這一點,我們得出以下結(jié)論:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像0.7*1000圖像/s

= 1.2397W

將此值與 FP32 推斷的原始估計值 33.88W 進行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個重要的優(yōu)化機會。因此,當我們繼續(xù)尋找遙遙無期的“解決計算飽和的靈丹妙藥”時,考慮一下吳恩達斷言“AI 是新電能”的背景。我認為他并不是在建議 AI 需要更多的電能,只是想表明 AI 具有極高的價值和巨大的影響力。所以,讓我們對 ML 推斷保持冷靜的頭腦。對待機器學習推斷應(yīng)保持冷靜思考,既不必貿(mào)然跟風,也無需針對高性能推斷設(shè)計采用液態(tài)冷卻散熱。

在本文的第三篇中我們還將就專門構(gòu)建的“高效”神經(jīng)網(wǎng)絡(luò)模型的使用以及如何在賽靈思應(yīng)用中利用它們來實現(xiàn)更大的效率增益進行討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    555

    文章

    8148

    瀏覽量

    355468
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4810

    瀏覽量

    102901
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34391

    瀏覽量

    275634
  • 半導體工藝
    +關(guān)注

    關(guān)注

    19

    文章

    107

    瀏覽量

    26599
  • MPSoC
    +關(guān)注

    關(guān)注

    0

    文章

    200

    瀏覽量

    24633
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    【每天學點AI】實戰(zhàn)圖像增強技術(shù)在人工智能圖像處理中的應(yīng)用

    圖像增強(ImageEnhancement)是人工智能和計算機視覺中一項重要的技術(shù),也是人工智能數(shù)據(jù)集預處理的一個重要步驟。它旨在提高圖像的質(zhì)量,使其在視覺上更加清晰、細節(jié)更豐富。這項
    的頭像 發(fā)表于 11-22 17:14 ?1582次閱讀
    【每天學點AI】實戰(zhàn)<b class='flag-5'>圖像</b>增強技術(shù)在<b class='flag-5'>人工智能</b><b class='flag-5'>圖像</b>處理中的應(yīng)用

    嵌入式和人工智能究竟是什么關(guān)系?

    應(yīng)用場景。例如,在智能家居領(lǐng)域,嵌入式系統(tǒng)可以控制各種智能設(shè)備,如智能燈泡、智能空調(diào)等,而人工智能則可以實現(xiàn)對這些設(shè)備的
    發(fā)表于 11-14 16:39

    FPGA應(yīng)用于人工智能的趨勢

    高速和低功耗 : FPGA通過優(yōu)化硬件結(jié)構(gòu)和算法實現(xiàn),能夠在處理復雜的人工智能任務(wù)時保持高速和低功耗,這對于資源有限的嵌入式系統(tǒng)和移動設(shè)備尤為重要。 靈活性 : FPGA的可編程性使得它能夠根據(jù)特定的需求進行定制化設(shè)計,適應(yīng)不同的算法
    的頭像 發(fā)表于 10-25 09:20 ?1799次閱讀

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第6章人AI與能源科學讀后感

    了電力的實時平衡和優(yōu)化,有效降低了電網(wǎng)的運行成本和故障率。 此外,書中還討論了人工智能在能源科學研究中的挑戰(zhàn)和機遇。這些挑戰(zhàn)包括數(shù)據(jù)質(zhì)量、算法優(yōu)化、隱私保護等方面,而機遇則體現(xiàn)在技術(shù)創(chuàng)新、產(chǎn)業(yè)升級
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    很幸運社區(qū)給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章關(guān)于AI與生命科學的部分,為我們揭示了人工智能技術(shù)在生命科學領(lǐng)域中的廣泛應(yīng)用和深遠影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

    ,還促進了新理論、新技術(shù)的誕生。 3. 挑戰(zhàn)與機遇并存 盡管人工智能為科學創(chuàng)新帶來了巨大潛力,但第一章也誠實地討論了伴隨而來的挑戰(zhàn)。數(shù)據(jù)隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點。以下是對RISC-V在人工智能圖像處理應(yīng)用前景的詳細分析: 一、RISC-V的基本特點
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結(jié)經(jīng)驗,擬按照要求準備相關(guān)體會材料。看能否有助于入門和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能三要素(數(shù)據(jù)、算法、算力)出發(fā),對AI for Science的技術(shù)支撐進行解讀。 第3章介紹了在
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領(lǐng)域集產(chǎn)品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    圖像識別屬于人工智能

    的過程。它涉及到圖像的獲取、預處理、特征提取、分類和識別等多個環(huán)節(jié)。 1.2 重要性 圖像識別技術(shù)在人工智能領(lǐng)域具有重要的地位,它使計算機能夠“看”和“理解”
    的頭像 發(fā)表于 07-16 10:44 ?1897次閱讀

    機器視覺和人工智能的關(guān)系與應(yīng)用

    釋視覺信息的技術(shù)。它涉及到圖像的獲取、處理、分析和解釋,以實現(xiàn)對物體、場景和事件的識別、定位、測量和分類。機器視覺系統(tǒng)通常由圖像采集設(shè)備、圖像處理軟件和執(zhí)行器組成,可以應(yīng)用于各種自動化
    的頭像 發(fā)表于 07-16 10:27 ?1511次閱讀

    人工智能在軍事方面的應(yīng)用

    智慧華盛恒輝人工智能在軍事方面的應(yīng)用廣泛且深入,主要包括以下幾個方面: 智慧華盛恒輝一、作戰(zhàn)效能提升 自動目標識別與跟蹤: 人工智能系統(tǒng)能夠在復雜環(huán)境中準確識別和跟蹤目標,提高作戰(zhàn)效率。利用圖像
    的頭像 發(fā)表于 07-16 09:52 ?1108次閱讀
    主站蜘蛛池模板: 国产综合第一页在线视频 | 8000av在线 | 一区精品视频 | 午夜在线观看网站 | 视频在线色| 国产高清色视频免费看的网址 | 教官的好爽好深h片段 | 成人欧美网站 | a级精品九九九大片免费看 a级毛毛片看久久 | 国产色视频网站 | 国模大尺度酒店私拍视频拍拍 | 看毛片网| 精品久久久久久午夜 | 成年人午夜影院 | 69日本xxxxhd| 青楼社区51在线视频视频 | 天天爱夜夜做 | 欧美黑人巨大xxxx猛交 | 天堂中文在线观看 | 欧美深夜| 免费又黄又爽的禁片视频 | 噜噜噜狠狠夜夜躁 | 女性一级全黄生活片免费看 | 亚洲高清美女一区二区三区 | 立即播放免费毛片一级 | 亚洲免费视频一区 | 婷婷综合网站 | 伊人久久99 | 欧美tube6最新69 | 日日操天天操夜夜操 | 久久这里只有精品任你色 | 欧美成人精品久久精品 | 欧美jizzhd精品欧美4k | 国产在线欧美精品卡通动漫 | 性生交大片免费一级 | 亚洲精品美女久久久aaa | 婷婷丁香综合 | 麻豆美女大尺度啪啪 | 在线观看视频一区 | 日本加勒比黑人 | 十三以下岁女子毛片免费播放 |