在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能引發的圖像分類算法

454398 ? 來源:賽靈思 ? 作者:Quenton Hall ? 2020-11-16 16:40 ? 次閱讀

作者:Quenton Hall,賽靈思公司工業、視覺、醫療及科學市場的 AI 系統架構師

在上一篇文章中,我們簡要介紹了更高層次的問題,這些問題為優化加速器的需求奠定了基礎。作為一個尖銳的問題提醒,現在讓我們通過一個非常簡單的圖像分類算法,來看一看與之相關聯的計算成本與功耗。

利用 Mark Horowitz 提供的數據點,我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到 Mark 的能耗估計是針對 45nm 節點的,但業界專家建議,這些數據點將繼續按當前的半導體工藝尺寸進行調整。也就是說,無論工藝尺寸是 45nm 還是 16nm,與 FP32 運算相比,INT8 運算的能量成本仍然低一個數量級。

人工智能引發能源問題,我們該怎么辦?
數據來源:Bill Dally(斯坦福),Cadence 嵌入式神經網絡峰會,2017 年 2 月 1 日

功耗可按以下方式進行計算:

功耗 = 能量(J)/運算*運算/s

從這個等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執行特定運算所需的功耗,要么減少運算的次數,或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個目標。ResNet 提供了近乎最先進的圖像分類性能,同時與眾多具有類似性能的可比網絡相比,它所需的參數(權重)更少,這便是它的另一大優勢。

為了部署 ResNet50,我們每次推斷必須大約 77 億運算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產生 7.7 * 10E9 的“計算成本”。

現在,讓我們考慮一個相對高容量的推斷應用,在該應用中,我們可能希望每秒對 1000 幅圖像進行分類。堅持沿用 Mark 的 45nm 能量估算,我們得出以下結論:

功耗 = 4pJ + 0.4pJ/運算*7.7B運算/圖像 * 1000圖像/s

= 33.88W

作為創新的第一維度,我們可以將網絡從 FP32 量化到 8 位整數運算。這將功耗降低了一個數量級以上。雖然在訓練期間 FP32 的精度有利于反向傳輸,但它在像素數據的推斷時間幾乎沒有創造價值。大量研究和論文已經表明,在眾多應用中,可以分析每一層的權重分布并對該分布進行量化,同時將預量化的預測精度保持在非常合理的范圍內。

此外,量化研究還表明,8 位整數值對于像素數據來說是很好的“通用”解決方案,并且對于典型網絡的許多內層,可以將其量化到 3-4 位,而在預測精度上損失最小。由 Michaela Blott 領導的賽靈思研究實驗室團隊多年來一直致力于二進制神經網絡 (BNN) 的研究與部署,并取得了一些令人矚目的成果。(如需了解更多信息,請查看 FINN 和 PYNQ)

如今,我們與DNNDK的重點是將網絡推斷量化至 INT8。現代賽靈思 FPGA 中的單個 DSP 片可以在單個時鐘周期內計算兩個 8 位乘法運算,這并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我們擁有超過 15 種不同的器件變型,從數百個 DSP 片擴展到數千個 DSP 片,同時保持應用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值為 891MHz。因此,中型 MPSoC 器件是功能強大的計算加速器。

現在,讓我們考慮一下從 FP32 遷移到 INT8 的數學含義:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像*1000圖像/s

= 1.771W

Mark 在演講中,提出了一個解決計算效率問題的方法,那就是使用專門構建的專用加速器。他的觀點適用于機器學習推斷。

上述分析沒有考慮到的是,我們還將看到 FP32 的外部 DDR 流量至少減少四倍。正如您可能預料到的那樣,與外部存儲器訪問相關的功耗成本比內部存儲器高得多,這也是事實。如果我們簡單地利用 Mark 的數據點,我們會發現訪問 DRAM 的能量成本大約是 1.3-2.6nJ,而訪問 L1 存儲器的能量成本可能是 10-100pJ。看起來,與訪問內部存儲器(如賽靈思 SoC 中發現的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 訪問的能量成本至少高出一個數量級。

除了量化所提供的優勢以外,我們還可以使用網絡剪枝技術來減少推斷所需的計算工作負載。使用賽靈思Vitis AI 優化器工具,可以將在 ILSCVR2012(ImageNet 1000 類)上訓練的圖像分類模型的計算工作負載減少 30-40%,精度損失不到 1%。再者,如果我們減少預測類的數量,我們可以進一步增加這些性能提升。現實情況是,大多數現實中的圖像分類網絡都是在有限數量的類別上進行訓練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個經過剪枝的 VGG-SSD 實現方案在四個類別上進行訓練,需要 17 個 GOP(與原始網絡需要 117 個 GOP 相比),在精度上沒有損失!誰說 VGG 沒有內存效率?

然而,如果我們簡單地假設我們在 ILSCVR2012 上訓練我們的分類器,我們發現我們通常可以通過剪枝減少大約 30% 的計算工作負載。考慮到這一點,我們得出以下結論:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像0.7*1000圖像/s

= 1.2397W

將此值與 FP32 推斷的原始估計值 33.88W 進行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個重要的優化機會。因此,當我們繼續尋找遙遙無期的“解決計算飽和的靈丹妙藥”時,考慮一下吳恩達斷言“AI 是新電能”的背景。我認為他并不是在建議 AI 需要更多的電能,只是想表明 AI 具有極高的價值和巨大的影響力。所以,讓我們對 ML 推斷保持冷靜的頭腦。對待機器學習推斷應保持冷靜思考,既不必貿然跟風,也無需針對高性能推斷設計采用液態冷卻散熱。

在本文的第三篇中我們還將就專門構建的“高效”神經網絡模型的使用以及如何在賽靈思應用中利用它們來實現更大的效率增益進行討論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • dsp
    dsp
    +關注

    關注

    554

    文章

    8059

    瀏覽量

    350461
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101178
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270358
  • 半導體工藝
    +關注

    關注

    19

    文章

    107

    瀏覽量

    26309
  • MPSoC
    +關注

    關注

    0

    文章

    199

    瀏覽量

    24322
收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    應用場景。例如,在智能家居領域,嵌入式系統可以控制各種智能設備,如智能燈泡、智能空調等,而人工智能則可以實現對這些設備的
    發表于 11-14 16:39

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    了電力的實時平衡和優化,有效降低了電網的運行成本和故障率。 此外,書中還討論了人工智能在能源科學研究中的挑戰和機遇。這些挑戰包括數據質量、算法優化、隱私保護等方面,而機遇則體現在技術創新、產業升級
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。在
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    ,還促進了新理論、新技術的誕生。 3. 挑戰與機遇并存 盡管人工智能為科學創新帶來了巨大潛力,但第一章也誠實地討論了伴隨而來的挑戰。數據隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    RISC-V在人工智能圖像處理領域的應用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點。以下是對RISC-V在人工智能圖像處理應用前景的詳細分析: 一、RISC-V的基本特點
    發表于 09-28 11:00

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    大力發展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能三要素(數據、算法、算力)出發,對AI for Science的技術支撐進行解讀。 第3章介紹了在
    發表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產品
    發表于 08-22 15:00

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05

    圖像識別屬于人工智能

    的過程。它涉及到圖像的獲取、預處理、特征提取、分類和識別等多個環節。 1.2 重要性 圖像識別技術在人工智能領域具有重要的地位,它使計算機能夠“看”和“理解”
    的頭像 發表于 07-16 10:44 ?1334次閱讀

    機器視覺和人工智能的關系與應用

    釋視覺信息的技術。它涉及到圖像的獲取、處理、分析和解釋,以實現對物體、場景和事件的識別、定位、測量和分類。機器視覺系統通常由圖像采集設備、圖像處理軟件和執行器組成,可以應用于各種自動化
    的頭像 發表于 07-16 10:27 ?1087次閱讀

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V2)

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https
    發表于 05-10 16:46

    機器學習怎么進入人工智能

    人工智能已成為一個熱門領域,涉及到多個行業和領域,例如語音識別、機器翻譯、圖像識別等。 在編程中進行人工智能的關鍵是使用機器學習算法,這是一類基于樣本數據和模型訓練來進行預測和判斷的
    的頭像 發表于 04-04 08:41 ?388次閱讀

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎知識指引
    發表于 04-01 10:40

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 在新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛在嵌入式人工智能領域布局
    發表于 02-26 10:17
    主站蜘蛛池模板: 国产视频第一页 | 国模精品 | 天堂8资源8在线 | 91p0rn永久备用地址二 | 97视频免费上传播放 | 夜夜春夜夜夜夜猛噜噜噜噜噜 | 加勒比综合网 | 啪啪激情综合 | www.天天射.com | 国产精品久久免费观看 | 农村妇女高清毛片一级 | 色站视频| 天天干夜夜添 | 国产香港日本三级在线观看 | 日本高免费观看在线播放 | 国产成年网站v片在线观看 国产成人91青青草原精品 | 欧美色图首页 | 久久精品2020| 67194最新网址 | 黄色三级网站免费 | 日本三级456 | 亚洲精品亚洲人成毛片不卡 | 国产成人高清一区二区私人 | h视频免费 | 四虎精品免费永久在线 | 55夜色66夜色国产精品站 | 欧美黑人xxxx猛牲大交 | 国产免费一区二区三区最新 | 色综合97天天综合网 | 国产三级黄色毛片 | 久久久久久天天夜夜天天 | 亚洲不卡免费视频 | 国产盗摄女子私密保健视频 | 黄在线观看在线播放720p | 久久久国产在线 | 日本不卡视频免费 | 欧美性狂猛bbbbbxxxxx | 欧美午夜性春猛交bbb | 国产黄在线观看免费观看不卡 | 四虎影院2022 | 91av视频免费在线观看 |