在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在推理引擎中去除TOPS的頂部

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀

隨著 AI 的爆炸式增長,人們開始高度關注能夠提供 AI 所需性能的新型專用推理引擎。因此,在過去的六個月里,我們看到了一系列神經推理硬件的發布,所有這些都有望提供比市場上任何其他產品更好的加速。然而,挑戰在于沒有人真正知道如何從另一個衡量一個。這是一項新技術,像任何新技術一樣,我們需要指標,我們需要真正重要的指標。

一切都與吞吐量有關

當推理引擎的性能出現時,供應商會拋出基準測試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內容。研究這些數字的系統/芯片設計人員很快意識到這些數字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT(過程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標準,但令人驚訝的是,很少有供應商提供它。

TOPS最大的問題是,當一家公司說他們的發動機做X TOPS時,他們通常會引用這個而不說明條件是什么。在不知道這些信息的情況下,他們錯誤地認為X TOPS意味著它可以執行X萬億次操作。實際上,報價 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個正在使用但不太常見的基準測試是ResNet-50。這個基準的問題在于,大多數引用它的公司都沒有給出批量大小。當他們不提供這一點時,芯片設計人員可以假設這將是一個大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準測試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現實世界”模型上將面臨更大的挑戰。

如何正確測量神經推理引擎

在評估神經推理引擎時,有幾個關鍵事項需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應商將乘法(通常為 INT 8 乘以 INT 8)計為一個運算,將累加(加法,通常為 INT 32)計為一個運算。因此,單個乘法累加等于 2 個運算。但是,一些供應商在其TOPS規范中包含其他類型的操作,因此必須在開始時進行澄清。

詢問操作條件是什么:如果供應商在沒有提供條件的情況下給出 TOPS,他們通常使用室溫、標稱電壓和典型工藝。通常他們會提到他們指的是哪個工藝節點,但不同供應商的運行速度不同,大多數工藝都提供 2、3 或更高的標稱電壓。由于性能是頻率的函數,而頻率是電壓的函數,因此芯片設計人員在0.9V下可以獲得比0.6V時兩倍以上的性能。頻率因條件/假設而異。有關此方面的更多信息,請參閱本應用筆記。

查看批量大小:即使供應商提供了最壞情況的TOPS,芯片設計人員也需要弄清楚所有這些操作是否真的有助于計算他們的神經網絡模型。實際上,實際利用率可能非常低,因為沒有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權重并同時處理多個數據集。這樣做的原因是提高吞吐量,但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個權重;YOLOv3 有超過 6000 萬個權重;并且必須獲取每個權重并將其加載到每個圖像的MAC結構中。有太多的權重,無法將它們全部駐留在 MAC 結構中。

查找您的 MAC 利用率:并非所有神經網絡的行為都相同。您需要以所需的批大小找出要部署的神經網絡模型的神經推理引擎的實際 MAC 利用率。

深入了解 TOPS

如果你是一個正在研究神經推理引擎的設計師,希望這篇文章能闡明要尋找什么。請記住,吞吐量才是最重要的。重要的是不要陷入無意義的基準測試,如TOPS和ResNet-50,除非你知道要問的事情。首先提出以下問題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開始指定條件和假設,你就會開始了解任何神經推理在現實世界中的表現。歸根結底,這才是最重要的。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    51910

    瀏覽量

    433421
  • 神經網絡
    +關注

    關注

    42

    文章

    4797

    瀏覽量

    102223
  • AI
    AI
    +關注

    關注

    87

    文章

    33503

    瀏覽量

    274069
收藏 人收藏

    評論

    相關推薦

    6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界

    ,RK3588都能快速解析復雜的8K視頻流。以交通監控為例,傳統設備處理8K分辨率的交通視頻時,往往難以實時識別車牌和行人動作,而RK3588憑借6TOPS的強大算力,不僅能夠實時解碼8K視頻,還能同步
    發表于 04-18 15:32

    OpenHarmony5.0系統怎么去除鎖屏直接進入界面?教你2步搞定

    本文介紹OpenHarmony5.0Release操作系統下,去除鎖屏開機后直接進入界面的方法。觸覺智能PurplePiOH鴻蒙開發板演示,搭載了瑞芯微RK3566四核處理器,1TOPS算力NPU
    的頭像 發表于 03-12 18:51 ?271次閱讀
    OpenHarmony5.0系統怎么<b class='flag-5'>去除</b>鎖屏直接進入界面?教你2步搞定

    使用OpenVINO?進行推理時的內存泄漏怎么解決?

    使用 OpenVINO? 進行推理時,內存會隨著時間的推移而增加,并導致程序崩潰。
    發表于 03-06 08:29

    使用OpenVINO?推理引擎進行推理時,如何更改模型布局?

    無法為一系列網絡準備輸入。 第一個模型的輸出在 CHW 布局中,但第二個模型的輸入 NCHW 布局中。
    發表于 03-06 07:21

    采用異構模式推理時,如何檢查每層使用的設備是什么?

    異構模式推理時,無法檢查每層使用的設備是什么
    發表于 03-06 06:49

    AI大模型汽車應用中的推理、降本與可解釋性研究

    佐思汽研發布《2024-2025年AI大模型及其汽車領域的應用研究報告》。 推理能力成為大模型性能提升的驅動引擎 2024下半年以來,國內外大模型公司紛紛推出推理模型,通過以CoT為
    的頭像 發表于 02-18 15:02 ?943次閱讀
    AI大模型<b class='flag-5'>在</b>汽車應用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    新品| LLM630 Compute Kit,AI 大語言模型推理開發平臺

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強大的AI推理能力,能夠高效執行復雜的視覺(CV)及大語言模型(LLM)任務,滿足各類智能應用場景的需求
    的頭像 發表于 01-17 18:48 ?489次閱讀
    新品| LLM630 Compute Kit,AI 大語言模型<b class='flag-5'>推理</b>開發平臺

    高效大模型的推理綜述

    大模型由于其各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其資源受限場景的部署提出了挑戰。業內一直努力開發旨在提高大模型
    的頭像 發表于 11-15 11:45 ?1162次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    AI推理CPU當道,Arm驅動高效引擎

    AI的訓練和推理共同鑄就了其無與倫比的處理能力。AI訓練方面,GPU因其出色的并行計算能力贏得了業界的青睞,成為了當前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU
    的頭像 發表于 11-13 14:34 ?3049次閱讀
    AI<b class='flag-5'>推理</b>CPU當道,Arm驅動高效<b class='flag-5'>引擎</b>

    FPGA和ASIC大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發表于 10-29 14:12 ?1574次閱讀
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速中的應用

    李開復:中國擅長打造經濟實惠的AI推理引擎

    10月22日上午,零一萬物公司的創始人兼首席執行官李開復與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)推理成本上已實現了顯著優勢,比OpenAI的GPT-4o模型低了31倍。他強調,中國擅長打造經濟實惠
    的頭像 發表于 10-22 16:54 ?592次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到廣泛關注。歷經數月的迭代開發后,澎峰科技重磅發布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的頭像 發表于 09-29 10:14 ?1043次閱讀
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    深度學習編譯器和推理引擎的區別

    深度學習編譯器和推理引擎人工智能領域中都扮演著至關重要的角色,但它們各自的功能、應用場景以及優化目標等方面存在顯著的差異。以下是對兩者區別的詳細探討。
    的頭像 發表于 07-17 18:12 ?1586次閱讀

    NPU和AI TOPS是什么?它們有哪些性能?

    可運行AI模型的性能、準確性和效率。如今,TOPS(每秒萬億次運算)是衡量處理器AI性能的主要方式之一。TOPS是基于處理器所需的架構和頻率,衡量處理器潛在AI推理峰值性能的方法,比如神經網絡處理器(NPU)。下面我們將深入探討
    的頭像 發表于 06-13 10:33 ?1395次閱讀

    如何基于OrangePi?AIpro開發AI推理應用

    香橙派AIpro開發板采用昇騰AI技術路線,接口豐富且具有強大的可擴展性,提供8/20TOPS澎湃算力,可廣泛使用于AI邊緣計算、深度視覺學習及視頻流AI分析、視頻圖像分析、自然語言處理等AI領域
    的頭像 發表于 06-04 14:23 ?768次閱讀
    如何基于OrangePi?AIpro開發AI<b class='flag-5'>推理</b>應用
    主站蜘蛛池模板: 人人添人人澡人人澡人人人爽 | 色www视频永久免费软件 | 人人干视频 | 人与性www| 日韩基地1024首页 | 国产乱码免费卡1卡二卡3卡四 | 天天操天天爽天天射 | 日本国产黄色片 | 国产成人毛片亚洲精品不卡 | 最新版天堂中文在线官网 | 高清不卡日本v在线二区 | 77se77亚洲欧美在线大屁股 | 一二三区视频 | 日本高清免费一本视频在线观看 | 清纯唯美亚洲综合一区 | 操操操干干干 | 毛片2016免费视频 | 日本一区不卡在线观看 | 新版天堂中文网 | 国产精品免费看久久久 | 在线看片国产 | 亚洲免费视频在线观看 | 天堂网最新版www | 2021国产精品成人免费视频 | 色老久久精品偷偷鲁一区 | 777国产精品永久免费观看 | 精品三级在线 | 免费网站啪啪大全 | 女生扒开尿口让男生舔 | 免费观看视频高清www | 在线免费你懂的 | 最新仑乱免费视频 | 国产色丁香久久综合 | 日本免费人成在线网站 | 能看毛片的网址 | 亚欧免费视频一区二区三区 | 天堂在线观看视频观看www | 丰满年轻岳欲乱中文字幕 | 成年色黄大色黄大片 视频 成年视频xxxxx免费播放软件 | 国产网站大全 | 手机看片中文字幕 |