在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

低功耗下,高能效AI加速器如何設計?

新思科技 ? 來源:新思科技 ? 2023-10-26 09:18 ? 次閱讀

如果在數據中心和邊緣設備中部署上人工智能AI)加速器,那么它們將能夠快速處理PB級的數據量,還能幫助克服傳統(tǒng)的馮·諾依曼瓶頸。在Chat GPT、高級駕駛輔助系統(tǒng)(ADAS)、攝像頭和傳感器等智能邊緣設備中,我們都能看到AI加速器的身影。

半導體領域,實現出色的性能功耗比永遠都是首要目標。AI加速器的能效比通用系統(tǒng)的能效通常會高出100倍甚至1000倍,但生成出色AI模型所需的算力資源每3.4個月就會翻一番。AI產生的能耗不容小覷,以GPT3為例,僅訓練這一個深度學習模型所產生的二氧化碳就高達500噸,相當于一輛普通燃油車行駛100多萬英里。

降低能耗不僅能夠盡量減少對環(huán)境的影響,還能降低運營成本,并在有限的功耗預算內盡可能地提高性能,緩解熱挑戰(zhàn)。

本文將進一步討論開發(fā)者們如何利用端到端功耗分析解決方案,打造新一代更高效節(jié)能的AI加速器。

為十億門級以上設計優(yōu)化功耗

AI加速器的端到端節(jié)能方法必須從設計流程的初始階段開始,涵蓋架構和微架構層面,并一直延續(xù)到簽核階段。因此,AI芯片開發(fā)者需要利用架構探索平臺,對具體訓練或推理應用的功耗、性能和面積(PPA)進行權衡分析和評估,并主動識別后續(xù)分析的關鍵矢量。

由于AI硬件通常包括多個由數千個處理單元組成的大型陣列,因此十億門級以上設計需要進行多域軟硬件功耗驗證,盡可能降低能耗和漏電。然而,要想分析關鍵功耗模塊和時間窗口,需要先進的硬件加速系統(tǒng),以便運行數十億個循環(huán)并快速精確地實現多次迭代。只有在完成這一步后,寄存器傳輸級(RTL)功耗分析和物理實現工具才能有效地優(yōu)化動態(tài)(晶體管門開關)功耗和靜態(tài)(漏電)功耗。

為了始終提供準確的結果,用于AI芯片設計的RTL功耗分析工具應具備以下功能:

時序驅動型快速綜合:內部功耗計算錯誤通常是基于扇出的快速綜合工具未能根據時序約束正確地確定單元大小。同后續(xù)的布局布線工具相同,RTL功耗分析工具中嵌入的快速綜合功能必須由時序驅動。

物理感知型快速綜合:RTL功耗分析工具應該具備“物理感知”能力,能夠通過完成一次設計單元擺放以及全局布線就可以獲得準確的連線電容值。與基于扇出的方法不同,基于物理感知的電容估算能夠為每條連線提供唯一的準確值。

簽核質量的功耗計算引擎:傳統(tǒng)的RTL功耗分析工具使用word-level邏輯推理進行快速綜合,這種方法只能采用啟發(fā)式算法來計算毛刺功耗,因此并不準確。要準確計算毛刺功耗(可能高達芯片總功耗的40%)并減少高度重復的處理單元,RTL功耗分析工具必須具備簽核質量功耗分析引擎、網表級設計表示并集成時序計算引擎。

在完成RTL功耗分析和優(yōu)化后,便可使用物理實現(綜合和布局布線)工具來進一步優(yōu)化PPA。為確保可靠性、可擴展性以及良好的用戶體驗,這些實現工具應包含統(tǒng)一的集成式數據模型架構、交錯式引擎和統(tǒng)一的命令界面。同樣重要的是,實現工具應能對先進節(jié)點效應和毛刺功耗進行精確建模,從而加速工程變更命令(ECO)和最終設計收斂。

出色的能效與性能

新思科技提供全面的端到端功耗解決方案,幫助AI芯片開發(fā)者以經濟高效的方式達成或超越充滿挑戰(zhàn)性的性能和能效目標,同時縮短產品上市時間。新思科技的Platform Architect用于設計流程的初始階段,能夠為AI芯片開發(fā)者提供SystemC事務級建模(TLM)工具和高效方法,幫助開發(fā)者快速地對復雜的芯片架構進行建模、分析和優(yōu)化。新思科技ZeBu Empower是一款快速的功耗分析工具,用于AI芯片設計流程的下一階段:基于數億個循環(huán)來分析和調試軟件實際工作負載下的能耗。

許多業(yè)內領先的半導體公司借助新思科技ZeBu Empower大幅降低了功耗,其中包括美國硅谷的AI芯片初創(chuàng)公司SiMa.ai,該公司致力于為智能邊緣設計高性能、低能耗的AI芯片。具體而言,該公司的SiMa.ai低功耗MLSoC實現了每瓦特幀率(FPS)提升2.5倍的成果。在2023年硅谷SNUG大會上,SiMa.ai公司的芯片開發(fā)總監(jiān)Sounil Biswas指出,流片后驗證結果表明,新思科技ZeBu Empower給出的數據與電路板的測量結果之間具有出色的相關性。

為了補充ZeBu Empower并助力實現低功耗RTL設計,新思科技提供了PrimePower RTL,這是一款RTL功耗分析與優(yōu)化工具,通過將時序驅動型綜合、物理感知型綜合與集成式計算引擎相結合,可以持續(xù)獲得準確的結果(與布線后實現的結果相比誤差在+/- 15%以內)。新思科技PrimePower RTL還提供分步指導,幫助AI芯片開發(fā)者進一步減少毛刺并降低總功耗。

新思科技的Fusion Compiler是一款綜合的集成式RTL-to-GDSII實現系統(tǒng),可幫助實現進一步的PPA優(yōu)化。在這之后,可以使用新思科技的黃金功耗簽核解決方案PrimePower對AI設計進行分析。新思科技的PrimePower通過了全球多家領先代工廠的認證,3nm工藝能夠在簽核時實現高精度,同SPICE的芯片測量的誤差極小。

為邊緣AI推理設計差異化芯片

AI加速器使許多熱門應用能夠在幾毫秒內快速分析海量信息并準確推斷結果。與此同時,實現出色的性能功耗比依然是芯片開發(fā)者的首要目標。這一點在邊緣領域尤為明顯,在該領域,為了縮小芯片尺寸并盡可能地降低功耗,性能通常會受到限制。

然而,這些限制也為半導體公司創(chuàng)造了新的機遇,讓半導體公司可以通過精確校準PPA來滿足低延遲、高帶寬應用的特定要求,從而設計出差異化芯片。例如,自主導航應用要求計算響應延遲時間限制在20μs以內,而語音和視頻助手則要求能夠在10μs之內理解語音關鍵詞,并在幾百毫秒內理解手勢含義。要想成功實現PPA權衡,芯片開發(fā)者應該采用整體性方法,利用端到端解決方案,從早期架構探索到最后的黃金功耗簽核,持續(xù)優(yōu)化功耗。








審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    825

    瀏覽量

    38996
  • 晶體管
    +關注

    關注

    77

    文章

    9995

    瀏覽量

    141023
  • 人工智能
    +關注

    關注

    1805

    文章

    48851

    瀏覽量

    247595
  • RTL
    RTL
    +關注

    關注

    1

    文章

    389

    瀏覽量

    60828
  • AI芯片
    +關注

    關注

    17

    文章

    1973

    瀏覽量

    35753

原文標題:邊緣端也要跑大模型:低功耗下,高能效AI加速器如何設計?

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場在高真空環(huán)境中對帶電粒子(如電子、質子、離子)進行加速和控制,使其獲得高能量的特種裝置。粒子加速器
    的頭像 發(fā)表于 06-19 12:05 ?248次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    Analog Devices / Maxim Integrated MAX78002人工智能微控制數據手冊

    Analog Devices MAX78002人工智能微控制是支持神經網絡的AI微控制。Analog Devices MAX78002可在超低功耗
    的頭像 發(fā)表于 06-18 15:19 ?115次閱讀

    比達2TOPS/W!解密邊緣AI芯片低功耗設計之法

    、部署成本及用戶體驗。 ? 為什么邊緣AI 芯片需要低功耗設計? ? 從應用場景層面來看,首先是設備供電受限,如智能手表、無線傳感、可穿戴設備等依賴電池供電,低功耗設計直接決定續(xù)航時
    的頭像 發(fā)表于 05-17 00:07 ?2595次閱讀

    MAX78000采用超低功耗卷積神經網絡加速度計的人工智能微控制技術手冊

    人工智能(AI)需要超強的計算能力,而Maxim則大大降低了AI計算所需的功耗。MAX78000是一款新型的AI微控制,使神經網絡能夠在互
    的頭像 發(fā)表于 05-08 11:42 ?208次閱讀
    MAX78000采用超<b class='flag-5'>低功耗</b>卷積神經網絡<b class='flag-5'>加速</b>度計的人工智能微控制<b class='flag-5'>器</b>技術手冊

    MAX78002帶有低功耗卷積神經網絡加速器的人工智能微控制技術手冊

    人工智能(AI)需要超強的計算能力,而Maxim則大大降低了AI計算所需的功耗。MAX78002是一款新型的AI微控制,使神經網絡能夠在互
    的頭像 發(fā)表于 05-08 10:16 ?144次閱讀
    MAX78002帶有<b class='flag-5'>低功耗</b>卷積神經網絡<b class='flag-5'>加速器</b>的人工智能微控制<b class='flag-5'>器</b>技術手冊

    嵌入式AI加速器DRP-AI 詳細介紹

    的嵌入式設備。此外,人工智能正在不斷發(fā)展,新的算法不時被開發(fā)出來。 在人工智能快速發(fā)展的過程中,瑞薩開發(fā)了人工智能加速器(DRP-AI)和軟件(DRP-AI翻譯),既提供高性能又提供
    的頭像 發(fā)表于 03-15 16:13 ?917次閱讀
    嵌入式<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>DRP-<b class='flag-5'>AI</b> 詳細介紹

    Arm 推出 Armv9 邊緣 AI 計算平臺,以超高能與先進 AI 能力賦能物聯網革新

    架構的超高能 CPU——Arm Cortex-A320 以及對 Transformer 網絡具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣
    的頭像 發(fā)表于 03-06 11:43 ?1245次閱讀
    Arm 推出 Armv9 邊緣 <b class='flag-5'>AI</b> 計算平臺,以超<b class='flag-5'>高能</b><b class='flag-5'>效</b>與先進 <b class='flag-5'>AI</b> 能力賦能物聯網革新

    當我問DeepSeek AI爆發(fā)時代的FPGA是否重要?答案是......

    ,這為AI的持續(xù)創(chuàng)新提供了有力支持。 6.數據中心與云計算加速 ? 在云計算和數據中心中,FPGA被用作AI計算加速器,尤其是針對深度學習工作負載。例如,微軟在其數據中心中使用FPGA
    發(fā)表于 02-19 13:55

    ADI 新型AI微控制 # MAX78000 數據手冊和芯片介紹

    MAX78000是一款新型的AI微控制,使神經網絡能夠在互聯網邊緣端以超低功耗運行,將高能AI
    的頭像 發(fā)表于 02-08 16:50 ?872次閱讀
    ADI 新型<b class='flag-5'>AI</b>微控制<b class='flag-5'>器</b> # MAX78000 數據手冊和芯片介紹

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創(chuàng)意加速器

    加速器
    龍智DevSecOps
    發(fā)布于 :2024年11月26日 13:42:47

    IBM與AMD攜手部署MI300X加速器,強化AI與HPC能力

    舉措預計將于2025年上半年正式推出。 此次合作的核心目標是提升通用人工智能(AI)模型的性能與能,并為企業(yè)客戶提供高性能計算(HPC)應用的強大支持。AMD的Instinct MI300X加速器憑借其
    的頭像 發(fā)表于 11-21 11:07 ?700次閱讀

    IBM將在云平臺部署AMD加速器

    IBM與AMD近期宣布了一項重要合作協議,根據協議,IBM將在其云平臺上部署AMD Instinct MI300X加速器。這一舉措旨在提升企業(yè)客戶在生成式AI模型方面的性能和能,進一步推動A
    的頭像 發(fā)表于 11-19 16:24 ?571次閱讀

    聯發(fā)科天璣9400發(fā)布:能比與端側AI引領移動芯片行業(yè)革新

    AI大模型的推動,智能手機市場的高端化進程進一步加速,旗艦機型的競爭已不再單純依賴于“大力飛磚”式的極限性能比拼,而是更加注重綜合素質的提升。特別是在手機芯片領域,高性能與低功耗
    的頭像 發(fā)表于 10-12 15:56 ?1078次閱讀

    瑞薩電子推出新一代高能AI加速器DRP-AI3

    必須兼顧高效能與低能耗,確保在執(zhí)行復雜計算任務的同時,保持低功耗并有效控制發(fā)熱,以保障設備的穩(wěn)定運行,延長設備使用壽命。
    的頭像 發(fā)表于 10-11 11:47 ?737次閱讀

    什么是神經網絡加速器?它有哪些特點?

    )和圖形處理(GPU)雖然可以處理神經網絡計算,但在能比和計算密度上往往難以滿足特定應用場景的需求。因此,神經網絡加速器應運而生,它通過優(yōu)化硬件架構和算法實現,針對神經網絡計算的特點進行定制化設計,以達到更高的計算效率和更低
    的頭像 發(fā)表于 07-11 10:40 ?920次閱讀
    主站蜘蛛池模板: 色av.com| 青草国内精品视频在线观看 | 亚洲日本一区二区三区在线不卡 | 亚洲免费毛片 | a一级日本特黄aaa大片 | 在线欧美国产 | 97青青| 日本一卡二卡3卡四卡网站精品 | 国产h视频在线观看 | 亚洲狠狠操 | 草久久久久 | 伊人久久大香线蕉综合网站 | 最新亚洲情黄在线网站 | 日本在线观看成人小视频 | baoyu777永久免费视频 | 国产午夜精品福利 | 久久精品屋| riav久久中文一区二区 | 黄色免费在线网站 | 国产成人mv在线观看入口视频 | 口述他拿舌头进去我下面好爽 | 手机看片国产免费久久网 | 午夜美女视频在线观看高清 | 国产成人亚洲影视在线 | 天堂中文字幕在线 | av免费网站在线观看 | 男女爱爱是免费看 | 综合色久七七综合七七蜜芽 | 天天躁夜夜躁狠狠躁2018a | 高清色视频 | 1300部小u女视频免费 | 亚洲视频 欧美视频 | 第一福利在线 | 免费视频网站在线看视频 | 一级做a爱免费观看视频 | 国产拍拍| 911色_911色sss在线观看 | 五月天婷婷视频在线观看 | 免费观看影院 | 国产精品久久女同磨豆腐 | 日本s色大片在线观看 |