在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

緩解高性能存算一體芯片IR-drop問題的軟硬件協同設計

后摩智能 ? 來源:后摩智能 ? 2025-07-11 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在高性能計算與AI芯片領域,基于SRAM的存算一體(Processing-In-Memory, PIM)架構因兼具計算密度、能效和精度優勢成為主流方案。隨著存算一體芯片性能的持續攀升,供電電壓降(IR-drop)問題日益成為制約其性能、能效與可靠性的關鍵瓶頸,而傳統電路級優化方法往往需在功耗、性能或面積上做出妥協,難以實現系統化解決。

針對這一挑戰,后摩智能與北京大學等高校合作的論文《AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation in High-performance PIM》,創新性地提出了AIM軟硬件協同設計,成功入選ISCA 2025。

該論文首創性地建立了量化工作負載與IR-drop關聯的關鍵參數HR,開發了基于正則化與權重優化的算法以降低權重HR值,設計了動態反饋系統實現電壓/頻率的實時調節以應對IR-drop波動,并通過HR感知的任務映射機制實現了跨層協同優化。這一系列軟硬件協同創新技術有效緩解了高性能PIM芯片的IR-drop問題,同時顯著提升了芯片性能與能效表現。基于一款256 TOPS PIM芯片的后仿真驗證數據表明,AIM能夠將IR-drop大幅降低69.2%,并同步實現能效提升2.29倍或性能增益15.2%。

本文將展開介紹這一創新方法。

研究動機

在高性能存算一體(PIM)芯片中,IR-drop 已成為制約性能與可靠性的關鍵挑戰。7nm 工藝下 256 TOPS SRAM PIM 芯片實測顯示,動態 IR-drop 可達 140mV,導致時序違規和計算精度退化。傳統電路級方案(如電源平面修改、電容插入)雖能緩解 IR-drop,但會引入高額設計成本并犧牲功耗、性能和面積(PPA)。例如,Graphcore IPU 通過 3D 封裝和深槽電容緩解 100mV IR-drop,卻導致設計成本激增。

83856f5c-5c69-11f0-baa5-92fbcf53809c.png

圖1:(a)IR-drop現象(b)靜態和動態電流

圖1 IR-drop現象。實際電源電壓和理想電壓的插值,由電流通過電源網絡的寄生電阻引起,這會導致電路單元電壓不足,引發時鐘延遲、時序違規甚至功能失效。

圖1:(b):靜態和動態電流。IR-drop 由靜態和動態電流共同決定,其中動態電流隨計算負載波動,是高性能 PIM 中 IR-drop 惡化的主要原因。

PIM架構的獨特優勢為架構級優化提供契機:

工作負載規律性: PIM 專為神經網絡設計, workload 可預測(如自LLMs的推理的結構和工作流固定);

原位處理特性:權重數據可離線分析,輸入數據流和計算模式解耦。這為建立IR-drop和工作負載的關聯奠定基礎。

方法簡介

AIM通過“指標建模-軟件優化-硬件協同”三層架構實現端到端IR-drop緩解:

1.架構級指標關聯

提出瞬時位流翻轉率(Rtog)和權重漢明率(HR),建立工作負載與IR-drop的直接關聯。Rtog量化了PIM bank中從SRAM到加法器的位流翻轉頻率,如圖2所示,其與 IR-drop 的線性相關系數在 7nm DPIM 中達 0.977。而HR作為Rtog的理論上界,可通過量化過程優化,且與輸入無關,便于離線處理。

8398744e-5c69-11f0-baa5-92fbcf53809c.png

圖2:IR-drop和Rtog的相關性

2.軟件側HR優化

2.1 LHR(低漢明率正則化)

在量化訓練中引入可微HR近似,懲罰高HR權重,使權重分布趨向低HR局部極小值(如-8、0、8),精度損失可忽略。如圖3中所示,Resnet18的可以通過LHR平均降低28%,且精度損失可以忽略。

83a73cb8-5c69-11f0-baa5-92fbcf53809c.png

圖3:(a) LHR的權重分布與漢明率的局部極小值對齊 (b) 通過插值計算浮點數的HR及其相應梯度

2.2 WDS(權重分布偏移)

通過向量化偏移δ(如8/16)將權重分布推向正區間,利用補碼編碼特性降低HR,并通過硬件移位補償消除計算誤差。

3.硬件側動態調節

3.1 IR-Booster

結合軟件HR信息與硬件IR監測,動態調整電壓-頻率(V-f)對。通過安全級與激進級雙層調節,在保障可靠性的同時提升能效(如低功耗模式下能效提升2.29×)。

83baac1c-5c69-11f0-baa5-92fbcf53809c.png

圖4:(a) 宏組顆粒度下的電源和V-f調整 (b) 由IRFailure調節的IR-Booster

3.2 HR-aware任務映射

基于模擬退火算法,按 HR 特性分配任務至宏單元組,避免不同 HR 任務相互干擾。與順序映射相比,如圖5所示,該方法將多算子并發時能效提升 15%~22%。

83cce5d0-5c69-11f0-baa5-92fbcf53809c.png

圖5:HR感知任務映射與其他方法對比

實驗結果

在7nm 256 TOPS PIM芯片的后布局仿真中,AIM展現顯著優勢:

1.IR-drop緩解

圖6展示了展示了應用 AIM 前后,7nm PIM 芯片布局中 IR-drop(電源網絡電壓降)的分布變化。后布局仿真顯示,AIM 將宏單元內的 IR-drop 從 140mV 降至 43.2~58.1mV,緩解率達 58.5%~69.2%,直接證明其在硬件層面的有效性。

83e1317a-5c69-11f0-baa5-92fbcf53809c.png

圖6:7nm 工藝 256 TOPS PIM 芯片布局的 IR-drop 緩解效果

2.能效與性能提升

83fc29da-5c69-11f0-baa5-92fbcf53809c.png

圖7:IR-drop、功耗與性能的消融研究

如圖7所示,AIM在解決IR-drop的同時優化了芯片的功耗和計算性能。

能效比提升1.91~2.29×(宏單元的功耗從4.2978mW降至1.876mW);

計算性能提升1.129~1.152×(256TOPS提升至295TOPS)。

3.任務映射優化

相比順序映射,HR-aware映射使多算子并發時的能效提升15%~22%,延遲降低9ms。

總結

AIM通過軟硬件協同設計,突破傳統IR-drop緩解的PPA瓶頸,為高性能PIM提供了兼具效率與可靠性的解決方案。后布局仿真驗證了其在7nm工藝下的有效性,未來可擴展至浮點PIM和異構計算架構(如TPU、GPU)。該工作為存算一體芯片的實用化部署提供了關鍵技術支撐,代碼與模型已開源(https://github.com/pku-zyp/LHR-of-AIM-in-ISCA25.git),推動學術界與產業界的進一步創新。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52464

    瀏覽量

    440142
  • 存算一體
    +關注

    關注

    0

    文章

    108

    瀏覽量

    4652
  • 后摩智能
    +關注

    關注

    0

    文章

    35

    瀏覽量

    1372

原文標題:后摩前沿 | 緩解高性能存算一體芯片IR-drop問題的軟硬件協同設計

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一體力AI芯片將逐漸走向落地應用

    電子發燒友網報道(文/李彎彎)前不久,后摩智能宣布,其自主研發的業內首款一體力AI芯片成功點亮,并成功跑通智能駕駛算法模型。 ? 這
    的頭像 發表于 05-31 00:03 ?5501次閱讀

    談談芯片設計中的IR-drop

    什么是IR-drop?其實,IR這個詞并不是什么縮寫,這里的I就是指電流,R是指電阻,他們放在起相乘,得出來的結果就是電壓。
    發表于 06-16 09:26 ?8867次閱讀
    談談<b class='flag-5'>芯片</b>設計中的<b class='flag-5'>IR-drop</b>

    一體技術路線如何選

    電子發燒友網報道(文/李彎彎)過去幾年,越來越多企業加入到一體技術的研究中,如今,一體
    的頭像 發表于 06-21 09:27 ?4951次閱讀

    一體技術發展現狀和未來趨勢

    一體
    電子發燒友網官方
    發布于 :2023年04月25日 17:21:41

    基于Altera FPGA的軟硬件協同仿真方法介紹

    摘要:簡要介紹了軟硬件協同仿真技術,指出了在大規模FPGA開發中軟硬件協同仿真的重要性和必要性,給出基于Altera FPGA的門級軟硬件
    發表于 07-04 06:49

    基于SoPC的嵌入式軟硬件協同設計性能怎么優化?

    軟硬件協同設計(Hardware/Software Co-deaign)是在20世紀90年代興起的跨領域交叉學科。隨著超大規模集成電路制造工藝的進步,單個芯片所能提供的晶體管數量已經超過了大多數
    發表于 04-08 08:03

    基于軟硬件協同設計的低功耗生理信號處理ASIC設計

    摘 要 文主要介紹了種采用軟硬件協同設計策略的用于生理信號處理的低功耗醫學集成芯片軟硬件協同
    發表于 06-19 10:29 ?24次下載

    思科謀求“軟硬件一體”轉型

    作為路由器和交換機領域的領導者,思科正在謀求在手抓硬件的同時,另手也開始抓軟件,實現“軟硬件一體”轉型。
    發表于 12-10 08:52 ?1047次閱讀

    軟硬件協同設計是系統芯片的基礎設計方法學

    軟硬件協同仿真驗證是對軟硬件功能設計的正確性及性能進行驗證和評估。傳統設計中,硬件和軟件通常是分開獨立開發設計的,到系統設計后期才將
    的頭像 發表于 08-12 11:28 ?3879次閱讀

    一體芯片在可穿戴設備市場有哪些機會

    2022年,TWS耳機廠商在種新型計算架構中找到突破口——一體。與傳統馮諾依曼架構相比,基于
    發表于 10-14 09:38 ?1479次閱讀

    2023年一體芯片設計的技術趨勢

    一體旨在計算單元與存儲單元融合,在實現數據存儲的同時直接進行計算,以消除數據搬移帶來的開銷,極大提升運算效率,以實現計算存儲的高效節能。
    的頭像 發表于 01-13 15:26 ?2595次閱讀

    基于3DIC架構的一體芯片仿真解決方案

    的“存儲墻”、“功耗墻”問題。一體將存儲與計算有機融合以其巨大的能效比提升潛力,有望成為數字經濟時代的先進生產力。
    的頭像 發表于 02-24 09:34 ?6300次閱讀

    一體芯片的技術壁壘

    作為后摩爾時代發展的必然趨勢之一體越來越受到行業的關注。在十問的前六問中,我們梳理了
    的頭像 發表于 09-22 14:16 ?1349次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>的技術壁壘

    一體芯片新突破!清華大學研制出首顆一體芯片

    集成電路學院教授吳華強副教授高濱團隊基于一體計算范式研制出的全球首顆全系統集成支持高效片上學習(機器學習能在硬件端直接完成)的憶阻器
    的頭像 發表于 10-11 14:39 ?1418次閱讀

    一體架構創新助力國產大力AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發表了題為《一體架構創新助力國產大
    的頭像 發表于 10-23 14:48 ?847次閱讀
    主站蜘蛛池模板: 午夜小网站 | 国产亚洲精品激情都市 | 日本三级黄色 | 97玖玖| 色视频在线观看完整免费版 | 免费看美女毛片 | 美女视频一区二区三区 | 九九热精品视频 | 一区二区三区在线看 | 77788色淫网站女女免费视频 | 黄色3急| 欧美性幼 | 在线免费视频手机版 | 色综合久久一区二区三区 | 男女那啥的视频免费 | 欧美午夜免费观看福利片 | 天堂电影在线观看免费入口 | 亚洲伊人色一综合网 | 国产亚洲一区二区三区在线 | 四虎.com| 天堂8在线天堂bt | 亚洲综合区图片小说区 | 亚洲综合精品香蕉久久网97 | 天天爽天天操 | 丁香五月缴情在线 | 男女交性永久免费视频播放 | 可以免费看黄色的网站 | japanese 69hdxxxx日本 | 三级在线网站 | 成人欧美一区二区三区黑人3p | 四虎精品影院在线观看视频 | 午夜免费免费啪视频观看 | 国产一级特黄 | 69xxxx日本hd4k | 夜间免费小视频 | 一级片免费在线 | 国产资源在线观看 | 亚洲一二 | 在线免费黄色网址 | 成人狠狠色综合 | 国产乱淫a∨片免费视频 |