在高性能計算與AI芯片領域,基于SRAM的存算一體(Processing-In-Memory, PIM)架構因兼具計算密度、能效和精度優勢成為主流方案。隨著存算一體芯片性能的持續攀升,供電電壓降(IR-drop)問題日益成為制約其性能、能效與可靠性的關鍵瓶頸,而傳統電路級優化方法往往需在功耗、性能或面積上做出妥協,難以實現系統化解決。
針對這一挑戰,后摩智能與北京大學等高校合作的論文《AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation in High-performance PIM》,創新性地提出了AIM軟硬件協同設計,成功入選ISCA 2025。
該論文首創性地建立了量化工作負載與IR-drop關聯的關鍵參數HR,開發了基于正則化與權重優化的算法以降低權重HR值,設計了動態反饋系統實現電壓/頻率的實時調節以應對IR-drop波動,并通過HR感知的任務映射機制實現了跨層協同優化。這一系列軟硬件協同創新技術有效緩解了高性能PIM芯片的IR-drop問題,同時顯著提升了芯片性能與能效表現。基于一款256 TOPS PIM芯片的后仿真驗證數據表明,AIM能夠將IR-drop大幅降低69.2%,并同步實現能效提升2.29倍或性能增益15.2%。
本文將展開介紹這一創新方法。
研究動機
在高性能存算一體(PIM)芯片中,IR-drop 已成為制約性能與可靠性的關鍵挑戰。7nm 工藝下 256 TOPS SRAM PIM 芯片實測顯示,動態 IR-drop 可達 140mV,導致時序違規和計算精度退化。傳統電路級方案(如電源平面修改、電容插入)雖能緩解 IR-drop,但會引入高額設計成本并犧牲功耗、性能和面積(PPA)。例如,Graphcore IPU 通過 3D 封裝和深槽電容緩解 100mV IR-drop,卻導致設計成本激增。
圖1:(a)IR-drop現象(b)靜態和動態電流
圖1 IR-drop現象。實際電源電壓和理想電壓的插值,由電流通過電源網絡的寄生電阻引起,這會導致電路單元電壓不足,引發時鐘延遲、時序違規甚至功能失效。
圖1:(b):靜態和動態電流。IR-drop 由靜態和動態電流共同決定,其中動態電流隨計算負載波動,是高性能 PIM 中 IR-drop 惡化的主要原因。
PIM架構的獨特優勢為架構級優化提供契機:
工作負載規律性: PIM 專為神經網絡設計, workload 可預測(如自LLMs的推理的結構和工作流固定);
原位處理特性:權重數據可離線分析,輸入數據流和計算模式解耦。這為建立IR-drop和工作負載的關聯奠定基礎。
方法簡介
AIM通過“指標建模-軟件優化-硬件協同”三層架構實現端到端IR-drop緩解:
1.架構級指標關聯
提出瞬時位流翻轉率(Rtog)和權重漢明率(HR),建立工作負載與IR-drop的直接關聯。Rtog量化了PIM bank中從SRAM到加法器的位流翻轉頻率,如圖2所示,其與 IR-drop 的線性相關系數在 7nm DPIM 中達 0.977。而HR作為Rtog的理論上界,可通過量化過程優化,且與輸入無關,便于離線處理。
圖2:IR-drop和Rtog的相關性
2.軟件側HR優化
2.1 LHR(低漢明率正則化)
在量化訓練中引入可微HR近似,懲罰高HR權重,使權重分布趨向低HR局部極小值(如-8、0、8),精度損失可忽略。如圖3中所示,Resnet18的可以通過LHR平均降低28%,且精度損失可以忽略。
圖3:(a) LHR的權重分布與漢明率的局部極小值對齊 (b) 通過插值計算浮點數的HR及其相應梯度
2.2 WDS(權重分布偏移)
通過向量化偏移δ(如8/16)將權重分布推向正區間,利用補碼編碼特性降低HR,并通過硬件移位補償消除計算誤差。
3.硬件側動態調節
3.1 IR-Booster
結合軟件HR信息與硬件IR監測,動態調整電壓-頻率(V-f)對。通過安全級與激進級雙層調節,在保障可靠性的同時提升能效(如低功耗模式下能效提升2.29×)。
圖4:(a) 宏組顆粒度下的電源和V-f調整 (b) 由IRFailure調節的IR-Booster
3.2 HR-aware任務映射
基于模擬退火算法,按 HR 特性分配任務至宏單元組,避免不同 HR 任務相互干擾。與順序映射相比,如圖5所示,該方法將多算子并發時能效提升 15%~22%。
圖5:HR感知任務映射與其他方法對比
實驗結果
在7nm 256 TOPS PIM芯片的后布局仿真中,AIM展現顯著優勢:
1.IR-drop緩解
圖6展示了展示了應用 AIM 前后,7nm PIM 芯片布局中 IR-drop(電源網絡電壓降)的分布變化。后布局仿真顯示,AIM 將宏單元內的 IR-drop 從 140mV 降至 43.2~58.1mV,緩解率達 58.5%~69.2%,直接證明其在硬件層面的有效性。
圖6:7nm 工藝 256 TOPS PIM 芯片布局的 IR-drop 緩解效果
2.能效與性能提升
圖7:IR-drop、功耗與性能的消融研究
如圖7所示,AIM在解決IR-drop的同時優化了芯片的功耗和計算性能。
能效比提升1.91~2.29×(宏單元的功耗從4.2978mW降至1.876mW);
計算性能提升1.129~1.152×(256TOPS提升至295TOPS)。
3.任務映射優化
相比順序映射,HR-aware映射使多算子并發時的能效提升15%~22%,延遲降低9ms。
總結
AIM通過軟硬件協同設計,突破傳統IR-drop緩解的PPA瓶頸,為高性能PIM提供了兼具效率與可靠性的解決方案。后布局仿真驗證了其在7nm工藝下的有效性,未來可擴展至浮點PIM和異構計算架構(如TPU、GPU)。該工作為存算一體芯片的實用化部署提供了關鍵技術支撐,代碼與模型已開源(https://github.com/pku-zyp/LHR-of-AIM-in-ISCA25.git),推動學術界與產業界的進一步創新。
-
芯片
+關注
關注
459文章
52464瀏覽量
440142 -
存算一體
+關注
關注
0文章
108瀏覽量
4652 -
后摩智能
+關注
關注
0文章
35瀏覽量
1372
原文標題:后摩前沿 | 緩解高性能存算一體芯片IR-drop問題的軟硬件協同設計
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
存算一體大算力AI芯片將逐漸走向落地應用
談談芯片設計中的IR-drop


評論