有声小说,辰东完美世界有声小说,怎么写网络小说

在高性能計算與AI芯片領域，基于SRAM的存算一體（Processing-In-Memory, PIM）架構因兼具計算密度、能效和精度優勢成為主流方案。隨著存算一體芯片性能的持續攀升，供電電壓降（IR-drop）問題日益成為制約其性能、能效與可靠性的關鍵瓶頸，而傳統電路級優化方法往往需在功耗、性能或面積上做出妥協，難以實現系統化解決。

針對這一挑戰，后摩智能與北京大學等高校合作的論文《AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation in High-performance PIM》，創新性地提出了AIM軟硬件協同設計，成功入選ISCA 2025。

該論文首創性地建立了量化工作負載與IR-drop關聯的關鍵參數HR，開發了基于正則化與權重優化的算法以降低權重HR值，設計了動態反饋系統實現電壓/頻率的實時調節以應對IR-drop波動，并通過HR感知的任務映射機制實現了跨層協同優化。這一系列軟硬件協同創新技術有效緩解了高性能PIM芯片的IR-drop問題，同時顯著提升了芯片性能與能效表現。基于一款256 TOPS PIM芯片的后仿真驗證數據表明，AIM能夠將IR-drop大幅降低69.2%，并同步實現能效提升2.29倍或性能增益15.2%。

本文將展開介紹這一創新方法。

研究動機

在高性能存算一體（PIM）芯片中，IR-drop 已成為制約性能與可靠性的關鍵挑戰。7nm 工藝下 256 TOPS SRAM PIM 芯片實測顯示，動態 IR-drop 可達 140mV，導致時序違規和計算精度退化。傳統電路級方案（如電源平面修改、電容插入）雖能緩解 IR-drop，但會引入高額設計成本并犧牲功耗、性能和面積（PPA）。例如，Graphcore IPU 通過 3D 封裝和深槽電容緩解 100mV IR-drop，卻導致設計成本激增。

圖1：（a)IR-drop現象(b)靜態和動態電流

圖1 IR-drop現象。實際電源電壓和理想電壓的插值，由電流通過電源網絡的寄生電阻引起，這會導致電路單元電壓不足，引發時鐘延遲、時序違規甚至功能失效。

圖1:(b)：靜態和動態電流。IR-drop 由靜態和動態電流共同決定，其中動態電流隨計算負載波動，是高性能 PIM 中 IR-drop 惡化的主要原因。

PIM架構的獨特優勢為架構級優化提供契機:

工作負載規律性: PIM 專為神經網絡設計， workload 可預測（如自LLMs的推理的結構和工作流固定）；

原位處理特性：權重數據可離線分析，輸入數據流和計算模式解耦。這為建立IR-drop和工作負載的關聯奠定基礎。

方法簡介

AIM通過“指標建模-軟件優化-硬件協同”三層架構實現端到端IR-drop緩解：

1.架構級指標關聯

提出瞬時位流翻轉率（Rtog）和權重漢明率（HR），建立工作負載與IR-drop的直接關聯。Rtog量化了PIM bank中從SRAM到加法器的位流翻轉頻率，如圖2所示，其與 IR-drop 的線性相關系數在 7nm DPIM 中達 0.977。而HR作為Rtog的理論上界，可通過量化過程優化，且與輸入無關，便于離線處理。

圖2：IR-drop和Rtog的相關性

2.軟件側HR優化

2.1 LHR（低漢明率正則化）

在量化訓練中引入可微HR近似，懲罰高HR權重，使權重分布趨向低HR局部極小值（如-8、0、8），精度損失可忽略。如圖3中所示，Resnet18的可以通過LHR平均降低28%，且精度損失可以忽略。

圖3：(a) LHR的權重分布與漢明率的局部極小值對齊 (b) 通過插值計算浮點數的HR及其相應梯度

2.2 WDS(權重分布偏移）

通過向量化偏移δ（如8/16）將權重分布推向正區間，利用補碼編碼特性降低HR，并通過硬件移位補償消除計算誤差。

3.硬件側動態調節

3.1 IR-Booster

結合軟件HR信息與硬件IR監測，動態調整電壓-頻率（V-f）對。通過安全級與激進級雙層調節，在保障可靠性的同時提升能效（如低功耗模式下能效提升2.29×）。

圖4：(a) 宏組顆粒度下的電源和V-f調整 (b) 由IRFailure調節的IR-Booster

3.2 HR-aware任務映射

基于模擬退火算法，按 HR 特性分配任務至宏單元組，避免不同 HR 任務相互干擾。與順序映射相比，如圖5所示，該方法將多算子并發時能效提升 15%~22%。

圖5：HR感知任務映射與其他方法對比

實驗結果

在7nm 256 TOPS PIM芯片的后布局仿真中，AIM展現顯著優勢：

1.IR-drop緩解

圖6展示了展示了應用 AIM 前后，7nm PIM 芯片布局中 IR-drop（電源網絡電壓降）的分布變化。后布局仿真顯示，AIM 將宏單元內的 IR-drop 從 140mV 降至 43.2~58.1mV，緩解率達 58.5%~69.2%，直接證明其在硬件層面的有效性。

圖6：7nm 工藝 256 TOPS PIM 芯片布局的 IR-drop 緩解效果

2.能效與性能提升

圖7:IR-drop、功耗與性能的消融研究

如圖7所示，AIM在解決IR-drop的同時優化了芯片的功耗和計算性能。

能效比提升1.91~2.29×（宏單元的功耗從4.2978mW降至1.876mW）；

計算性能提升1.129~1.152×（256TOPS提升至295TOPS）。

3.任務映射優化

相比順序映射，HR-aware映射使多算子并發時的能效提升15%~22%，延遲降低9ms。

總結

AIM通過軟硬件協同設計，突破傳統IR-drop緩解的PPA瓶頸，為高性能PIM提供了兼具效率與可靠性的解決方案。后布局仿真驗證了其在7nm工藝下的有效性，未來可擴展至浮點PIM和異構計算架構（如TPU、GPU）。該工作為存算一體芯片的實用化部署提供了關鍵技術支撐，代碼與模型已開源（https://github.com/pku-zyp/LHR-of-AIM-in-ISCA25.git），推動學術界與產業界的進一步創新。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
459

文章
52464

瀏覽量
440142
存算一體

存算一體

+關注

關注
0

文章
108

瀏覽量
4652
后摩智能

后摩智能

+關注

關注
0

文章
35

瀏覽量
1372

原文標題：后摩前沿 | 緩解高性能存算一體芯片IR-drop問題的軟硬件協同設計

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

緩解高性能存算一體芯片IR-drop問題的軟硬件協同設計

評論