盗墓笔记,怎样写网络小说,大主宰天蚕土豆小说

【編者按】摩爾線程科研團隊發布研究成果《Round Attention：以輪次塊稀疏性開辟多輪對話優化新范式》，該方法端到端延遲低于現在主流的Flash Attention推理引擎，kv-cache 顯存占用節省55%到82% 。

近年來，大型語言模型的進步推動了語言模型服務在日常問題解決任務中的廣泛應用。然而，長時間的交互暴露出兩大顯著挑戰：首先，上下文長度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開銷；其次，盡管鍵值（ KV ）緩存技術能緩解冗余計算，但其顯著增加的 GPU 內存需求導致推理批處理規模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

01論文主要貢獻

以輪次為分析單元研究 Attention 規律：Round Attention 專為多輪對話場景推理需求設計，以輪次為自然邊界劃分 KV 緩存，研究發現輪次粒度的 Attention 分布存在兩個重要規律。

提出 Round Attention inference pipeline ：基于發現的兩個規律提出 Round Attention ，將稀疏性從 Token 級提升至塊級，選取最相關的塊參與 attention 計算，減少 attention 計算耗時，并將不相關的塊 offload 到CPU內存節省顯存占用。該 pipeline 在保持推理精度的情況下，減少了推理耗時，降低了顯存占用。

02核心創新：輪次塊稀疏性的三大優勢

自然邊界的語義完整性

問題洞察：多輪對話中，用戶意圖常以輪次為單位呈現（如“推薦餐廳”→“詢問人均消費”→“確認地址”）。

解決方案：Round Attention 將 KV 緩存按輪次（對）切分為獨立塊，每個塊完整包含一輪對話的提問與回答，確保模型在計算注意力時能直接關聯完整語義單元。

分水嶺層的注意力穩定性

關鍵發現：通過分析 SharedGPT 數據集，發現主流開源模型（如 Qwen2.5B ）在特定“分水嶺層”后，各層對歷史輪次的注意力分布高度相似，且同一輪內問題與答案的注意力模式一致。

技術價值：僅需在分水嶺層一次性篩選 Top-K 相關輪次，即可覆蓋后續所有層的計算需求，相比其他工作逐層動態路由，有效減少 Top-K 計算開銷。

端到端的存儲與傳輸優化

存儲設計：將每輪 KV 緩存按分水嶺層拆分為下層塊（ b_m ）與上層塊（ u_m ），以輪次為單位整體存儲于 CPU 內存，減少 GPU 內存占用。

傳輸效率：相比其他 kv cache offload 工作以 Token 級細粒度傳輸， Round Attention 以輪次為單位批量搬運 KV 緩存，單次 H2D 操作即可完成，降低 H2D 操作帶來的延遲。

03效果

端到端延遲低于現在主流的 Flash Attention 推理引擎， kv-cache 顯存占用節省 55% 到 82% ，并且在主觀評測和客觀評測兩個數據集上模型推理準確率基本未受影響。

04未來展望：開源協作與技術融合

摩爾線程 Round Attention 期待與開源社區深度協同，繼續探索稀疏注意力可能的優化工作，共同攻克 LLM 落地中的效率與成本難題。該論文已發布在 arXiv ：

關于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎設施和一站式解決方案，為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業，為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4938

瀏覽量
131193
內存

內存

+關注

關注
8

文章
3121

瀏覽量
75238
語言模型

語言模型

+關注

關注
0

文章
561

瀏覽量
10784
摩爾線程

摩爾線程

+關注

關注
2

文章
234

瀏覽量
5349

原文標題：技術研究 | 摩爾線程 Round Attention：以輪次塊稀疏性開辟多輪對話優化新范式

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關注！文章轉載請注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

摩爾線程Round Attention優化AI對話

評論