91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

摩爾線程Round Attention優化AI對話

摩爾線程 ? 來源:摩爾線程 ? 2025-03-06 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】摩爾線程科研團隊發布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優化新范式》,該方法端到端延遲低于現在主流的Flash Attention推理引擎,kv-cache 顯存占用節省55%到82% 。

近年來,大型語言模型的進步推動了語言模型服務在日常問題解決任務中的廣泛應用。然而,長時間的交互暴露出兩大顯著挑戰:首先,上下文長度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開銷;其次,盡管鍵值( KV )緩存技術能緩解冗余計算,但其顯著增加的 GPU 內存需求導致推理批處理規模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

wKgZO2fI_O-AWQPwAABaa_segco266.png

01論文主要貢獻

以輪次為分析單元研究 Attention 規律:Round Attention 專為多輪對話場景推理需求設計,以輪次為自然邊界劃分 KV 緩存,研究發現輪次粒度的 Attention 分布存在兩個重要規律。

提出 Round Attention inference pipeline :基于發現的兩個規律提出 Round Attention ,將稀疏性從 Token 級提升至塊級,選取最相關的塊參與 attention 計算,減少 attention 計算耗時,并將不相關的塊 offloadCPU內存節省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時,降低了顯存占用。

02核心創新:輪次塊稀疏性的三大優勢

自然邊界的語義完整性

問題洞察:多輪對話中,用戶意圖常以輪次為單位呈現(如“推薦餐廳”→“詢問人均消費”→“確認地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對)切分為獨立塊,每個塊完整包含一輪對話的提問與回答,確保模型在計算注意力時能直接關聯完整語義單元。

分水嶺層的注意力穩定性

關鍵發現:通過分析 SharedGPT 數據集,發現主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對歷史輪次的注意力分布高度相似,且同一輪內問題與答案的注意力模式一致。

技術價值:僅需在分水嶺層一次性篩選 Top-K 相關輪次,即可覆蓋后續所有層的計算需求,相比其他工作逐層動態路由,有效減少 Top-K 計算開銷。

端到端的存儲與傳輸優化

存儲設計:將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲于 CPU 內存,減少 GPU 內存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級細粒度傳輸, Round Attention 以輪次為單位批量搬運 KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03效果

端到端延遲低于現在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節省 55% 到 82% ,并且在主觀評測和客觀評測兩個數據集上模型推理準確率基本未受影響。

wKgZPGfI_O-AcZSGAAAnn-oYOr0288.png

wKgZPGfI_O-AKEHxAAJyGnIc7S8703.png

04未來展望:開源協作與技術融合

摩爾線程 Round Attention 期待與開源社區深度協同,繼續探索稀疏注意力可能的優化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發布在 arXiv :

關于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4938

    瀏覽量

    131193
  • 內存
    +關注

    關注

    8

    文章

    3121

    瀏覽量

    75238
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10784
  • 摩爾線程
    +關注

    關注

    2

    文章

    234

    瀏覽量

    5349

原文標題:技術研究 | 摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對話優化新范式

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    國產顯卡摩爾線程MTT S30講評

    摩爾線程
    國產計算機小秦
    發布于 :2024年03月20日 16:20:37

    摩爾線程統信軟件戰略合作:共建“完美體驗系統”

    11月3日下午,摩爾線程與統信軟件技術有限公司(下文簡稱:統信軟件)達成戰略合作。 雙方將展開深度技術合作,基于摩爾線程國產全功能GPU的強大計算平臺和統信操作系統,共同打造中國“完美
    發表于 11-10 14:48 ?784次閱讀

    摩爾線程正式加入openKylin開源社區

    近日,摩爾線程智能科技(北京)有限責任公司(簡稱:摩爾線程)簽署了openKylin社區 CLA(Contributor License Agreement 貢獻者許可協議),正式加入
    的頭像 發表于 09-14 11:57 ?1626次閱讀

    摩爾線程與OpenMMLab戰略合作:推動算法框架與GPU協同發展,共筑AI開發者繁榮生態

    量,共同助力人工智能技術實現更大進步,支持人工智能產業更快速發展。摩爾線程與OpenMMLab將基于多功能GPU的強大計算性能及OpenMMLab計算機視覺開源算法體系的高效通用特性,深度適配計算機視覺算法主流模型的訓練和推理,共同優化
    發表于 11-09 14:59 ?793次閱讀

    摩爾線程計劃本周完成“崗位優化

     11月6日,摩爾線程的創始人兼CEO張建中在一份全員信中宣布了公司的人員優化計劃,預計將在本周內完成。張建中表示,這是公司發展的必要選擇,盡管艱難,但希望大家能夠理解。他在信中指出,在這個充滿挑戰和機遇的時刻,中國的GPU行業
    的頭像 發表于 11-07 16:08 ?1465次閱讀

    國內GPU龍頭!摩爾線程本周人員優化

    據了解,摩爾線程此次優化調整主要涉及組織架構和人員績效方面。在組織架構方面,公司設立了兩個戰略部門,分別是AISG(AI戰略組)和MCSG(元計算戰略組),以整合公司資源,推動產品技術
    的頭像 發表于 11-08 16:17 ?1279次閱讀

    國產摩爾線程顯卡驅動重磅升級!

    今日,摩爾線程正式發布版本號為v250.60的Windows驅動程序,著重對DirectX 11游戲性能進行了大幅優化
    的頭像 發表于 02-21 09:13 ?1559次閱讀
    國產<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>顯卡驅動重磅升級!

    摩爾線程與億景智聯戰略合作,共推生成式AI在高校的應用創新

    近日,摩爾線程與億景智聯達成戰略合作,聚焦于將先進的生成式AI技術應用于高校教育教學領域。
    的頭像 發表于 05-13 14:07 ?1439次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>與億景智聯戰略合作,共推生成式<b class='flag-5'>AI</b>在高校的應用創新

    摩爾線程與師者AI攜手完成70億參數教育AI大模型訓練測試

    近日,國內知名的GPU制造商摩爾線程與全學科教育AI大模型“師者AI”聯合宣布,雙方已成功完成了一項重要的大模型訓練測試。此次測試依托摩爾
    的頭像 發表于 06-14 16:31 ?917次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于摩爾
    的頭像 發表于 06-14 16:40 ?1482次閱讀

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產算力,東華軟件打造安全可信的基于
    的頭像 發表于 07-31 10:51 ?1942次閱讀

    摩爾線程GPU與超圖軟件大模型適配:共筑國產地理空間AI新生態

    10月24日,摩爾線程公司宣布與超圖軟件達成重要合作里程碑。經過雙方的嚴格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新發布的大模型系列產品完成兼容認證。  
    的頭像 發表于 10-24 11:29 ?1414次閱讀

    摩爾線程完成股改,籌備上市

    近日,摩爾線程智能科技(北京)股份有限公司(簡稱“摩爾線程”)宣布已完成股改,并正積極籌備上市。據國家企業信用信息公示系統最新查詢結果顯示,摩爾
    的頭像 發表于 11-12 14:15 ?1166次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合
    的頭像 發表于 03-17 17:05 ?594次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU原生FP8計算助力<b class='flag-5'>AI</b>訓練

    摩爾線程AI算力平臺AutoDL達成深度合作

    近日,摩爾線程與國內領先的AI算力平臺AutoDL宣布達成深度合作,雙方聯合推出面向個人開發者的“摩爾線程專區”,首次將國產GPU算力開放至
    的頭像 發表于 05-23 16:10 ?766次閱讀
    主站蜘蛛池模板: 播放欧亚一级特黄录像 | 日本黄色免费片 | 久久综合九色综合欧美狠狠 | 国产一级特黄老妇女大片免费 | 国产精品天天操 | 色视频在线观看 | 免费看又爽又黄禁片视频1000 | 色色色色网站 | 赛罗奥特曼银河帝国普通话免费版 | 亚洲人成电影综合网站色 | 黄网站在线观看高清免费 | 亚洲 欧美 另类 综合 日韩 | 5060精品国产福利午夜 | 99精品国产高清自在线看超 | 午夜影音 | 奇米影色777四色在线首页 | 米奇色影院| 国产亚洲精品久久午夜 | se97se成人亚洲网站在线观看 | 六月婷婷色 | 日本特级淫片免费 | 午夜视频在线免费观看 | 精品国产_亚洲人成在线高清 | 美日韩一级 | 亚洲欧美精品一区二区 | 99免费观看视频 | 激情深爱五月 | 丁香六月色婷婷综合网 | 四虎国产在线观看 | 午夜国产精品福利在线观看 | 免费观看a黄一级视频 | 爱爱456高清国语在线456 | 天天爽夜夜爽8888视频精品 | 欧美操操操操 | 么公的好大好硬好深好爽视频 | 免费看大尺度视频在线观看 | 国产网站免费视频 | 亚洲日本一区二区三区在线不卡 | 国产性老妇女做爰在线 | 亚洲国产精品乱码一区二区三区 | 天天做爽夜夜做爽 |