在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程Round Attention優(yōu)化AI對話

摩爾線程 ? 來源:摩爾線程 ? 2025-03-06 09:39 ? 次閱讀

【編者按】摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。

近年來,大型語言模型的進(jìn)步推動了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。然而,長時(shí)間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長度的快速擴(kuò)張因自注意力機(jī)制的平方級復(fù)雜度而導(dǎo)致巨大的計(jì)算開銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計(jì)算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

wKgZO2fI_O-AWQPwAABaa_segco266.png

01論文主要貢獻(xiàn)

以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對話場景推理需求設(shè)計(jì),以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個(gè)重要規(guī)律。

提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個(gè)規(guī)律提出 Round Attention ,將稀疏性從 Token 級提升至塊級,選取最相關(guān)的塊參與 attention 計(jì)算,減少 attention 計(jì)算耗時(shí),并將不相關(guān)的塊 offloadCPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。

02核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢

自然邊界的語義完整性

問題洞察:多輪對話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問人均消費(fèi)”→“確認(rèn)地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對)切分為獨(dú)立塊,每個(gè)塊完整包含一輪對話的提問與回答,確保模型在計(jì)算注意力時(shí)能直接關(guān)聯(lián)完整語義單元。

分水嶺層的注意力穩(wěn)定性

關(guān)鍵發(fā)現(xiàn):通過分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對歷史輪次的注意力分布高度相似,且同一輪內(nèi)問題與答案的注意力模式一致。

技術(shù)價(jià)值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計(jì)算需求,相比其他工作逐層動態(tài)路由,有效減少 Top-K 計(jì)算開銷。

端到端的存儲與傳輸優(yōu)化

存儲設(shè)計(jì):將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級細(xì)粒度傳輸, Round Attention 以輪次為單位批量搬運(yùn) KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03效果

端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評測和客觀評測兩個(gè)數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。

wKgZPGfI_O-AcZSGAAAnn-oYOr0288.png

wKgZPGfI_O-AKEHxAAJyGnIc7S8703.png

04未來展望:開源協(xié)作與技術(shù)融合

摩爾線程 Round Attention 期待與開源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :

關(guān)于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺。我們的愿景是為美好世界加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4861

    瀏覽量

    130169
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    3091

    瀏覽量

    74799
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    555

    瀏覽量

    10535
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    217

    瀏覽量

    4917

原文標(biāo)題:技術(shù)研究 | 摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    國產(chǎn)顯卡摩爾線程MTT S30講評

    摩爾線程
    國產(chǎn)計(jì)算機(jī)小秦
    發(fā)布于 :2024年03月20日 16:20:37

    摩爾線程統(tǒng)信軟件戰(zhàn)略合作:共建“完美體驗(yàn)系統(tǒng)”

    11月3日下午,摩爾線程與統(tǒng)信軟件技術(shù)有限公司(下文簡稱:統(tǒng)信軟件)達(dá)成戰(zhàn)略合作。 雙方將展開深度技術(shù)合作,基于摩爾線程國產(chǎn)全功能GPU的強(qiáng)大計(jì)算平臺和統(tǒng)信操作系統(tǒng),共同打造中國“完美
    發(fā)表于 11-10 14:48 ?701次閱讀

    摩爾線程正式加入openKylin開源社區(qū)

    近日,摩爾線程智能科技(北京)有限責(zé)任公司(簡稱:摩爾線程)簽署了openKylin社區(qū) CLA(Contributor License Agreement 貢獻(xiàn)者許可協(xié)議),正式加入
    的頭像 發(fā)表于 09-14 11:57 ?1520次閱讀

    摩爾線程與OpenMMLab戰(zhàn)略合作:推動算法框架與GPU協(xié)同發(fā)展,共筑AI開發(fā)者繁榮生態(tài)

    量,共同助力人工智能技術(shù)實(shí)現(xiàn)更大進(jìn)步,支持人工智能產(chǎn)業(yè)更快速發(fā)展。摩爾線程與OpenMMLab將基于多功能GPU的強(qiáng)大計(jì)算性能及OpenMMLab計(jì)算機(jī)視覺開源算法體系的高效通用特性,深度適配計(jì)算機(jī)視覺算法主流模型的訓(xùn)練和推理,共同優(yōu)化
    發(fā)表于 11-09 14:59 ?672次閱讀

    摩爾線程計(jì)劃本周完成“崗位優(yōu)化

     11月6日,摩爾線程的創(chuàng)始人兼CEO張建中在一份全員信中宣布了公司的人員優(yōu)化計(jì)劃,預(yù)計(jì)將在本周內(nèi)完成。張建中表示,這是公司發(fā)展的必要選擇,盡管艱難,但希望大家能夠理解。他在信中指出,在這個(gè)充滿挑戰(zhàn)和機(jī)遇的時(shí)刻,中國的GPU行業(yè)
    的頭像 發(fā)表于 11-07 16:08 ?1275次閱讀

    國內(nèi)GPU龍頭!摩爾線程本周人員優(yōu)化

    據(jù)了解,摩爾線程此次優(yōu)化調(diào)整主要涉及組織架構(gòu)和人員績效方面。在組織架構(gòu)方面,公司設(shè)立了兩個(gè)戰(zhàn)略部門,分別是AISG(AI戰(zhàn)略組)和MCSG(元計(jì)算戰(zhàn)略組),以整合公司資源,推動產(chǎn)品技術(shù)
    的頭像 發(fā)表于 11-08 16:17 ?1138次閱讀

    國產(chǎn)摩爾線程顯卡驅(qū)動重磅升級!

    今日,摩爾線程正式發(fā)布版本號為v250.60的Windows驅(qū)動程序,著重對DirectX 11游戲性能進(jìn)行了大幅優(yōu)化
    的頭像 發(fā)表于 02-21 09:13 ?1340次閱讀
    國產(chǎn)<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>顯卡驅(qū)動重磅升級!

    摩爾線程與億景智聯(lián)戰(zhàn)略合作,共推生成式AI在高校的應(yīng)用創(chuàng)新

    近日,摩爾線程與億景智聯(lián)達(dá)成戰(zhàn)略合作,聚焦于將先進(jìn)的生成式AI技術(shù)應(yīng)用于高校教育教學(xué)領(lǐng)域。
    的頭像 發(fā)表于 05-13 14:07 ?1281次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>與億景智聯(lián)戰(zhàn)略合作,共推生成式<b class='flag-5'>AI</b>在高校的應(yīng)用創(chuàng)新

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試

    近日,國內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項(xiàng)重要的大模型訓(xùn)練測試。此次測試依托摩爾
    的頭像 發(fā)表于 06-14 16:31 ?760次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領(lǐng)域開展了一輪深入的合作,共同對GPU大模型進(jìn)行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于摩爾
    的頭像 發(fā)表于 06-14 16:40 ?1297次閱讀

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創(chuàng)新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產(chǎn)算力,東華軟件打造安全可信的基于
    的頭像 發(fā)表于 07-31 10:51 ?1074次閱讀

    摩爾線程GPU與超圖軟件大模型適配:共筑國產(chǎn)地理空間AI新生態(tài)

    10月24日,摩爾線程公司宣布與超圖軟件達(dá)成重要合作里程碑。經(jīng)過雙方的嚴(yán)格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新發(fā)布的大模型系列產(chǎn)品完成兼容認(rèn)證。  
    的頭像 發(fā)表于 10-24 11:29 ?1143次閱讀

    摩爾線程完成股改,籌備上市

    近日,摩爾線程智能科技(北京)股份有限公司(簡稱“摩爾線程”)宣布已完成股改,并正積極籌備上市。據(jù)國家企業(yè)信用信息公示系統(tǒng)最新查詢結(jié)果顯示,摩爾
    的頭像 發(fā)表于 11-12 14:15 ?892次閱讀

    摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

    MUTLASS,快速支持了FlashMLA。不僅如此,摩爾線程還基于MUTLASS在全新GPU架構(gòu)上優(yōu)化實(shí)現(xiàn)了FP8矩陣乘法,支持DeepGEMM的相應(yīng)功能,充分展示了摩爾
    的頭像 發(fā)表于 02-27 14:40 ?375次閱讀

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?314次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU原生FP8計(jì)算助力<b class='flag-5'>AI</b>訓(xùn)練
    主站蜘蛛池模板: 大香交伊人| 年轻护士3的滋味 | 天堂网最新 | www日本高清 | 三级黄色在线视频中文 | 色先锋av资源中文字幕 | 给我一个可以看片的www日本 | 午夜福利国产一级毛片 | 四虎电影免费观看网站 | 特黄特级高清免费视频毛片 | 亚洲午夜视频 | 看全色黄大色大片免费久久 | 喷潮白浆直流在线播放 | 美女国产一区 | 美女视频黄a全部免费看小说 | 亚洲a区视频 | 色多多高清在线观看视频www | 久久久久88色偷偷免费 | 日产精品卡二卡三卡四卡无卡乱码 | 欧美一级特黄啪啪片免费看 | 四虎成人免费网站在线 | 日韩精品视频免费在线观看 | 久久美女免费视频 | 亚洲国产欧美精品一区二区三区 | 午夜欧美性视频在线播放 | 亚洲在成人网在线看 | 手机福利视频 | 波多野结衣在线一区 | 免费看大尺度视频在线观看 | 久久亚洲国产成人精品性色 | 末成年一级在线看片 | 99久久99久久免费精品蜜桃 | 四虎影院免费观看视频 | 你懂的网站在线观看网址 | 35pao强力打造 | 午夜影视免费观看 | 91欧美精品激情在线观看 | 一卡二卡四卡无卡乱免费网页 | 一级毛片aa | 女主播扒开内衣让粉丝看个够 | 午夜小片 |