91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SC11 FP300 MLA算子融合與優(yōu)化

算能開發(fā)者社區(qū) ? 2025-06-27 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeekV3的attention模塊采用了MLA(Multi-head Latent Attention,多頭潛注意力)結(jié)構(gòu),通過對attention過程中的Key和Value進行低秩聯(lián)合壓縮,降低推理過程中需要的KV cache,提升推理效率。MLA對attention過程中的Query也進行了低秩壓縮,可以減少訓(xùn)練過程中激活的內(nèi)存。

大模型的推理分為兩階段,處理所有輸入prompt并產(chǎn)生首個token的過程稱為prefill,此后至產(chǎn)生所有token結(jié)束推理的過程稱為decode,本文的MLA算子融合及優(yōu)化特指decode過程。

MLA的計算過程比較復(fù)雜,包括下投影、上投影、attention和輸出投影,為了減少數(shù)據(jù)搬運和任務(wù)調(diào)度帶來的時間開銷,提升芯片效率,我們在SC11上,將上投影和attention過程融合成MLA大算子,如圖1所示。DeepSeekV3提供了兩種計算模式:na?ve和absorb,我們采用計算量更少的absorb方式實現(xiàn)MLA decode過程,步驟如下:

78750016-5320-11f0-986f-92fbcf53809c.png

788afe16-5320-11f0-986f-92fbcf53809c.png圖1-SC11 MLA decode融合算子示意圖

常用的attention并行部署方案有兩種,TP(Tensor Parallel,張量并行)和DP(Data parallel,數(shù)據(jù)并行)。TP將權(quán)重切分到多顆芯片,每顆芯片會重復(fù)加載KV cache。DP將數(shù)據(jù)按batch分配到多顆芯片,每顆芯片處理不同batch的數(shù)據(jù),但會重復(fù)加載權(quán)重。實際應(yīng)用過程中,可以根據(jù)權(quán)重和緩存的大小選擇并行部署方案,權(quán)重和緩存大小如表1所示。

表1 權(quán)重與緩存數(shù)據(jù)大小

789c0530-5320-11f0-986f-92fbcf53809c.png

#seqlen指所有batch數(shù)據(jù)序列長度總和。

在SC11部署DeepSeekV3模型時,由于應(yīng)用場景中的權(quán)重數(shù)據(jù)多于KV cache數(shù)據(jù),所以MLA階段采用TP方案進行部署,即將Query、Key和Value的上投影權(quán)重矩陣按head切分,部署到四張SC11。DeepSeekV3的參數(shù)中,上投影權(quán)重有128頭,因此每張板卡處理32頭。每顆芯片有多個核,上投影權(quán)重會繼續(xù)按head切分到多核。由于低秩的KV cache不包含head維度,無法對KV cache進行TP,為了充分利用多核優(yōu)勢,我們對MLA的實現(xiàn)方式進行了探索,優(yōu)化了不同batch數(shù)目和序列長度下的實現(xiàn)方案,如表2所示。

表2 MLA decode多核實現(xiàn)方案

78ad1bb8-5320-11f0-986f-92fbcf53809c.png

除了算子融合與動態(tài)調(diào)用優(yōu)化后的實現(xiàn)方案,MLA的實現(xiàn)過程也采用了業(yè)界常用的Flash Attention和Page Attention等優(yōu)化方法,進一步減少數(shù)據(jù)搬運和內(nèi)存占用。在Page Attention過程中,我們采用兩塊buffer優(yōu)化KV cache搬運,使得數(shù)據(jù)搬運和MLA計算同步進行,優(yōu)化過程如圖2所示。圖中SDMA代表負責(zé)DDR和L2 SRAM之間或內(nèi)部的數(shù)據(jù)搬運模塊,GDMA代表負責(zé)任意內(nèi)存之間數(shù)據(jù)搬運的模塊,BDC代表負責(zé)數(shù)據(jù)計算的單元。

在時刻T0同時進行兩個操作:

SDMA將batch 0以page方式存儲的KV cache從DDR搬到L2 SRAM中的Buffer0,形成連續(xù)存儲的緩存數(shù)據(jù);

GDMA將上投影權(quán)重從DDR搬到芯片的片上內(nèi)存(local memory)。

在時刻T1同時進行三個操作:

SDMA將batch 1以page方式存儲的KV cache從DDR搬到L2 SRAM中的Buffer1,形成連續(xù)存儲的緩存數(shù)據(jù);

GDMA將Buffer0中連續(xù)存儲的batch 0的KV cache數(shù)據(jù)從L2 SRAM搬到localmemory;

BDC對batch 0進行MLA計算。

時刻T2和T3的操作可依此類推。測試數(shù)據(jù)表明,在128 batch 512序列的decode過程,使用雙buffer優(yōu)化page attention實現(xiàn)過程后,可以節(jié)省30%的推理時間。

78b6566a-5320-11f0-986f-92fbcf53809c.png圖2-雙buffer優(yōu)化Page Attention實現(xiàn)過程

經(jīng)過融合與優(yōu)化后的MLA,助力了DeepSeekV3全流程的性能,當(dāng)模型處理128 batch數(shù)據(jù),每batch輸入序列長度為128,輸出序列長度為1024時,DeepSeekV3全流程在4卡SC11上能達到532 token/s。

作者:周文婧,陳學(xué)儒,溫舉發(fā)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35153

    瀏覽量

    279845
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49021

    瀏覽量

    249487
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3144

    瀏覽量

    4067
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Pytorch已能做到100%替換CUDA,國內(nèi)也有智源研究院主導(dǎo)的FlagGems通用算子庫試圖構(gòu)建起不依賴CUDA的AI計算生態(tài),截至今日,F(xiàn)lagGems已進入Pyto
    的頭像 發(fā)表于 07-15 09:04 ?186次閱讀
    進迭時空同構(gòu)<b class='flag-5'>融合</b>RISC-V AI CPU的Triton<b class='flag-5'>算子</b>編譯器實踐

    鴻蒙應(yīng)用px,vp,fp概念詳解

    傳統(tǒng)移動端開發(fā)方向,轉(zhuǎn)到鴻蒙應(yīng)用開發(fā)方向。 前端開發(fā)同學(xué)對于開發(fā)范式很熟悉,但是對于工作流程和開發(fā)方式是會有不適感,其實移動應(yīng)用開發(fā)與前端開發(fā),最大的區(qū)別就在于UI適配和性能優(yōu)化上了。 今天我們就來分析下鴻蒙中UI適配的規(guī)范與小竅門。 二、 鴻蒙中vp、px、fp 是什么
    的頭像 發(fā)表于 07-07 11:48 ?174次閱讀
    鴻蒙應(yīng)用px,vp,<b class='flag-5'>fp</b>概念詳解

    摩爾線程GPU原生FP8計算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?606次閱讀
    摩爾線程GPU原生<b class='flag-5'>FP</b>8計算助力AI訓(xùn)練

    SC2121、SC2161和SC2167解鎖高性能RDC國產(chǎn)替代方案

    SC2121、SC2161和SC2167解鎖高性能RDC國產(chǎn)替代方案
    的頭像 發(fā)表于 03-11 09:55 ?578次閱讀
    <b class='flag-5'>SC</b>2121、<b class='flag-5'>SC</b>2161和<b class='flag-5'>SC</b>2167解鎖高性能RDC國產(chǎn)替代方案

    sc跳線是什么口

    連接器最早由日本NTT公司設(shè)計,后由日本NEC公司在上世紀80年代末期開發(fā)并推廣。以下是對SC跳線接口的詳細介紹: 一、外觀與尺寸 SC連接器外觀呈矩形,尺寸為22mm×11mm,體積適中且便攜,易于在擁擠的機柜或面板中進行操作
    的頭像 發(fā)表于 02-11 10:26 ?672次閱讀

    FP8在大模型訓(xùn)練中的應(yīng)用

    越來越多的技術(shù)團隊開始使用 FP8 進行大模型訓(xùn)練,這主要因為 FP8 有很多技術(shù)優(yōu)勢。比如在新一代的 GPU 上,FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型
    的頭像 發(fā)表于 01-23 09:39 ?1182次閱讀
    <b class='flag-5'>FP</b>8在大模型訓(xùn)練中的應(yīng)用

    EE-401:ADSP-SC5xx/215xx SHARC處理器系統(tǒng)優(yōu)化技術(shù)

    電子發(fā)燒友網(wǎng)站提供《EE-401:ADSP-SC5xx/215xx SHARC處理器系統(tǒng)優(yōu)化技術(shù).pdf》資料免費下載
    發(fā)表于 01-06 15:23 ?0次下載
    EE-401:ADSP-<b class='flag-5'>SC</b>5xx/215xx SHARC處理器系統(tǒng)<b class='flag-5'>優(yōu)化</b>技術(shù)

    FP7127/FP7128 降壓雙路調(diào)光調(diào)色方案 輸入48V,輸出36V,12W功率

    0.1kHz~20kHz,并且可共陽調(diào)光。 芯片參數(shù) ·FP7127內(nèi)置 100V/300mΩ MOS,最大輸出電流1A ·FP7128內(nèi)置 100V/100mΩ MOS,最大輸出電流2A ·輸入電壓
    的頭像 發(fā)表于 11-23 17:40 ?739次閱讀
    <b class='flag-5'>FP</b>7127/<b class='flag-5'>FP</b>7128 降壓雙路調(diào)光調(diào)色方案 輸入48V,輸出36V,12W功率

    光纖口是sc-sc什么樣

    光纖口SC-SC指的是兩端均采用SC(Subscriber Connector或Standard Connector)型連接器的光纖跳線。以下是對SC-SC光纖接口的詳細介紹: 一、外觀與結(jié)構(gòu)
    的頭像 發(fā)表于 11-18 10:38 ?1542次閱讀

    sc光纖是什么意思

    SC光纖指的是采用SC(Subscriber Connector)接口的光纖連接器,它是一種廣泛應(yīng)用于光纖通信系統(tǒng)中的標(biāo)準連接器類型。以下是對SC光纖的詳細解釋: 一、定義與起源 SC
    的頭像 發(fā)表于 10-17 10:40 ?2428次閱讀

    基于 DSP5509 進行數(shù)字圖像處理中 Sobel 算子邊緣檢測的硬件連接電路圖

    優(yōu)化。例如,可以調(diào)整存儲模塊的訪問速度、優(yōu)化 Sobel 算子的計算算法、提高顯示模塊的刷新率等,以提高系統(tǒng)的性能和穩(wěn)定性。 總之,基于 DSP5509 的數(shù)字圖像處理中 Sobel 算子
    發(fā)表于 09-25 15:25

    FP8模型訓(xùn)練中Debug優(yōu)化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓(xùn)練,以提高計算效率和性能。在此,我們整理并總結(jié)了客戶及 NVIDIA 技術(shù)團隊在 FP8 模型訓(xùn)練過程中的 debug 思路和方法,供大家參考。
    的頭像 發(fā)表于 09-06 14:36 ?930次閱讀
    <b class='flag-5'>FP</b>8模型訓(xùn)練中Debug<b class='flag-5'>優(yōu)化</b>思路

    TMP300 采用 SC70 封裝的 1.8V 電阻器可編程溫度開關(guān)和模擬輸出溫度傳感器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《TMP300 采用 SC70 封裝的 1.8V 電阻器可編程溫度開關(guān)和模擬輸出溫度傳感器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 08-12 11:12 ?0次下載
    TMP<b class='flag-5'>300</b> 采用 <b class='flag-5'>SC</b>70 封裝的 1.8V 電阻器可編程溫度開關(guān)和模擬輸出溫度傳感器數(shù)據(jù)表

    摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

    近日,摩爾線程與北京智源人工智能研究院(簡稱:智源研究院)已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于摩爾線程自研統(tǒng)一系統(tǒng)計算架構(gòu)MUSA,雙方在短短一周多的時間
    的頭像 發(fā)表于 08-02 11:06 ?1434次閱讀

    smart config無法進入SC_STATUS_LINK怎么解決?

    _STATUS_FIND_CHANNEL TYPE: AIRKISS F|sniffer on ch:11 F|rssi:-22, ch:11 F|head:82 SC_STATUS_GETTING_SSID_PSWD
    發(fā)表于 07-22 07:17
    主站蜘蛛池模板: 你懂的在线免费视频 | 5g影院欧美成人免费 | 久久水蜜桃网 | 91中文字幕在线视频 | 4438x亚洲最大| 色妞综合网 | 久综合| vip影院在线观看 | 亚洲综合情| wwwxx免费| 特黄aaaaaa久久片 | 日本高清免费aaaaa大片视频 | 日韩一级欧美一级 | 亚洲a网站| 久久手机视频 | 女人爽到喷水的视频大全在线观看 | 国产美女视频黄a视频免费全过程 | 欧美乱论视频 | 久久精品国产亚洲片 | 天天夜夜操 | 可以免费看黄的网址 | 免费黄色毛片 | 天堂网最新版www中文 | 一二三区在线视频 | 四虎影在永久地址在线观看 | aika中文字幕永久在线 | 狠狠干网站 | 四虎影院免费视频 | 男人天堂久久 | 手机在线视频你懂的 | 久青草久青草高清在线播放 | www.久久在线| 日本特级黄色大片 | 在线aa| 国产一区二区在线视频播放 | 又粗又爽又色男女乱淫播放男女 | 鲁丝一区二区三区 | 欧美视频一区二区三区在线观看 | 看黄网站在线观看 | 性欧美1819hd| 婷婷六月综合网 |