摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

自DeepSeek啟動“開源周”以來，已陸續(xù)開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構(gòu)，可提供原生FP8計算能力，同時升級了高性能線性代數(shù)模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構(gòu)上優(yōu)化實現(xiàn)了FP8矩陣乘法，支持DeepGEMM的相應(yīng)功能，充分展示了摩爾線程MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的強大優(yōu)勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內(nèi)核開源倉庫，旨在加速MLA機制的計算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓(xùn)練與推理提供強大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進(jìn)行開發(fā)。

摩爾線程基于新一代計算架構(gòu)MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數(shù)據(jù)搬運引擎，能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數(shù)模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優(yōu)化參考實現(xiàn)，包括基于FlashAttention3思想實現(xiàn)的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓(xùn)練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。得益于全新的Tensor計算引擎，F(xiàn)P8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎(chǔ)。

借助MUTLASS 0.2.0，摩爾線程發(fā)布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進(jìn)行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實現(xiàn)，充分汲取FlashAttention3的先進(jìn)算法思想，針對摩爾線程GPU設(shè)計了全新的計算流水線。這一設(shè)計能夠有效掩藏數(shù)據(jù)搬運的延遲和Softmax計算的開銷，充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

作為國內(nèi)率先原生支持FP8計算精度的國產(chǎn)GPU企業(yè)，摩爾線程迅速響應(yīng)，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動開源生態(tài)的發(fā)展，通過技術(shù)開放與生態(tài)共建，加速國產(chǎn)全功能GPU在AI計算領(lǐng)域的規(guī)?；瘧?yīng)用，為更多用戶提供更智能、高效的解決方案。

關(guān)于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案，為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強大的AI計算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4948

瀏覽量
131256
開源

開源

+關(guān)注

關(guān)注
3

文章
3690

瀏覽量
43837
摩爾線程

摩爾線程

+關(guān)注

關(guān)注
2

文章
235

瀏覽量
5370
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
798

瀏覽量
1757

原文標(biāo)題：原生FP8計算 + MUTLASS｜摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

摩爾線程
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 摩爾線程MTT S系列GPU與愛特云V2.0完成適配
Hot 摩爾線程攜手RealLink共同完成UE5在國產(chǎn)顯卡上的首次適配

New 摩爾線程亮相2025中國移動產(chǎn)業(yè)投資生態(tài)合作大會
New 摩爾線程亮相2025全球數(shù)字經(jīng)濟(jì)大會

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實

腦極體
1天前

552 閱讀

三菱電機SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機半導(dǎo)體
15小時前

460 閱讀

三菱電機SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機半導(dǎo)體
15小時前

442 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
15小時前

389 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點

駿龍電子
15小時前

466 閱讀

全I(xiàn)P網(wǎng)絡(luò)中以預(yù)算為基礎(chǔ)之端對端服務(wù)質(zhì)量管理

安德森大
3350

3積分

14下載

基于轉(zhuǎn)差頻率矢量控制的電動叉車變頻電液系統(tǒng)研究

fansz
4900

5積分

44下載

《EMI-EMC電路設(shè)計攻略大全》

盧國藝
958KB

3積分

689下載

TI Designs Automatic Direction Control RS-485

lydia301
2.70 MB

1積分

0下載

帶LIN通信的8通道低側(cè)繼電器驅(qū)動器評估板NCV7748GEVB數(shù)據(jù)手冊

2.63 MB

免費

0下載

【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

左岸cpx
1天前

101 閱讀

【M-K1HSE開發(fā)板免費體驗】DevEco Studio應(yīng)用開發(fā)體驗(物理機器運行失敗)

jf_1137202360
1天前

70 閱讀

【RA-Eco-RA6M4開發(fā)板評測】開箱、Hello World（串口+OLED）

jf_57061047
1天前

116 閱讀

省錢+環(huán)保+個性：打造一臺永不“過時”的自定義電腦！

早知
2天前

526 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗】+溫度大氣壓檢測及顯示

jinglixixi
2天前

690 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

評論

摩爾線程開源高性能線性代數(shù)模板庫MUTLASS

摩爾線程完成股改，籌備上市

摩爾線程與超圖軟件完成產(chǎn)品兼容認(rèn)證

摩爾線程與羽人科技完成大語言模型訓(xùn)練測試

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

摩爾線程攜手東華軟件完成AI大模型推理測試與適配