自DeepSeek啟動(dòng)“開源周”以來,已陸續(xù)開源三個(gè)代碼庫(kù)。摩爾線程基于全新MUSA Compute Capability 3.1計(jì)算架構(gòu),可提供原生FP8計(jì)算能力,同時(shí)升級(jí)了高性能線性代數(shù)模板庫(kù)MUTLASS,快速支持了FlashMLA。不僅如此,摩爾線程還基于MUTLASS在全新GPU架構(gòu)上優(yōu)化實(shí)現(xiàn)了FP8矩陣乘法,支持DeepGEMM的相應(yīng)功能,充分展示了摩爾線程MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的強(qiáng)大優(yōu)勢(shì)。
FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理內(nèi)核開源倉(cāng)庫(kù),旨在加速M(fèi)LA機(jī)制的計(jì)算,特別適用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。DeepGEMM是一個(gè)支持密集矩陣與混合專家(MoE)矩陣乘法的FP8 GEMM庫(kù),為 V3/R1的訓(xùn)練與推理提供強(qiáng)大動(dòng)力。這兩個(gè)重要的開源倉(cāng)庫(kù)均基于高性能通用矩陣乘法(GEMM)的C++模板庫(kù)進(jìn)行開發(fā)。
摩爾線程基于新一代計(jì)算架構(gòu)MUSA Compute Capability 3.1的全功能GPU,具備全新的Tensor計(jì)算引擎及數(shù)據(jù)搬運(yùn)引擎,能夠提供原生FP8計(jì)算能力。升級(jí)的MUTLASS高性能線性代數(shù)模板庫(kù)支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的優(yōu)化參考實(shí)現(xiàn),包括基于FlashAttention3思想實(shí)現(xiàn)的FlashMLA以及FP8矩陣乘算子,特別支持DeepSeek訓(xùn)練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。得益于全新的Tensor計(jì)算引擎,F(xiàn)P8計(jì)算具有足夠高的累加精度,無需額外的二次精度修正,為前沿算法的探索打下了堅(jiān)實(shí)基礎(chǔ)。
借助MUTLASS 0.2.0,摩爾線程發(fā)布開源倉(cāng)庫(kù)MT-FlashMLA,能夠快速對(duì)DeepSeek FlashMLA進(jìn)行兼容部署。同時(shí)摩爾線程MUTLASS提供了一個(gè)全新的參考實(shí)現(xiàn),充分汲取FlashAttention3的先進(jìn)算法思想,針對(duì)摩爾線程GPU設(shè)計(jì)了全新的計(jì)算流水線。這一設(shè)計(jì)能夠有效掩藏?cái)?shù)據(jù)搬運(yùn)的延遲和Softmax計(jì)算的開銷,充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計(jì)算效率。
作為國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),摩爾線程迅速響應(yīng),并快速適配DeepSeek的各個(gè)開源倉(cāng)庫(kù),旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動(dòng)開源生態(tài)的發(fā)展,通過技術(shù)開放與生態(tài)共建,加速國(guó)產(chǎn)全功能GPU在AI計(jì)算領(lǐng)域的規(guī)模化應(yīng)用,為更多用戶提供更智能、高效的解決方案。
關(guān)于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。
我們的目標(biāo)是成為具備國(guó)際競(jìng)爭(zhēng)力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。
-
gpu
+關(guān)注
關(guān)注
28文章
4819瀏覽量
129686 -
開源
+關(guān)注
關(guān)注
3文章
3458瀏覽量
42899 -
摩爾線程
+關(guān)注
關(guān)注
2文章
208瀏覽量
4748 -
DeepSeek
+關(guān)注
關(guān)注
1文章
544瀏覽量
274
原文標(biāo)題:原生FP8計(jì)算 + MUTLASS|摩爾線程高效完成DeepSeek開源庫(kù)FlashMLA和DeepGEMM的適配
文章出處:【微信號(hào):moorethreads,微信公眾號(hào):摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
摩爾線程支持DeepSeek開源通信庫(kù)DeepEP和并行算法DualPipe
云天勵(lì)飛DeepEdge10適配DeepSeek開源周“首個(gè)大招”:FlashMLA

DeepSeek宣布開源DeepGEMM
DeepSeek扔的第二枚開源王炸是什么

沐曦GPU跑通DeepSeek開源代碼庫(kù)FlashMLA
摩爾線程圖形顯卡MTT S80實(shí)現(xiàn)DeepSeek模型部署

摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務(wù)
摩爾線程開源高性能線性代數(shù)模板庫(kù)MUTLASS
摩爾線程完成股改,籌備上市
摩爾線程與超圖軟件完成產(chǎn)品兼容認(rèn)證
摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試
摩爾線程攜手智源研究院完成基于Triton的大模型算子庫(kù)適配
摩爾線程與智譜AI完成大模型性能測(cè)試與適配
摩爾線程和滴普科技完成大模型訓(xùn)練與推理適配
摩爾線程千卡智算集群與滴普企業(yè)大模型已完成訓(xùn)練及推理適配

評(píng)論