在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

沐曦MetaX ? 來源:沐曦MetaX ? 2025-02-25 16:25 ? 次閱讀

DeepSeek 開源周

今日,DeepSeek正式啟動(dòng)"開源周"計(jì)劃,首發(fā)代碼庫FlashMLA一經(jīng)開源即引發(fā)全網(wǎng)關(guān)注。截至發(fā)稿,該項(xiàng)目已在GitHub斬獲超7.2K Star!

沐曦技術(shù)團(tuán)隊(duì)在FlashMLA開源后迅速響應(yīng),僅用2小時(shí)即完成與沐曦GPU的適配工作,并于當(dāng)日將代碼提交至開源社區(qū)。本次適配成功后,MXMACA平臺(tái)也可完美運(yùn)行FlashMLA,這充分驗(yàn)證了沐曦GPGPU架構(gòu)與MXMACA軟件平臺(tái)在生態(tài)兼容性方面的先天優(yōu)勢(shì)!

FlashMLA通過MLA解碼優(yōu)化與分頁KV緩存技術(shù)等顯著提升硬件利用率,可加速大語言模型解碼過程,有效提升響應(yīng)速度與吞吐量,尤其適用于聊天機(jī)器人等實(shí)時(shí)生成場(chǎng)景。沐曦在適配中應(yīng)用矩陣吸收算法將低秩投影融入Flash Attention 2核函數(shù),在保證計(jì)算效率的同時(shí)顯著降低顯存占用。同步構(gòu)建了MXMACA自動(dòng)化測(cè)試體系覆蓋常規(guī)及邊界場(chǎng)景,確保功能準(zhǔn)確性與數(shù)值穩(wěn)定性,為長(zhǎng)文本生成等顯存敏感場(chǎng)景提供顯著性能增益。沐曦本次提交的代碼不僅突破了官方實(shí)現(xiàn)中對(duì)Hopper架構(gòu)的依賴,還新增支持64以外的多樣化page size配置,大幅提升框架適用性,為開源社區(qū)帶來實(shí)質(zhì)性技術(shù)貢獻(xiàn)。

明天,DeepSeek開源計(jì)劃第二彈即將揭曉,敬請(qǐng)期待后續(xù)動(dòng)態(tài)!

關(guān)于沐曦

沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產(chǎn)品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計(jì)算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA),具備高能效和高通用性的天然優(yōu)勢(shì),能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案,是“雙碳”背景下推動(dòng)數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級(jí)的算力基石。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4819

    瀏覽量

    129686
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3458

    瀏覽量

    42899
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    1235
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    544

    瀏覽量

    274

原文標(biāo)題:2小時(shí)極速適配!沐曦GPU率先跑通DeepSeek開源代碼庫FlashMLA!

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    摩爾線程支持DeepSeek開源通信DeepEP和并行算法DualPipe

    DeepSeek開源周第四日,摩爾線程宣布已成功支持DeepSeek開源通信DeepEP和并行算法DualPipe,并發(fā)布相關(guān)
    的頭像 發(fā)表于 02-28 15:58 ?137次閱讀

    摩爾線程完成DeepSeek開源FlashMLA和DeepGEMM適配

    DeepSeek啟動(dòng)“開源周”以來,已陸續(xù)開源三個(gè)代碼。摩爾線程基于全新MUSA Compute Capability 3.1計(jì)算架構(gòu),
    的頭像 發(fā)表于 02-27 14:40 ?241次閱讀

    云天勵(lì)飛DeepEdge10適配DeepSeek開源周“首個(gè)大招”:FlashMLA

    2 月 24 日,DeepSeek"開源周"正式啟動(dòng),并發(fā)布首個(gè)代碼FlashMLA……
    的頭像 發(fā)表于 02-27 11:06 ?104次閱讀
    云天勵(lì)飛DeepEdge10適配<b class='flag-5'>DeepSeek</b><b class='flag-5'>開源</b>周“首個(gè)大招”:<b class='flag-5'>FlashMLA</b>

    DeepSeek宣布開源DeepGEMM

    DeepGEMM 是一個(gè)專為簡(jiǎn)潔高效的 FP8 通用矩陣乘法(GEMM)設(shè)計(jì)的,具有細(xì)粒度縮放功能,在Deepseek開源周的第三天Deepseek正式宣布
    的頭像 發(fā)表于 02-26 15:33 ?535次閱讀

    DeepSeek扔的第二枚開源王炸是什么,跟第一枚有何不同?強(qiáng)烈引發(fā)外媒熱議

    與DeepEP。這兩大開源項(xiàng)目的發(fā)布,不僅引發(fā)了國(guó)內(nèi)外媒體的廣泛關(guān)注與熱議,更在AI社區(qū)內(nèi)掀起了軒然大波。 2025年2月25日,DeepSeek開源周的第二天,正式發(fā)布了名為DeepEP的
    的頭像 發(fā)表于 02-26 11:10 ?399次閱讀
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>開源</b>王炸是什么,跟第一枚有何不同?強(qiáng)烈引發(fā)外媒熱議

    DeepSeek扔的第二枚開源王炸是什么

    DeepSeek在其開源周活動(dòng)中連續(xù)扔出了兩枚震撼業(yè)界的“開源王炸”--FlashMLA與DeepEP。 ? 在25日,也就是DeepSeek
    的頭像 發(fā)表于 02-26 11:05 ?292次閱讀
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>開源</b>王炸是什么

    開源大模型DeepSeek的開放內(nèi)容詳析

    代碼、數(shù)據(jù)到模型的完全開源是人們渴求的方向。那么 DeepSeek開源究竟開放了什么?開放到了何種程度?本文作者——資深程序員+資深律師,一起為大家拆解
    的頭像 發(fā)表于 02-19 09:48 ?559次閱讀
    <b class='flag-5'>開源</b>大模型<b class='flag-5'>DeepSeek</b>的開放內(nèi)容詳析

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    方案 :微調(diào)CodeLlama-34B(基于電子工程代碼)。 3. 物理設(shè)計(jì)輔助 Cadence Modus (商業(yè)化工具) 集成AI的PCB布局工具,可自動(dòng)優(yōu)化走線阻抗、散熱設(shè)計(jì)等(非開源模型,需
    發(fā)表于 02-14 02:08

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    -R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個(gè)較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個(gè)模型
    的頭像 發(fā)表于 02-10 09:56 ?207次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 <b class='flag-5'>DeepSeek</b> R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    DeepSeek-R1全尺寸版本上線Gitee AI

    DeepSeek 全套蒸餾模型以及 V3 版本上線后,經(jīng)過 Gitee AI 和團(tuán)隊(duì)兩天緊鑼密鼓的適配和機(jī)器籌備,DeepSeek-R1全尺寸版本現(xiàn)在已上線 Gitee AI
    的頭像 發(fā)表于 02-07 15:25 ?563次閱讀

    深度解析deepseek開源是什么意思

    Deepseek開源是指Deepseek項(xiàng)目的源代碼被公開,允許任何人免費(fèi)查看、使用、修改和分發(fā)。
    的頭像 發(fā)表于 02-06 09:29 ?2541次閱讀

    澎峰科技與完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對(duì)PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺(tái)與云系列通用計(jì)算
    的頭像 發(fā)表于 01-21 15:20 ?326次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對(duì)PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與云系列通用計(jì)算
    的頭像 發(fā)表于 01-21 09:51 ?251次閱讀

    開源AI模型是干嘛的

    開源AI模型是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經(jīng)過訓(xùn)練,能夠執(zhí)行特定的任務(wù)。以下,是對(duì)開源AI模型的詳細(xì)
    的頭像 發(fā)表于 12-14 10:33 ?393次閱讀

    開源鴻蒙】下載OpenHarmony 4.1 Release源代碼

    本文介紹了如何下載開源鴻蒙(OpenHarmony)操作系統(tǒng) 4.1 Release版本的源代碼,該方法同樣可以用于下載OpenHarmony最新開發(fā)版本(master分支)或者4.0 Release、3.2 Release等發(fā)布版本的
    的頭像 發(fā)表于 04-27 23:16 ?1175次閱讀
    【<b class='flag-5'>開源</b>鴻蒙】下載OpenHarmony 4.1 Release<b class='flag-5'>源代碼</b>
    主站蜘蛛池模板: 天堂视频在线观看 | 欧美伦理一区二区三区 | 一区二区不卡免费视频 | av手机在线播放 | 人人搞人人干 | 91热成人精品国产免费 | 欧美大香a蕉免费 | 婷婷射丁香 | 色yeye在线观看 | 色性网 | 可以看黄色的网站 | 亚洲影视一区二区 | 欧美成年网站 | 男人j进入女人免费视频 | 高清配种视频xxxxx | 四虎影院永久地址 | 亚洲人成www在线播放 | 夜恋秀场欧美成人影院 | www.四虎影 | 精品国产免费观看一区高清 | 天天搞天天爽 | 午夜影院免费观看 | 啪啪色视频 | 综合爱| 成人a毛片高清视频 | 一区二区三区在线免费 | 亚洲一一在线 | 国产一级特黄aa级特黄裸毛片 | 中文字幕精品一区二区2021年 | 天天精品视频在线观看资源 | 色综合社区 | 久热精品视频 | 免费观看美女被cao视频 | 黄网站观看 | 日欧毛片| 热久久最新地址 | 人与禽一级一级毛片 | 国产叼嘿视频网站在线观看 | 色女人在线 | 花怜write. as| 1024手机看片欧美日韩 |