在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

壁仞科技支持DeepSeek-V3滿血版訓練推理

壁仞科技Birentech ? 來源:壁仞科技Birentech ? 2025-03-04 14:01 ? 次閱讀

DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統參考架構,再次引發行業震動,但目前尚未開源DeepSeek-V3 滿血版完整訓練代碼。壁仞科技憑借八大自主創新技術,實現DeepSeek-V3滿血版在國產GPU平臺的高效全棧式訓練與推理,實現國產大模型與國產GPU的深度融合優化,開啟國產算力新篇章。

01.首個國產化Megatron-LM

深度適配方案

DeepSeek業界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性,但并未開放訓練代碼,且Megatron-LM初期也未支持DeepSeek-V3。壁仞科技充分利用自研的Megatron-LM-BR插件、訓練框架BR-PyTorch以及高性能加速庫suDNN、suBLAS、suCCL等,在Megatron-LM框架上率先支持了這些新特性。針對DeepSeek-V3預訓練,壁仞支持四大并行策略(TP/EP/PP/DP)靈活組合,較原生方案(TP1PP16EP64DP2)更容易適應不同規模節點的靈活擴展。實現"Attention-MoE異構TP"技術,大幅降低了Attention顯存需求。

02.突破海外GPU高度依賴,

實現關鍵技術國產替代

DeepSeek基于海外GPU做了大量算法和軟硬件協同優化,其實現高度依賴海外GPU微架構、NVLink互連、IB交換機等?;谧匝蠦IREN大算力TCore、高速互連BLink等技術,壁仞科技在DeepSeek開源周之前就已經實現了FlashMLA、DeepGEMM、DeepEP等核心模塊類似功能和優化技術,并進行了軟硬協同深度優化,端到端打通了訓練全流程,實現了關鍵技術的國產自主可控。

03.業界首創顯存優化雙擎技術,

實現滿血版高效訓練

DeepSeek-V3滿血版有671B參數,官方推薦方案至少需要1024個H800(TP1PP16EP64DP1)才能進行全參訓練。為了應對顯存挑戰,壁仞科技自主創新Async Offload、GPU-based Chunk Optimizer等精度無損的顯存優化技術,將大量激活值及優化器狀態異步卸載至CPU內存,實現僅需4096GB顯存(8-16臺單機8卡GPU機器)即可支持DeepSeek-V3全參高效訓練。與此同時,通過巧妙地重疊計算與通信,上述顯存優化技術幾乎沒有帶來訓練性能的損失。另外支持智能重計算策略,自動識別顯存瓶頸層,實現"算力換空間"智能決策。通過Async Offload和重計算顯存優化雙擎技術,實現算力開銷和顯存節約的最佳均衡。

04.業界首創"虛擬層+動態重排"技術,

大幅降低流水線氣泡

DeepSeek的DualPipe技術能掩蓋部分傳輸開銷及大幅降低流水線氣泡,但DualPipe需要GPU微架構層面對計算單元進行精確控制才能實現計算和通信的高效并發,相比1F1B,DualPipe需要增加1倍的模型權重及部分激活值顯存消耗。相比1F1B,Interleave with Virtual Pipeline技術可以在不增加顯存消耗的情況下大幅降低流水線氣泡,但是要求每個PP Stage的layer數是均衡的。DeepSeek-V3有61個Layer,PP8/PP16都無法均衡切分Layer導致無法使能Virtual Pipeline,壁仞科技業界首創"虛擬層+動態重排"技術,通過插入3個虛擬層實現64層均勻切分,重排部分層實現負載均衡,避免流水線等待,最終實現高效PP并行。

05.融合算子加速體系,

釋放國產GPU性能潛力

針對DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等關鍵耗時算子,壁仞科技基于其GPU架構特點做了極致的圖算/通算融合優化,從多計算操作極致的片上融合,張量處理器與矢量處理器極致異步融合,多級緩存的流水融合,到計算與通信融合,并進一步引入自動化的Kernel Selection技術,基于硬件計算/通信/訪存建模的CostModel針對不同工作負載自適應選擇最優內核實現,將芯片綜合能效發揮到極致。

06.整合關鍵技術模塊,實現DeepSeek-

V3滿血版端到端高效預訓練

壁仞科技壁礪TM系列產品如壁礪TM106M、106B等產品具備高算力、高能效、高通用性等優勢,訓推一體,已在多個行業完成大規模商業化落地,其中在中國電信落地了國內少有的真正實現市場化建設和運營的國產千卡集群,連續訓練30天不中斷,斷點續訓小于5分鐘,支持客戶完成大模型訓練,穩定性、性能、精度各項指標達到客戶要求。此次基于壁礪TM106系列產品,壁仞科技快速高效完成了DeepSeek-V3各項關鍵技術落地,基于RedPajama-Data-1T-Sample主流開源數據集實現了端到端高效預訓練,Loss收斂正常。

07.實現W4A16細粒度量化技術,支持

DeepSeek-V3/R1滿血版高效推理

壁仞科技在此前已經支持了BF16、INT8等版本的DeepSeek-V3/R1滿血版推理,此次新提出W4A16等細粒度混合量化技術,進一步降低了處理延時,提升了總吞吐。另外針對DeepSeek官方最新發布的推理系統參考架構,壁仞科技已初步實現了分布式EP以及PD分離架構,將進一步提供更高性價比的推理集群解決方案。

08.One More Thing

業界首創大模型彈性訓推一體架構,

實現集群最佳利用效率

DeepSeek 開放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系統參考方案,為行業展示了如何實現高性能、低成本的分布式推理集群。其提到“由于白天的服務負荷高,晚上的服務負荷低,因此我們實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練”,在計算推理成本時,其將釋放給訓練使用的資源排除在外,因此降低了推理成本(大概20%= 100% - 226節點/278節點)。但如何實現訓練和推理任務高效共享資源呢?

此前在落地千卡集群時,壁仞科技已業界首創了大模型3D并行訓練任務自動彈性伸縮機制,可以在大模型訓練任務不中斷的情況下,根據集群的資源情況自動進行在線擴縮容。根據業務流量情況自動進行削峰填谷,對大模型推理服務進行實例縮容、擴容,相應的訓練任務則自動進行擴容、縮容。通過這套彈性訓推一體架構,可以將集群資源的使用率保持在近100%,大幅降低資源空閑浪費成本。

壁仞科技打造了軟硬一體、全棧優化、異構協同、開源開放的大規模智算集群全棧解決方案,憑借其技術創新能力和商業化落地成果,先后獲得環球時報新質生產力產業實踐“人工智能”示范標桿等多個權威技術獎項,技術方案和產品已在運營商、智算中心、行業AI、金融、電力等多個行業規模落地。此次通過八大核心技術賦能DeepSeek-V3滿血版全棧式訓練推理,進一步提升壁仞科技軟硬一體、開箱即用的產品實力,支持客戶利用好DeepSeek的新質生產力實現業務創新落地!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4865

    瀏覽量

    130227
  • 開源
    +關注

    關注

    3

    文章

    3510

    瀏覽量

    43193
  • 壁仞科技
    +關注

    關注

    1

    文章

    62

    瀏覽量

    2981
  • DeepSeek
    +關注

    關注

    1

    文章

    729

    瀏覽量

    818

原文標題:【智算新突破】壁仞科技八大核心技術賦能DeepSeek-V3滿血版全棧式訓練和推理

文章出處:【微信號:Birentech,微信公眾號:壁仞科技Birentech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    科大訊飛深度解析DeepSeek-V3/R1推理系統成本

    本篇分析來自科大訊飛技術團隊,深度解析了DeepSeek-V3 / R1 推理系統成本,旨在助力開發者實現高性價比的MoE集群部署方案。感謝訊飛研究院副院長&AI工程院常務副院長龍明康、AI工程院AI云平臺研發部總監李珍松、訊飛星辰MaaS團隊的研究對本文的貢獻。
    的頭像 發表于 04-15 13:46 ?131次閱讀
    科大訊飛深度解析<b class='flag-5'>DeepSeek-V3</b>/R1<b class='flag-5'>推理</b>系統成本

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    近日,DeepSeek正式發布了其大語言模型的全新小版本迭代——DeepSeek-V3-0324,這一版本在推理能力、代碼生成、中文寫作以及搜索能力等多個維度實現了顯著提升。憑借其先進的MUSA
    的頭像 發表于 03-31 11:34 ?346次閱讀
    摩爾線程GPU成功適配<b class='flag-5'>Deepseek-V3</b>-0324大模型

    科技推出阿里QWQ-32B大模型一體機

    3月6日,國產大模型領域再次迎來重大突破:阿里正式發布 32B 推理模型 QwQ-32B,根據Qwen公布的基準測試數據,QwQ-32B性能可媲美DeepSeek-R1,在數學推理、編
    的頭像 發表于 03-10 09:05 ?799次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技推出阿里QWQ-32B大模型一體機

    實戰教程 用滿血DeepSeek-V3 671B自動編寫俄羅斯方塊游戲

    。 本文將從零開始詳細介紹使用滿血版的DeepSeek-V3 671B模型 + 官方推薦的Roo Code插件為您打造AI編程智能體的全過程。 一,開發環境準備 本文的軟硬件環境如下: 操作系統
    的頭像 發表于 02-19 16:23 ?641次閱讀
    實戰教程 用<b class='flag-5'>滿血</b>版<b class='flag-5'>DeepSeek-V3</b> 671B自動編寫俄羅斯方塊游戲

    DeepSeek V3昇思MindSpore版本上線開源社區

    近日,基于昇騰AI硬件與昇思MindSpore AI框架版本的DeepSeek-V3完成開發支持并上線昇思開源社區,面向開發者提供開箱即用的預訓練推理能力,并已成功在大規模集群上預
    的頭像 發表于 02-18 10:12 ?800次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>V3</b>昇思MindSpore版本上線開源社區

    了解DeepSeek-V3DeepSeek-R1兩個大模型的不同定位和應用選擇

    ) 擴展上下文+結構化推理支持更長復雜輸入) 響應控制 通用流暢性優先 強化分步解釋與中間過程可解釋性 3. 技術架構差異 技術點 DeepSeek-V3
    發表于 02-14 02:08

    訊飛開放平臺支持DeepSeek

    今天,DeepSeek全系大模型正式上線訊飛開放平臺(包括DeepSeek-V3DeepSeek-R1),支持公有云API調用、一鍵部署專屬模型!
    的頭像 發表于 02-11 09:27 ?590次閱讀

    科技順利部署DeepSeek R1千問蒸餾模型

    DeepSeek 的國內算力支持隊伍進一步壯大:來自上海的科技順利部署DeepSeek-R1-Distill千問蒸餾模型(1.5B/7B
    的頭像 發表于 02-08 16:56 ?1058次閱讀

    瀚博完成DeepSeek全版本訓推適配

    國產高端GPU芯片提供商瀚博半導體(以下簡稱“瀚博”)已完成DeepSeek-V3與R1全系列模型訓推適配,單機可支持V3與R1 671B全量滿血版模型部署。
    的頭像 發表于 02-08 11:28 ?1049次閱讀

    昆侖芯率先完成Deepseek訓練推理全版本適配

    本文是昆侖芯適配DeepSeek系列推文第一篇,將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1推理訓練的深度文章,干貨滿滿、持續關注!
    的頭像 發表于 02-06 15:13 ?829次閱讀
    昆侖芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>訓練</b><b class='flag-5'>推理</b>全版本適配

    AMD將DeepSeek-V3模型集成至Instinct MI300X GPU

    AMD近日宣布了一項重要進展,成功將全新的DeepSeek-V3模型集成到其Instinct MI300X GPU上。這一舉措標志著AMD在AI推理優化方面邁出了重要一步。 據了解
    的頭像 發表于 02-06 09:41 ?370次閱讀

    AMD集成DeepSeek-V3模型至Instinct MI300X GPU

    AMD近日宣布了一項重要的技術進展,即將全新的DeepSeek-V3模型成功集成到其旗艦級GPU產品——Instinct MI300X上。這一舉措標志著AMD在人工智能推理領域邁出了堅實的一步
    的頭像 發表于 02-05 13:58 ?361次閱讀

    談談DeepSeek-v3提到的基礎設施演進

    DeepSeek-v3的感受是, 算法和Infra的非常緊密結合. 其實很多大模型團隊的算法和Infra是非常割裂的, 完全同時懂算法和Infra的人并不多, DeepSeek這個團隊就是其中之一
    的頭像 發表于 01-02 10:04 ?787次閱讀
    談談<b class='flag-5'>DeepSeek-v3</b>提到的基礎設施演進

    性能提升近一倍!科技攜手無問芯穹,在千卡訓練集群等領域取得技術新突破

    集群、大模型推理服務等領域開展了深度的研發合作。 近日,經科技與無問芯穹聯合研發攻關,成功將科技的千卡規模
    發表于 11-05 18:45 ?1333次閱讀
    性能提升近一倍!<b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技攜手無問芯穹,在千卡<b class='flag-5'>訓練</b>集群等領域取得技術新突破

    科技啟動上市輔導,客戶覆蓋多家行業巨頭

    計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。從發展路徑上,科技將首先聚焦云端通用智能計算,逐步在人工智能訓練、推理等多個領域趕超現有解決方案,實現國產高
    發表于 09-12 09:13 ?824次閱讀
    主站蜘蛛池模板: 美女被网站免费看九色视频 | 女人张开腿让男人桶视频免费大全 | 天天搞夜夜爽 | 手机看日韩毛片福利盒子 | 正在播放国产乱子伦视频 | 日韩欧美卡一卡二卡新区 | 婷婷六月综合 | 717影院理伦午夜论八戒 | 日韩欧美亚洲一区 | 91视频毛片 | 一本一本大道香蕉久在线精品 | 在线毛片网站 | 夜夜夜操操操 | 国产成人系列 | 欧美成人午夜 | 久草毛片| 男女午夜剧场 | 有没有免费的视频在线观看 | 美女黄页黄频 | 天堂资源在线最新版 | 日本三级特黄 | 天天爆操| 亚洲深爱 | 天天视频国产精品 | 特级一级毛片视频免费观看 | 尤物黄色| 国产精品视频你懂的 | 91在线网址 | 激情综合亚洲 | 久久综合九色综合98一99久久99久 | 久久波多野结衣 | 婷婷四房播客五月天 | 日本精品卡一卡2卡3卡四卡三卡 | 99久久免费午夜国产精品 | 免费鲁丝片一级观看 | 成人夜色香网站在线观看 | 亚洲精品色一区色二区色三区 | 欧美三级成人 | 日韩毛片高清在线看 | 天堂在线视频观看 | 亚洲深夜 |