在DeepSeek啟動的“開源周”上(Open Source Week)DeepSeek將陸續開源5個代碼庫,大家關心的DeepSeek扔的第二枚開源王炸是什么?我們這里來簡單介紹一下。
DeepSeek在其開源周活動中連續扔出了兩枚震撼業界的“開源王炸”--FlashMLA與DeepEP。
在25日,也就是DeepSeek開源周的第二天,DeepSeek發布了名為DeepEP的開源代碼庫。DeepEP是全球首個專為MoE(混合專家)模型訓練和推理設計的通信庫,它的出現填補了該領域專用工具的空白。MoE模型作為一種能夠有效提升AI模型性能和擴展性的架構,近年來在自然語言處理、計算機視覺等領域得到了廣泛應用。然而,MoE模型在訓練和推理過程中,面臨著通信開銷大、算力需求高等挑戰。DeepEP正是針對這些痛點,通過優化GPU之間的信息傳輸效率,極大地緩解了從業者的算力焦慮。
業界人士多認為DeepEP是首個用于 MoE 模型訓練和推理的開源 EP 通信庫,它填補了MoE模型專用通信工具的空白,為大規模分布式AI訓練和實時推理場景提供了更高效的底層支持。
DeepEP的核心優勢在于其高效的通信機制。在傳統的分布式AI訓練中,GPU之間的通信往往成為性能瓶頸。DeepEP通過一系列創新技術,如低延遲通信協議、智能數據調度等,顯著提升了GPU之間的通信效率。這意味著,原本需要龐大算力支持的重型任務,現在可以在更少的GPU上高效完成。據DeepSeek官方介紹,使用DeepEP后,某些MoE模型的訓練速度可提升數倍,同時降低了對硬件資源的依賴。
DeepEP的技術性能特點概述:
EP為Expert Parallelism(專家并行),是一種在大規模分布式AI模型訓練中使用的技術,能用于提升模型并行處理能力和訓練效率。
1、高效通信架構
支持優化的全對全通信模式,實現節點內和節點間的NVLink與RDMA互聯,提升數據傳輸效率
2、多精度與調度優化
原生支持FP8低精度運算調度,降低計算資源消耗。
3、重性能內核
據介紹,高吞吐量內核可適用于訓練和推理預填充場景,最大化數據處理能力;
4、低延遲內核
它針對推理解碼場景設計,采用純RDMA通信和自適應路由技術,減少延遲。
5、資源控制與重疊機制
通過靈活的GPU資源控制策略,實現計算與通信過程的高效重疊,避免資源閑置。
6、深度優化場景
針對NVLink到RDMA的非對稱帶寬轉發場景進行專項優化,提升異構網絡下的傳輸性能;
支持SM(Streaming Multiprocessors)數量動態控制,平衡不同任務(如訓練與推理)的吞吐量需求。
DeepEP與FlashMLA的對比
DeepSeek在其開源周活動中首個開源的項目是FlashMLA;FlashMLA讓AI大模型低成本卻有高性能。
DeepSeek扔的第二枚開源王炸是全棧通信庫DeepEP。與第一枚開源王炸FlashMLA相比,兩者在多個方面存在顯著差異。以下是對這兩者的詳細對比以及外媒的熱議:
1. 功能定位:
● DeepEP:它是全球首個面向MoE(Mixture of Experts)模型的全棧通信庫,旨在優化GPU之間的信息傳輸效率,從而極大提升AI模型的訓練與推理效率。
● FlashMLA:專為英偉達Hopper架構GPU(如H800/H100)優化的高效MLA解碼內核,旨在顯著提升AI的加速能力,特別是在處理長短句子并行任務時能夠動態調整計算資源分配,避免算力浪費。
2. 技術特點:
● DeepEP:具備高效的全員通信能力,支持NVLink與RDMA技術,提供高吞吐量的訓練預填充內核以及低延遲的推理解碼內核。原生支持FP8調度,靈活的GPU資源管理能力使得計算和通信可以重疊進行。
● FlashMLA:專為高性能顯卡設計,能夠充分挖掘顯卡性能潛力,被視為AI加速的“渦輪增壓器”。
3. 硬件兼容性:
● DeepEP:具有更廣泛的硬件兼容性,不受特定GPU架構的限制。
● FlashMLA:目前僅適配Hopper架構GPU,國產GPU的兼容性尚待驗證。
DeepSeek的這兩枚開源王炸在國際上引起了廣泛關注。外媒對DeepSeek的評價普遍較高,認為其打破了人們對人工智能研發需要“高投入、長周期”的傳統認知,提供了低成本、高效能的解決方案。同時,DeepSeek的開源策略也被視為一種促進全球科技進步的積極舉措。
具體來說,外媒對DeepEP和FlashMLA的關注點有所不同。對于DeepEP,外媒主要關注其在優化GPU通信效率、提升AI模型訓練與推理效率方面的潛力。而對于FlashMLA,外媒則更側重于其在提升AI加速能力、挖掘顯卡性能潛力方面的表現。
DeepSeek的第二枚開源王炸DeepEP與第一枚開源王炸FlashMLA在功能定位、技術特點、硬件兼容性和開源時間等方面存在顯著差異。外媒對這兩者的評價普遍積極,認為它們為人工智能領域帶來了新的突破和進步。
我們知道每一次技術的突破都可能成為推動行業發展的關鍵力量。也能夠帶來更多產業鏈的機遇。比如AI 能力和性能不斷提升,模型的規模和復雜度持續增長,面對信息速率和密度不斷提升的AI,技術進步也會遵循摩爾定律,那硬件互連準備好了嗎?
DeepSeek啟動的“開源周”連續5天(2月24日至28日);歡迎大家繼續關注DeepSeek的大招。期待更多讓我們驚喜的東西能夠面世。
-
開源
+關注
關注
3文章
3458瀏覽量
42899 -
DeepSeek
+關注
關注
1文章
544瀏覽量
274
發布評論請先 登錄
相關推薦
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe
DeepSeek宣布開源DeepGEMM
DeepSeek扔的第二枚開源王炸是什么,跟第一枚有何不同?強烈引發外媒熱議

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA
鴻蒙原生應用開發也可以使用DeepSeek了
開源大模型DeepSeek的開放內容詳析

添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略
了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
【實測】用全志A733平板搭建一個端側Deepseek算力平臺
deepseek國產芯片加速 DeepSeek的國產AI芯片天團

評論