寒武紀思元370芯片是基于7nm制程工藝,思元370是寒武紀首款采用chiplet(芯粒)技術的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8),是寒武紀第二代產品思元270算力的2倍。憑借寒武紀最新智能芯片架構MLUarch03,思元370實測性能表現更為優秀。思元370也是國內第一款公開發布支持LPDDR5內存的云端AI芯片,內存帶寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。搭載MLU-Link?多芯互聯技術,在分布式訓練或推理任務中為多顆思元370芯片提供高效協同能力。全新升級的寒武紀基礎軟件平臺,新增推理加速引擎MagicMind,實現訓推一體,大幅提升了開發部署的效率,降低用戶的學習成本、開發成本和運營成本。
寒武紀思元370芯片參數特性詳解
http://m.xsypw.cn/d/6566167.html
寒武紀? AIDC? MLU370?-X8智能加速卡訓推一體人工智能加速卡
寒武紀?? AIDC?? MLU370 ?? -X8采用雙芯思元370配置,為雙槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)訓練算力和256TOPS (INT8)推理算力,同時提供豐富的FP16、BF16等多種訓練精度。基于雙芯思元370打造的MLU370-X8整合了兩倍于標準思元370加速卡的內存、編解碼資源,同時MLU370-X8搭載MLU-Link多芯互聯技術,每張加速卡可獲得200GB/s的通訊吞吐性能,是PCIe 4.0帶寬的3.1倍,支持單機八卡部署,可高效執行多芯多卡訓練和分布式推理任務。
MLU370-X8智能加速卡是全面升級的數據中心訓推一體AI加速卡,基于寒武紀全新一代思元370芯片,接口為PCIe 4.0 X16,是全高全長雙寬(FHFL-Dual-Slot)的標準PCIe加速卡,適用于業內最新的CPU平臺,可輕松搭載于最先進的人工智能服務器,快速實現 AI算力的部署。MLU370-X8加速卡功耗為250W,可為計算機視覺、自然語言處理、語音等多樣化的人工智能應用提供強大算力支持。
MLU370-X8 智能加速卡產品手冊免費下載
*附件:MLU370-X8 智能加速卡產品手冊免費下載.doc
產品規格
板卡型號 | MLU370-X8 |
---|---|
計算架構 | Camicon MLUarch03 |
制程工藝 | 7nm |
計算精度支持 | FP32、FP16、BF16、INT16、INT8、INT4 |
峰值性能 | 256 TOPS (INT8) |
128 TOPS (INT16) | |
96 TFLOPS (FP16) | |
96 TFLOPS (BF16) | |
24 TFLOPS (FP32) | |
內存類型 | LPDDR5 |
內存容量 | 48GB |
內存帶寬 | 614.4 GB/s |
視頻編解碼 | 最高可支持至8K;264路HEVC全高清視頻解碼;48路HEVC全高清視頻編碼; |
圖片編解碼 | 圖片編解碼最高分辨率支持16384x16384;8000 Frames/s 全高清圖片解碼;6000 Frames/s 全高清圖片編碼; |
系統接口 | x16 PCIe Gen4 |
MLU-Link?接口 | 4 ports, 16 Lanes, 50 Gbps |
MLU-Link?帶寬 | 聚合帶寬200GB/s Bi-direction |
形態 | 全高全長雙槽位 |
最大熱功耗 | 250W |
散熱設計 | 被動 |
在寒武紀基礎軟件平臺 SDK上實測,在常見的4個人工智能模型上,MLU370-X8單卡性能與主流350W RTX GPU相當;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互聯技術和寒武紀基礎軟件平臺 CNCL通訊庫的優化,在8卡環境下達到更優的并行加速比。
性能對比
*** 測試環境
250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
350W GPU: Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
-
加速卡
+關注
關注
1文章
63瀏覽量
11161 -
寒武紀
+關注
關注
11文章
199瀏覽量
74278 -
AI芯片
+關注
關注
17文章
1978瀏覽量
35781 -
算力
+關注
關注
2文章
1173瀏覽量
15552
發布評論請先 登錄
評論