編者按:本文是昆侖芯適配DeepSeek系列推文第一篇,將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1推理、訓練的深度文章,干貨滿滿、持續關注!
短短兩周,DeepSeek成為全球增速最快的AI應用。憑借卓越的性能和廣泛的應用場景,這匹大模型黑馬已然成為行業標桿,為千行百業提供了AI解決方案新選擇。 蛇年開工當天,昆侖芯新一代產品P800萬卡集群點亮的消息引發關注,三萬卡集群也將于近日點亮,為國產AI算力注入強大勢能。
昆侖芯在大模型時代爆發出卓越的競爭力,而這正是基于十余年真實業務場景歷練以及獨特的自研優勢。作為國產AI芯片引領者,昆侖芯已完成Deepseek訓練推理全版本適配,且性能卓越、成本效率極致,一鍵部署,為廣大開發者提供更快、更強、更省的訓推體驗。
全版本: 率先完成訓練推理DeepSeek全版本適配
在模型適配方面,昆侖芯領先業界。在DeepSeek-V3/R1上線不久,昆侖芯便率先完成全版本模型適配,這其中包括DeepSeek MoE 模型及其蒸餾的Llama/Qwen等小規模dense模型(詳見下方海報)。
同時,昆侖芯也已全面適配文心系列、Llama、Qwen、ChatGLM、Baichuan等各類大模型的推理和訓練任務,性能優勢明顯。在各個行業客戶、合作伙伴的業務場景中,昆侖芯已實際上線運行各類大模型任務;通過千卡和萬卡集群為客戶提供了穩定的服務和優秀的性能表現。
性能卓越: 前瞻產品定義、極致成本效率
得益于昆侖芯前瞻的產品定義,昆侖芯產品性能表現卓越,成本優勢領先。 昆侖芯P800可以較好的支撐Deepseek系列MoE模型大規模訓練任務,全面支持MLA、多專家并行等特性,僅需32臺即可支持模型全參訓練,高效完成模型持續訓練和微調。 P800顯存規格優于同類主流GPU20%-50%,對MoE架構更加友好,且率先支持8bit推理,單機8卡即可運行 671B 模型。正因如此,昆侖芯相較同類產品更加易于部署,同時可顯著降低運行成本,輕松完成DeepSeek-V3/R1全版本推理任務。
開發者友好:
一鍵部署、即刻上線
P800生態完備,易用性強,可以實現對訓練和推理任務的快速適配。P800快速適配支持了Deepseek-V3/R1的持續全參數訓練,LoRA等PEFT能力,提供給用戶開箱即用的訓練體驗。基于昆侖芯完整的軟件生態棧,兩個步驟即可輕松實現在昆侖芯P800上進行DeepSeek-V3/R1推理部署,對廣大開發者十分友好。
歡迎體驗: 兩步完成DeepSeek-V3/R1模型推理部署
1 .資源準備
主要是鏡像和模型,鏡像提供完整的依賴環境開箱即用。
模型準備
昆侖芯P800支持8bit推理,下載官方權重后使用如下命令進行量化(后文附有下載方式);其他不同尺寸蒸餾模型則通過huggingface下載即可。
鏡像準備(后文附有下載方式)
2 .啟動服務&請求示例
server和client使用方式和vllm社區基本一致,零成本上手,如下:
啟動服務
鏡像中一鍵啟動,采樣和推理參數可根據實際業務場景在腳本中配置。
請求示例
下圖為一個簡單的請求示例:
關于昆侖芯科技
昆侖芯科技前身為百度智能芯片及架構部,在實際業務場景中深耕AI加速領域十余年,2021年4月完成獨立融資。秉承著“讓計算更智能”的使命,昆侖芯科技專注打造擁有強大通用性、易用性和高性能的通用AI芯片,并已實現數代芯片系列產品的量產及規模部署。新一代產品昆侖芯P800萬卡集群已成功點亮,將進一步點亮3萬卡集群。
大模型時代,昆侖芯科技已與智能產業的上下游企業建立良好的合作生態,通過向不同行業提供以AI芯片為基礎的智能算力,在互聯網、交通、金融、工業、教育等領域中廣泛部署應用,促進了千行百業的智能化轉型,并創造了巨大的產業和社會價值。
*本文借助DeepSeek生成
-
芯片
+關注
關注
456文章
51192瀏覽量
427298 -
AI
+關注
關注
87文章
31536瀏覽量
270344 -
昆侖芯科技
+關注
關注
0文章
29瀏覽量
651 -
DeepSeek
+關注
關注
0文章
44瀏覽量
15
原文標題:首發 | 昆侖芯 | 國產AI卡Deepseek訓練推理全版本適配、性能卓越,一鍵部署等您來(附文檔下載方式)
文章出處:【微信號:昆侖芯科技,微信公眾號:昆侖芯科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
靈汐KA200芯片完成DeepSeek-R1系列模型適配
首發 | 昆侖芯 | 國產AI卡Deepseek訓練推理全版本適配、性能卓越,一鍵部署等您來(附文檔下載方式)
![首發 | <b class='flag-5'>昆侖</b><b class='flag-5'>芯</b> | 國產AI卡<b class='flag-5'>Deepseek</b><b class='flag-5'>訓練</b><b class='flag-5'>推理</b><b class='flag-5'>全</b><b class='flag-5'>版本</b><b class='flag-5'>適配</b>、性能卓越,一鍵部署等您來(附文檔下載方式)](https://file1.elecfans.com/web3/M00/07/4B/wKgZPGekYe6ALgUoAAAaqqZWWfY490.jpg)
摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務
燧原科技完成DeepSeek全量模型高效適配
云天勵飛上線DeepSeek R1系列模型
![云天勵飛上線<b class='flag-5'>DeepSeek</b> R1系列模型](https://file1.elecfans.com/web3/M00/07/40/wKgZPGekIduALExKAAANc3crHk8806.png)
聯通云與DeepSeek實現深度對接
昆侖芯P800萬卡集群成功點亮,將進一步點亮3萬卡集群
![<b class='flag-5'>昆侖</b><b class='flag-5'>芯</b>P800萬卡集群成功點亮,將進一步點亮3萬卡集群](https://file1.elecfans.com/web3/M00/07/35/wKgZPGejNrCAQ7V1AAtVgtVMWz8608.png)
對標OpenAI o1,DeepSeek-R1發布
![對標OpenAI o1,<b class='flag-5'>DeepSeek</b>-R1發布](https://file1.elecfans.com/web3/M00/06/DC/wKgZPGeQhzGAYiR7AAAwF47ND04277.png)
昆侖芯科技一行到訪京能集團
采用FP8混合精度,DeepSeek V3訓練成本僅557.6萬美元!
摩爾線程攜手東華軟件完成AI大模型推理測試與適配
摩爾線程和滴普科技完成大模型訓練與推理適配
摩爾線程千卡智算集群與滴普企業大模型已完成訓練及推理適配
![摩爾線程千卡智算集群與滴普企業大模型已<b class='flag-5'>完成</b><b class='flag-5'>訓練</b>及<b class='flag-5'>推理</b><b class='flag-5'>適配</b>](https://file1.elecfans.com/web2/M00/EA/F6/wKgaomZWk0CAMXd0AABFZ7yv7J4121.png)
評論