风凌天下,已完本玄幻小说排行榜,玄幻小说排行榜

DeepSeek讓各行業引入AI大模型的意識和積極性明顯提高，已推動AI在政務、能源、制造等領域廣泛鋪展開來。

很多政企用戶接入DeepSeek之后，感受到了AI大模型給業務帶來了“旦用難回”的體驗，很快就從試用的第一階段，進入第二階段——大模型推理集群的擴容升級。

當“有沒有Deepseek用”不再成為問題，那么“Deepseek好不好用”的挑戰就迎面而來。

一來，人多了，大量訪問請求帶來的高并發，就像春運高峰期涌入巨大的人流量，會出現請求積壓，模型推理思考時間變長，token吞吐速度下降，用戶的等待時延達到50-100毫秒，服務器繁忙和排隊讓人惱火。

二來，機器多了，增加更多服務器會遇到物理天花板，機器擴容并不會線性提升在線推理服務的體驗，就像即使增加了更多車廂，但鐵軌承載能力有限，也無法運送更多旅客（AI任務）了。

當行業智能化進入深度應用DeepSeek的第二階段，不得不面臨高并發推理的技術挑戰。在堆算力的同時，也要同步優化性能體驗，相當于想要運送更多乘客，不僅要增加車廂數量，還要同步改造軌道、站臺和管理機制，將老式火車升級為高鐵，才能綜合提高運輸效率。

以DeepSeek為例，前不久公布了其利潤率，高達545%，其中就涉及大量工程化能力，比如引入大EP推理集群，實現高并發推理吞吐量指數級增長。

對于更多行業和企業來說，沒有DeepSeek那樣的極客天才和頂尖技術團隊，怎樣用大EP來解決高并發推理挑戰呢？當AI大模型開始進入千行萬業的深水區，亟需一場大EP的“運力革命”。

很多政企客戶在接入了Deepseek之后，使用量進一步增加，有了擴展推理集群規模的需求，推理資源需要從2臺擴展到10臺，從16卡擴展到千卡，但擴容升級并不是往機房一放、網絡一連，就能高枕無憂了。

就像印度仍在使用的老式火車，僅靠增加車廂，還是無法提高運力，每個乘客能占用的火車空間極小，體驗很差，火車不堪重負，延誤晚點成了家常便飯。類似問題，在Deepseek和各種大模型與業務的結合中，高并發推理卡住了用戶的體驗瓶頸。

面對上述問題，大EP大規模專家并行的技術架構，成為趨勢。

簡單來說，大EP就是將MoE（混合專家）模型中數千個專家，分配到更多的卡（算力）上去。原本一張卡只能拉10個人，有了大EP，可以同時拉100個（高并發）；原本只能跑一趟車，現在可以同時跑八趟車（提高專家計算路數batch size），那么乘客就不用長時間等待了。

所以，通過大EP可以提高高并發推理場景下的計算效率，實現更大的吞吐和更低的時延。用戶體感上，比如一家銀行的工作人員同時訪問Deepseek，不會遇到排隊、延遲、過長等待等情況。

大EP這么好，怎么才能部署到自己的一體機或推理資源池呢？不經過一番努力，確實很難吃到大EP的蛋糕。

一方面，推理場景的算力需求指數級擴展，而海外廠商的推理芯片如H20，雖然顯存高，但算力不足，處理大EP場景時吞吐驟降。Deepseek公開的論文來看，仍然使用H800來進行推理。更強算力且供應鏈穩定的推理硬件，是大EP必不可少的。

另一方面，當請求總量猛增之后，會帶來多種多樣的負載，且極不均衡，相當于有的車廂坐的人多，有的車廂坐的人少，負載不均一樣會導致體驗不佳。

此外，大EP場景的All-to-All通信，導致卡間通信占比時間高，相當于每個車廂的專家都要通知到，這就會耽誤進出站的效率。NVLink在大EP場景中，實際有效帶寬利用率就不足。

由此可見，當行業使用Deepseek進入深水區，面對高并發推理場景，不能抱有“頭疼醫頭腳疼醫腳”的僥幸心理，而需要通盤思考和系統攻堅。

今天來看，各行各業擁抱Deepseek不是追逐一時風口，而是對智能化發展趨勢的長期價值判斷。普惠LLM進入千行萬業，已經是大勢所趨。

而大EP無法順利被行業用起來，就意味著接入Deepseek始終存在時延高、體驗差、成本難優化的問題，那么行業智能化也就無法順利達成。

不過也不必過于擔心，Deepseek、科大訊飛等模廠，與昇騰等算力廠商，以及政企行業用戶，一直保持著緊密協作與溝通，自開年Deepseek熱潮以來，從部署實踐中沉淀了大量技術創新。

近期，昇騰推出了大EP解決方案，面向高并發推理場景，一站式升級為智能化“高鐵”。

具體來說，昇騰大EP解決方案借助五大關鍵技術，與昇騰算力深度協同優化，成功突破了“專家負載均衡+通信優化”兩大難題。

針對專家負載不均的難題：

昇騰大EP解決方案提出了MoE負載均衡技術，可以自動尋優，根據業務情況、集群規模，找到最優的專家，自動預測哪個專家更忙，自動配比，當一個專家負載過多時自動講解，從而實現了備份節點和副本專家靈活可擴展、高可用和極致均衡，性能得到極大提升。

采用多種創新技術，做到自適應的autoPD分離部署。根據Prefill和Decode的動態負載，進行P、D實例的自動伸縮，無需人工介入，從而減少計算訪存資源競爭。結合多級緩存內存資源池化，對冷熱溫數據進行區分，可以讓系統的有效吞吐提升50%以上。

針對All-to-All通信優化的難題：

昇騰大EP解決方案提出了雙流/多維混合并行，其中Prefill micro-batch雙流并行，可以實現計算和通信的相互掩蓋；MoE expert專家雙流并行，實現兩條數據流Stream的并行計算；Weight權重預取雙流并行，可以把訪存和通信并行起來，降低權重加載時間，提升效率。

MLA預處理階段，昇騰大EP解決方案把大量的小算子，合成為大的融合算子，將計算耗時降低70%，讓算力能力充分發揮出來。

如果你覺得上述技術創新多、不好記，那么只需要，借助昇騰大EP解決方案，行業應用Deepseek時，可以做到：

快。訪問Deepseek無需等待。昇騰大EP可以將單卡并發提升3倍，Decode階段響應速度穩定在50ms以內，支撐600+并發請求。

省。業務使用Deepseek上量之后，推理集群擴展的同時，性能也保持線性度，擴容綜合成本更優。

正如高鐵改變了中國人的出行，昇騰大EP為高并發推理鋪設了一條“高速鐵路”，改變了Deepseek上量擴容階段的體驗，為行業智能化提速增效。

僅用兩個多月的時間，Deepseek就完成了從試用階段到擴容階段的進階。高并發推理場景和大EP技術架構，成為應用Deepseek的新挑戰。這也提醒我們，行業智能化是一個循序漸進的過程，不可能一蹴而就。

自主創新算力與國產模型如同高鐵的雙軌，成為支撐起智能中國的“新基建”。昇騰生態之所以與Deepseek等大模型更加適配，答案逐步清晰明確。

首先，昇騰有硬件，為行業智能化提供“永不沉降”的算力路基。昇騰硬件的FP16和INT8算力，可達到H20的2倍以上，且功耗更低，足以支撐各行業智能化的平穩前進。

此外，昇騰有軟硬件的協同優化能力。隨著行業智能化的不斷深入，AI模型對算力需求不斷擴張，但硬件的物理天花板和企業的投入產出比，都要求計算性能持續優化。昇騰的AI軟硬件，提供從預訓練到微調到強化學習，到推理集群、一體機，全流程全覆蓋的方案，可以快速響應客戶需求，高效支撐技術創新。目前，昇騰與DeepSeek最新技術已經實現了“day0”級別同步，確保企業智能化在昇騰軟硬件基座上，始終行駛在技術最前沿。

更重要的是，昇騰有伙伴。行業智能化是一個體系化工程，不是單一硬件或軟件廠商就能獨自完成的。在自主創新算力生態中，昇騰一方面兼容主流生態與PyTorch等國內外框架，同時與ISV伙伴、各大模廠都保持著緊密共生與合作。這意味著，當行業用戶基于昇騰底座開發AI應用，能得到生態的全方位助力，減少智能化升級的阻力，降低綜合成本。

今天，智能化已經成為全球經濟發展的主航道。在自主算力與國產模型所鑄就的雙軌上，行業智能化也將走深向遠，向著智能時代飛馳。