将夜猫腻小说,玄幻小说排行榜完本,武道至尊帝临小说

電子發燒友網報道（文/梁浩斌）周二xAI發布了Grok3，這個馬斯克稱之為“地球上最聰明的AI”搶占了所有人的眼球。

為了打造最強AI大模型，xAI投入了20萬塊H100 GPU，計算資源是上一代Grok2的15倍左右。在Benchmarks中，Grok3毫無懸念成功地領先Deepseek R1、o3 mini等對手。

不過用如此大規模的算力集群，花費上一代15倍的計算資源投入，業界認為Grok3的性能只是略微提升了大模型能力上限，實際提升幅度低于算力投入的預期。這或許也預示著大模型的Scaling Laws或許已經出現邊際效益遞減。

來源：X

就在Grok3發布的當天，DeepSeek團隊也發表了一篇論文（https://arxiv.org/pdf/2502.11089），介紹了一種新的稀疏注意力機制（Natively Sparse Attention,NSA），用于提升長文本訓練和推理的效率，并具備硬件對齊和端到端訓練的特性。

截至19日下午，這篇推文在X上已經有超過180萬觀看量。值得一提的是，DeepSeek創始人梁文鋒也出現在這篇論文的作者名單中。下面我們就來看一下這篇論文有哪些創新點。

核心理念：用更少的計算做更多的事

在大語言模型（LLM）發展的初期，曾經有一段時間處理長文本是考量不同模型性能的指標之一。因為傳統LLM在處理長文本時要面臨的一個問題是，計算成本過高。

為什么計算成本高？這主要是因為LLM此前使用的“全注意力”機制需要計算每個詞與其他所有詞之間的關系，當文本長度增加時，這種計算量會以指數級別增加，導致高延遲和高能耗，大幅增加了計算成本。比如要處理一本十萬字的書時，傳統方法需要計算這十萬字中所有詞之間的兩兩關系，這會讓計算速度變得極為緩慢，甚至根本無法完成任務。

為了解決這個問題，實際上稀疏注意力（Sparse Attention）機制一直在LLM中被應用。稀疏注意力的核心思想是，不需要計算所有詞之間的關系，只需要關注那些最重要的部分。通過這種方式實現“偷懶”，可以大大減少計算量，同時保持模型性能。

但現有的稀疏注意力機制也存在一些問題，比如在推理端，盡管理論上計算量是減少了，但實際推理速度沒有明顯加快；而在訓練端，現有的稀疏注意力機制在訓練端效果都不太好，只適用于推理階段。

所以這次DeepSeek團隊推出的NSA就是為了解決現有稀疏注意力機制的缺點，提高計算效率。

具體來看，NSA主要通過對文本的處理和硬件優化兩大方面實現。在文本處理方面，NSA采用分層稀疏策略，首先是將文本進行粗粒度壓縮，即將長文本分成多個塊，比如每32個詞為一個塊，然而用機器學習模型提取每個塊的摘要，減少計算量。

然后對文本進行細粒度選擇，即動態篩選出對當前任務最關鍵的幾個塊，比如通過注意力評分選出16個塊，只計算這些塊的詳細信息。

最后保留局部的上下文，比如最近的512個詞，來確保模型能夠捕捉到上下文中短期的關系。

這個過程可以用閱讀書本來理解。比如你想看一本很厚的書，但沒有時間逐個字去看，那么你會通過哪些方法去了解這本書里的內容？上面提到的粗粒度壓縮，就相當于是將這本書快速翻閱一下，每頁都只是一眼掃過，大致了解內容；而細粒度選擇，就相當于標記出書里比較重要的章節和段落；最后仔細閱讀標記出來的部分，同時也能簡單看一下標記部分的上下文內容，這樣對于快速閱讀一本書而言顯然會是一個有效的方式。

而在硬件優化方面，NSA首先是將數據按連續塊加載到GPU的內存中，減少隨機訪問的開銷，實現分塊內存訪問；在解碼階段，令多個注意力頭共享相同的鍵值緩存，降低內存帶寬需求；在訓練階段，直接引入稀疏性，確保模型學會如何有效利用稀疏結構，實現端到端訓練。

DeepSeek在使用NSA進行驗證時，實際效果也相當喜人。首先是模型的訓練和推理速度都有明顯的提升，在64k長度的文本處理中，使用英偉達A100 GPU，NSA的推理速度比傳統注意力快11.6倍，訓練速度提升6-9倍。

同時在知識問答（MMLU）、代碼生成（HumanEval）、長文本理解（LongBench）等任務中，NSA的性能與全注意力模型相當甚至更好。證明NSA在提高效率的同時，依然可以保持良好的模型性能。

通過適配GPU的Tensor Core和內存架構，NSA也能最大化硬件利用率。NSA首次將分層稀疏策略與GPU內存層級（HBM→SRAM）對齊，實現理論計算節省與實際加速的統一。

所以總結下來，NSA的出現解決了稀疏注意力機制在實際應用中的兩大難題。在推理效率上，NSA顯著加快長文本處理速度，令大模型能夠處理更多超長文本任務；在訓練上，NSA相比傳統的稀疏注意力機制，可以更好地支持模型訓練。

更重要的是，NSA證明了稀疏注意力不是只能被用于推理，還能在訓練上應用，這能夠為下一代低功耗、高吞吐的LLM部署提供了關鍵技術基礎。

Kimi同步發布MoBA論文，提高長文本處理效率

來源：X

DeepSeek發布論文的同一天，Kimi也發布了與NSA類似的MoBA，同樣采用了稀疏注意力的機制，旨在解決大語言模型處理長上下文時計算成本過高的問題。（論文鏈接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf）

不過于NSA不同的是，MoBA借鑒了“專家混合”（MoE）的理念，把整個文本分成多個“塊”，然后通過一種“選擇機制”決定每個查詢應該關注哪些塊。這種方式類似于讓模型自己決定“哪些部分更重要”，而不是預先設定固定的規則。

MoBA的核心是“動態選擇”，即通過一個“門控機制”來決定哪些塊需要被關注。這種方式讓模型可以根據任務需求靈活調整注意力范圍。

同時在硬件優化上，結合了FlashAttention技術，進一步提升了計算效率。通過分布式計算解決了GPU內存限制的問題，可以輕松擴展到1000萬詞以上的超長序列。超長文本也是MoBA最顯著的特性之一。

小結：

目前大模型Scaling Laws已經開始出現邊際效益遞減的跡象，未來提高算力利用率可能是推動大模型應用普及的關鍵方向。但隨著AI應用的不斷普及，算力需求整體來看依然是會繼續增長，大模型想要繼續發展，繼續投入算力硬件的回報或許不會再有顯著提升，各大研究機構和公司還需要尋找更多新的突破。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

DeepSeek

DeepSeek

+關注

關注
1

文章
755

瀏覽量
1073

MVG推出SpeedProbe DL解決方案：有源相控陣天線校準速度提升至5倍

系統高達5倍的校準速度，顯著提升有源相控陣天線在防務領域的測試效率與性能。 MVG銷售總監 Per Noren 表示：“SpeedProbe DL解決方案在IDEX展會上

發表于 04-21 16:35 ?107次閱讀

MVG推出SpeedProbe DL解決方案：有源相控陣天線校準<b class='flag-5'>速度</b><b class='flag-5'>提升</b>至5<b class='flag-5'>倍</b>

DeepSeek推動AI算力需求：800G光模塊的關鍵作用

隨著人工智能技術的飛速發展，AI算力需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對算力的需求持續攀升，直接推動了服務器、光通信設備以及數據中心基礎設施的升級。特

發表于 03-25 12:00

【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

和人性化等特點。長時間運行 DeepSeek 程序，開發板未見明顯發熱，內存占用小，且處理速度快，取得了令人滿意的測試效果。總結本文介紹了幸狐 Omni3576 邊緣計算套件實現 DeepSeek

發表于 03-21 19:31

壁仞科技支持DeepSeek-V3滿血版訓練推理

DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統參考架構，再次引發行業震動，但目前尚未開源DeepSeek-V3 滿血版完整訓練代碼。壁仞科技憑借八大自主創新技術，實現

發表于 03-04 14:01 ?671次閱讀

研華邊緣AI平臺測試DeepSeek蒸餾版模型的最新數據

隨著Deepseek大模型的橫空出世，預計對整個工業領域會產生顛覆性的影響力，尤其針對邊緣部署部分獨創動態剪枝與量化技術，DeepSeek大模型支持在邊緣設備低功耗運行（最低適配5 TOPS算力硬件），推理

發表于 02-24 10:40 ?491次閱讀

研華邊緣AI平臺測試<b class='flag-5'>DeepSeek</b>蒸餾版模型的最新數據

DeepSeek推出NSA機制，加速長上下文訓練與推理

的特性，專為超快速的長上下文訓練和推理而設計。 NSA通過針對現代硬件的優化設計，顯著加快了推理速度，并大幅度降低了預訓練成本，同時保持了卓

發表于 02-19 14:01 ?520次閱讀

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

）擴展上下文+結構化推理（支持更長復雜輸入）響應控制通用流暢性優先強化分步解釋與中間過程可解釋性 3. 技術架構差異技術點 DeepSeek-V3 DeepSeek-R1 訓練

發表于 02-14 02:08

昆侖芯率先完成Deepseek訓練推理全版本適配

本文是昆侖芯適配DeepSeek系列推文第一篇，將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1推理、訓練的深度文章，干貨滿滿、持續關注!

發表于 02-06 15:13 ?948次閱讀

中國電提出大模型推理加速新范式Falcon

中提出的 Falcon 方法是一種增強半自回歸投機解碼框架，旨在增強 draft model 的并行性和輸出質量，以有效提升大模型的推理速度。Falcon 可以實現約 2.91-3.51

發表于 01-15 13:49 ?445次閱讀

EMMC存儲速度如何提升

要提升eMMC（Embedded Multi Media Card）的存儲速度，可以從多個方面入手。以下是一些有效的方法：一、硬件優化啟用8線eMMC驅動：默認的4線模式可能不如8線模式快

發表于 12-25 09:31 ?1399次閱讀

如何提升 ChatGPT 的響應速度

提升 ChatGPT 的響應速度是一個涉及多個層面的復雜問題。以下是一些可能的方法和策略，可以幫助提高 ChatGPT 的響應速度：優化算法：并行處理：通過并行處理技術，可以讓多個計算任務

發表于 10-25 17:39 ?1332次閱讀

英偉達推出歸一化Transformer，革命性提升LLM訓練速度

了新的突破。相較于傳統的Transformer架構，nGPT在保持原有精度的同時，直接將大型語言模型(LLM)的訓練速度提升了高達20倍。這一顯著的性能

發表于 10-23 11:30 ?688次閱讀

6G測試速度達938Gbps,比5G速度快5000倍

智能手機網絡連接速度的5000倍。典型的5G運行速度約為200Mbps，而在實際使用中，由于信號連接問題，其提供的速度往往遠低于100Mbps。

發表于 10-22 16:27 ?958次閱讀

Anthropic 發布Claude 3.5 Sonnet模型運行速度是Claude 3 Opus的兩倍

Anthropic 發布Claude 3.5 Sonnet最新模型新模型在推理、知識和編碼能力評估方面超越了以前的版本和競爭對手GPT 4o模型，同時其運行速度是Claude 3 Opus的兩倍

發表于 06-21 15:43 ?1243次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

Blackwell GPU，標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統網絡擴展時的通信開銷，使得對 1.8T 參數的模型進行實時推理成為可能，同時將模型訓練速度提升

發表于 05-13 17:16

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

DeepSeek最新論文：訓練速度提升9倍，推理速度快11倍！

評論

MVG推出SpeedProbe DL解決方案：有源相控陣天線校準速度提升至5倍

DeepSeek推動AI算力需求：800G光模塊的關鍵作用

【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

壁仞科技支持DeepSeek-V3滿血版訓練推理

研華邊緣AI平臺測試DeepSeek蒸餾版模型的最新數據

DeepSeek推出NSA機制，加速長上下文訓練與推理

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

昆侖芯率先完成Deepseek訓練推理全版本適配

中國電提出大模型推理加速新范式Falcon

EMMC存儲速度如何提升

如何提升 ChatGPT 的響應速度

英偉達推出歸一化Transformer，革命性提升LLM訓練速度

6G測試速度達938Gbps,比5G速度快5000倍

Anthropic 發布Claude 3.5 Sonnet模型運行速度是Claude 3 Opus的兩倍

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片