在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepSeek最新論文:訓練速度提升9倍,推理速度快11倍!

Hobby觀察 ? 來源:電子發燒友 ? 作者:梁浩斌 ? 2025-02-20 11:25 ? 次閱讀

電子發燒友網報道(文/梁浩斌)周二xAI發布了Grok3,這個馬斯克稱之為“地球上最聰明的AI”搶占了所有人的眼球。

為了打造最強AI大模型,xAI投入了20萬塊H100 GPU,計算資源是上一代Grok2的15倍左右。在Benchmarks中,Grok3毫無懸念成功地領先Deepseek R1、o3 mini等對手。

不過用如此大規模的算力集群,花費上一代15倍的計算資源投入,業界認為Grok3的性能只是略微提升了大模型能力上限,實際提升幅度低于算力投入的預期。這或許也預示著大模型的Scaling Laws或許已經出現邊際效益遞減。

wKgZPGe2oNeARzHmAAUy0goVTck826.png
來源:X

就在Grok3發布的當天,DeepSeek團隊也發表了一篇論文(https://arxiv.org/pdf/2502.11089),介紹了一種新的稀疏注意力機制(Natively Sparse Attention,NSA),用于提升長文本訓練和推理的效率,并具備硬件對齊和端到端訓練的特性。

截至19日下午,這篇推文在X上已經有超過180萬觀看量。值得一提的是,DeepSeek創始人梁文鋒也出現在這篇論文的作者名單中。下面我們就來看一下這篇論文有哪些創新點。

核心理念:用更少的計算做更多的事

在大語言模型(LLM)發展的初期,曾經有一段時間處理長文本是考量不同模型性能的指標之一。因為傳統LLM在處理長文本時要面臨的一個問題是,計算成本過高。

為什么計算成本高?這主要是因為LLM此前使用的“全注意力”機制需要計算每個詞與其他所有詞之間的關系,當文本長度增加時,這種計算量會以指數級別增加,導致高延遲和高能耗,大幅增加了計算成本。比如要處理一本十萬字的書時,傳統方法需要計算這十萬字中所有詞之間的兩兩關系,這會讓計算速度變得極為緩慢,甚至根本無法完成任務。

為了解決這個問題,實際上稀疏注意力(Sparse Attention)機制一直在LLM中被應用。稀疏注意力的核心思想是,不需要計算所有詞之間的關系,只需要關注那些最重要的部分。通過這種方式實現“偷懶”,可以大大減少計算量,同時保持模型性能。

但現有的稀疏注意力機制也存在一些問題,比如在推理端,盡管理論上計算量是減少了,但實際推理速度沒有明顯加快;而在訓練端,現有的稀疏注意力機制在訓練端效果都不太好,只適用于推理階段。

所以這次DeepSeek團隊推出的NSA就是為了解決現有稀疏注意力機制的缺點,提高計算效率。

具體來看,NSA主要通過對文本的處理和硬件優化兩大方面實現。在文本處理方面,NSA采用分層稀疏策略,首先是將文本進行粗粒度壓縮,即將長文本分成多個塊,比如每32個詞為一個塊,然而用機器學習模型提取每個塊的摘要,減少計算量。

然后對文本進行細粒度選擇,即動態篩選出對當前任務最關鍵的幾個塊,比如通過注意力評分選出16個塊,只計算這些塊的詳細信息

最后保留局部的上下文,比如最近的512個詞,來確保模型能夠捕捉到上下文中短期的關系。

這個過程可以用閱讀書本來理解。比如你想看一本很厚的書,但沒有時間逐個字去看,那么你會通過哪些方法去了解這本書里的內容?上面提到的粗粒度壓縮,就相當于是將這本書快速翻閱一下,每頁都只是一眼掃過,大致了解內容;而細粒度選擇,就相當于標記出書里比較重要的章節和段落;最后仔細閱讀標記出來的部分,同時也能簡單看一下標記部分的上下文內容,這樣對于快速閱讀一本書而言顯然會是一個有效的方式。

而在硬件優化方面,NSA首先是將數據按連續塊加載到GPU的內存中,減少隨機訪問的開銷,實現分塊內存訪問;在解碼階段,令多個注意力頭共享相同的鍵值緩存,降低內存帶寬需求;在訓練階段,直接引入稀疏性,確保模型學會如何有效利用稀疏結構,實現端到端訓練。

DeepSeek在使用NSA進行驗證時,實際效果也相當喜人。首先是模型的訓練和推理速度都有明顯的提升,在64k長度的文本處理中,使用英偉達A100 GPU,NSA的推理速度比傳統注意力快11.6倍,訓練速度提升6-9倍。

同時在知識問答(MMLU)、代碼生成(HumanEval)、長文本理解(LongBench)等任務中,NSA的性能與全注意力模型相當甚至更好。證明NSA在提高效率的同時,依然可以保持良好的模型性能。

通過適配GPU的Tensor Core和內存架構,NSA也能最大化硬件利用率。NSA首次將分層稀疏策略與GPU內存層級(HBM→SRAM)對齊,實現理論計算節省與實際加速的統一。

所以總結下來,NSA的出現解決了稀疏注意力機制在實際應用中的兩大難題。在推理效率上,NSA顯著加快長文本處理速度,令大模型能夠處理更多超長文本任務;在訓練上,NSA相比傳統的稀疏注意力機制,可以更好地支持模型訓練。

更重要的是,NSA證明了稀疏注意力不是只能被用于推理,還能在訓練上應用,這能夠為下一代低功耗、高吞吐的LLM部署提供了關鍵技術基礎。

Kimi同步發布MoBA論文,提高長文本處理效率

wKgZO2e2oOaAbuOJAAXLZaK2lxs694.jpg
來源:X


DeepSeek發布論文的同一天,Kimi也發布了與NSA類似的MoBA,同樣采用了稀疏注意力的機制,旨在解決大語言模型處理長上下文時計算成本過高的問題。(論文鏈接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf)

不過于NSA不同的是,MoBA借鑒了“專家混合”(MoE)的理念,把整個文本分成多個“塊”,然后通過一種“選擇機制”決定每個查詢應該關注哪些塊。這種方式類似于讓模型自己決定“哪些部分更重要”,而不是預先設定固定的規則。

MoBA的核心是“動態選擇”,即通過一個“門控機制”來決定哪些塊需要被關注。這種方式讓模型可以根據任務需求靈活調整注意力范圍。

同時在硬件優化上,結合了FlashAttention技術,進一步提升了計算效率。通過分布式計算解決了GPU內存限制的問題,可以輕松擴展到1000萬詞以上的超長序列。超長文本也是MoBA最顯著的特性之一。

小結:

目前大模型Scaling Laws已經開始出現邊際效益遞減的跡象,未來提高算力利用率可能是推動大模型應用普及的關鍵方向。但隨著AI應用的不斷普及,算力需求整體來看依然是會繼續增長,大模型想要繼續發展,繼續投入算力硬件的回報或許不會再有顯著提升,各大研究機構和公司還需要尋找更多新的突破。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • DeepSeek
    +關注

    關注

    1

    文章

    447

    瀏覽量

    182
收藏 人收藏

    評論

    相關推薦

    DeepSeek推出NSA機制,加速長上下文訓練推理

    的特性,專為超快速的長上下文訓練推理而設計。 NSA通過針對現代硬件的優化設計,顯著加快了推理速度,并大幅度降低了預訓練成本,同時保持了卓
    的頭像 發表于 02-19 14:01 ?207次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    ) 擴展上下文+結構化推理(支持更長復雜輸入) 響應控制 通用流暢性優先 強化分步解釋與中間過程可解釋性 3. 技術架構差異 技術點 DeepSeek-V3 DeepSeek-R1 訓練
    發表于 02-14 02:08

    【實測】用全志A733平板搭建一個端側Deepseek算力平臺

    視頻可以看到,這個輸出速度基本可以滿足正常對話的交互體驗。 然后我們要求Deepseek“快速寫一段代碼計算1-9999的和” 實測視頻如下: ? 可以看到,Deepseek會先對題目進行分析,他很快
    發表于 02-13 10:19

    Deepseek R1大模型離線部署教程

    DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發的推理模型 。DeepSeek-R1采用強化學習進行后訓練,旨
    的頭像 發表于 02-12 09:37 ?624次閱讀
    <b class='flag-5'>Deepseek</b> R1大模型離線部署教程

    昆侖芯率先完成Deepseek訓練推理全版本適配

    本文是昆侖芯適配DeepSeek系列推文第一篇,將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1推理訓練的深度文章,干貨滿滿、持續關注!
    的頭像 發表于 02-06 15:13 ?439次閱讀
    昆侖芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>訓練</b><b class='flag-5'>推理</b>全版本適配

    采用FP8混合精度,DeepSeek V3訓練成本僅557.6萬美元!

    的模型需要花費約4684.8萬美元。然而,隨著技術的進步,這一成本正在迅速降低。DeepSeek V3的出現,標志著訓練成本的大幅下降,其訓練成本僅為557.6萬美元,相較于之前的模型,成本下降了
    的頭像 發表于 01-13 11:12 ?684次閱讀

    EMMC存儲速度如何提升

    提升eMMC(Embedded Multi Media Card)的存儲速度,可以從多個方面入手。以下是一些有效的方法: 一、硬件優化 啟用8線eMMC驅動 : 默認的4線模式可能不如8線模式
    的頭像 發表于 12-25 09:31 ?743次閱讀

    如何提升 ChatGPT 的響應速度

    提升 ChatGPT 的響應速度是一個涉及多個層面的復雜問題。以下是一些可能的方法和策略,可以幫助提高 ChatGPT 的響應速度: 優化算法 : 并行處理 :通過并行處理技術,可以讓多個計算任務
    的頭像 發表于 10-25 17:39 ?977次閱讀

    英偉達推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統的Transformer架構,nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20。這一顯著的性能
    的頭像 發表于 10-23 11:30 ?483次閱讀

    6G測試速度達938Gbps,比5G速度快5000

    智能手機網絡連接速度的5000。典型的5G運行速度約為200Mbps,而在實際使用中,由于信號連接問題,其提供的速度往往遠低于100Mbps。
    的頭像 發表于 10-22 16:27 ?680次閱讀

    Anthropic 發布Claude 3.5 Sonnet模型運行速度是Claude 3 Opus的兩

    Anthropic 發布Claude 3.5 Sonnet最新模型 新模型在推理、知識和編碼能力評估方面超越了以前的版本和競爭對手GPT 4o模型,同時其運行速度是Claude 3 Opus的兩
    的頭像 發表于 06-21 15:43 ?1052次閱讀
    Anthropic 發布Claude 3.5 Sonnet模型運行<b class='flag-5'>速度</b>是Claude 3 Opus的兩<b class='flag-5'>倍</b>

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    Blackwell GPU,標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統網絡擴展時 的通信開銷,使得對 1.8T 參數的模型進行實時推理成為可能,同時將模型訓練速度提升
    發表于 05-13 17:16

    STM32f103系列8位并口與硬件SPI驅動1.8TFT的屏幕,哪個速度快

    有沒前輩做過相關的項目,STM32f103系列 8位并口與硬件SPI 驅動1.8TFT的屏幕,哪個速度快?;蛘哂?位并口的操作資料可以提供參考一下嗎{:1:},不懂STM32如何發送8位并口數據,我現在的數據接口是PC2-PC9
    發表于 04-17 07:31

    新型散熱材料金剛石納米膜有望將電動汽車的充電速度提升

    近日,德國弗勞恩霍夫研究所 (Fraunhofer) 的科學家們利用超薄金剛石膜成功降低了電子元件的熱負荷,并有望將電動汽車的充電速度提升。
    的頭像 發表于 03-07 16:33 ?1460次閱讀
    新型散熱材料金剛石納米膜有望將電動汽車的充電<b class='flag-5'>速度</b><b class='flag-5'>提升</b>五<b class='flag-5'>倍</b>

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發效率提升10

    的潞晨科技Colossal-AI系統,用戶可實現在本地算力平臺一鍵訓練、微調、推理、部署大模型,將大模型開發效率提升10以上,并將算力效率提升
    的頭像 發表于 03-01 09:43 ?582次閱讀
    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發效率<b class='flag-5'>提升</b>10<b class='flag-5'>倍</b>
    主站蜘蛛池模板: 一级爱片 | 中文一区在线 | 好吊日在线 | 又色又污又爽又黄的网站 | 亚洲成人精品 | 伊人久久成人爱综合网 | 日本免费一区二区三区视频 | 亚洲福利二区 | jizz免费一区二区三区 | 无内丝袜透明在线播放 | 成人国产精品高清在线观看 | 一级毛片一级毛片一级毛片aa | 俄罗斯小屁孩cao大人免费 | miya亚洲私人影院在线 | 手机午夜看片 | 成人国产日本亚洲精品 | 色老头成人免费视频天天综合 | 男人操女人视频网站 | 四虎免费久久影院 | 亚洲欧美视频在线 | 婷婷久操| 2022第二三四天堂网 | 最近新韩国hd视频 | 么公的好大好硬好深好爽视频 | 日本黄视频在线观看 | 奇米影视四色首页手机在线 | 四虎永久精品免费观看 | 亚洲免费人成在线视频观看 | 禁h粗大太大好爽好涨受不了了 | 日本欧美色图 | 免费看大尺度视频在线观看 | 国产成人亚洲日本精品 | 在线视频图片小说 | 99草在线视频 | 欧美日本视频一区 | 99精品久久久久久久婷婷 | 视频在线二区 | 一区二区三区四区在线免费观看 | 中文字幕日韩三级 | 欧美午夜精品一区二区三区 | 真人午夜a一级毛片 |