在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepSeek的開源之路:一文讀懂從V1-R1的技術發展,見證從開源新秀到推理革命的領跑者

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-02-26 09:08 ? 次閱讀

作者:京東科技 蔡欣彤

一、引言:AI時代的挑戰與DeepSeek的崛起

在大模型時代,AI技術的飛速發展帶來了前所未有的機遇,但也伴隨著巨大的挑戰。隨著模型規模的不斷擴大,算力需求呈指數級增長,訓練成本飆升,而性能提升的邊際收益卻逐漸遞減,形成了所謂的“Scaling Law”瓶頸。與此同時,OpenAI、谷歌等巨頭通過閉源策略壟斷技術,限制了中小企業和研究機構的參與空間。在這樣的背景下,DeepSeek應運而生,以“低成本+高性能+開源”為核心理念,致力于打破行業壁壘,為AI普惠化開辟了新的可能性。

但每一個大模型爆火的背后都是需要經歷一代代的技術積累和演進,所以文本介紹一下 DeepSeek 系列主要模型的發布歷史及每一代模型的技術突破。

二、DeepSeek的發展歷程

1.DeepSeek-V1

DeepSeek V1是2024年1月份發布的第一版DeepSeek模型,論文地址: https://github.com/deepseek-ai/deepseek-LLM

DeepSeek-V1 有 7B 和 67B 兩個版本,并且每個版本分別有基礎和聊天的模型,它支持多種編程語言,具有強大的編碼能力,適合程序開發人員和技術研究人員使用。

1.1 技術分析

?數據層面:通過包括去重、過濾、混合3個步驟構建一個多樣性強、純凈的高質量預訓練數據

?模型結構方面: 模型的主體結構基本沿用LLaMA的體系結構, 在注意力機制方面, 7B模型使用 多頭注意力Multi-Head attention (MHA),而67B模型使用Grouped-Query Attention (GQA)替代MHA用來降低成本

1.2 成果解讀

第一代的模型在我看來更多的還是復現LLaMA,雖然采用了更優質的訓練集提升了性能,但就像DeepSeek論文中提到,也存在潛在缺點:過渡依賴培訓數據容易產生偏見;幻覺問題沒有處理很好;在其生成的響應中表現出重復回答等問題.

2.DeepSeek-V2

2024年5月左右發布了DeepSeek-V2,論文地址: https://github.com/deepseek-ai/DeepSeek-V2 .

這個版本的發布也讓deepSeek正式引起了大模型領域的關注.

2.1 技術分析

DeepSeek V2最核心的點都在改動模型結構上.分別為 多頭潛在注意力機制(Multi-head Latent Attention,MLA) 和 DeepSeekMoE架構, 這兩點也為后面的R1版本奠定了基礎.

整體結構如下圖:在注意力機制部分采用MLA,在前饋網絡(FFN)部分采用DeepSeekMoE的結構.

??

??

2.1.1 MLA

在標準的 Transformer 模型中,多頭注意力機制(MHA)通過并行計算多個注意力頭來捕捉輸入序列中的不同特征,每個注意力頭都有自己的Q,K,V. 這樣在處理長序列時,鍵值緩存(KV Cache)的內存開銷會隨著序列長度線性增長,這成為大模型推理效率的主要瓶頸之一.

MLA利用低秩鍵值聯合壓縮來消除推理時間鍵值緩存的瓶頸,從而支持有效的推理.MLA的具體實現包括以下關鍵技術:

?低秩鍵值聯合壓縮(low-rank key-value joint compression):MLA通過將鍵和值矩陣壓縮到低維空間,減少了KV Cache的內存占用。

?多頭潛在注意力:MLA在傳統多頭注意力的基礎上,引入了潛在注意力機制,通過動態調整注意力頭的計算方式,進一步優化了長序列處理的效率。

?稀疏注意力:MLA通過稀疏化注意力權重,減少了計算復雜度,同時保持了模型的性能。

2.1.2 DeepSeekMoE

DeepSeekMoE對比傳統的混合專家模型(Mixture of Experts, MoE),多了2個核心優化:

?細粒度專家劃分:如圖(b)Fine-grained Expert,DeepSeekMoE 將專家數量大幅增加,每個專家負責更小的輸入空間。這種細粒度劃分使專家能夠更專注于特定任務,從而提高模型的表達能力和泛化性能

?共享專家隔離:如圖(c)Shared Expert DeepSeekMoE 引入共享專家機制,用于捕獲跨任務的通用知識.這樣的設計減少了路由專家之間的冗余,提高了參數效率,還改善了負載均衡問題,避免了某些專家被過度激活的情況.(簡單點來說,就是共享專家干通用的活,其他專家干自己更專業的活)

wKgZO2e9nTyAcSitAAQGtnHOU48327.png

??

此外,DeepSeekMoE還做了負載均衡策略,

?負載均衡策略:論文中為Load Balance Consideration

?Expert-Level Balance Loss:創新性地避免了傳統負載均衡方法對模型性能的負面影響,通過靈活的批量負載均衡策略,允許專家在不同領域中更好地專業化

?Device-Level Balance Loss:在分布式訓練和推理中,DeepSeekMoE 通過設備受限的路由機制,將專家分配到不同的設備上,并限制每個設備只能訪問本地專家。這減少了跨設備通信的開銷,顯著提升了訓練和推理效率

2.2 成果解讀

高效的性能與低成本:通過上面的結構優化,降低了計算開銷,訓練成本的降低大幅降低了開發門檻,適合科研和商業化應用

chaijie_default.png

??

3.DeepSeek-V3

DeepSeek-V3 是在2024年12月26正式發布. 論文地址: DeepSeekV3 Technical Report

DeepSeek-V3是該系列中的一個里程碑版本,專注于知識類任務和數學推理,性能大幅度提升,這個版本的發布也讓DeepSeek走進了大眾視野.

整體來說,V3版本繼續沿用了V2版本的MLA和DeepSeekMoE結構,總使用了671B參數,完成整個訓練時間也減少很多.

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.

3.1 技術分析

DeepSeekV3在模型結構上的核心優化有兩點:

1.對DeepSeekMoE中的多專家負載均衡問題,提出了無輔助損失負載均衡策略(auxiliary-loss-free strategy),相比使用輔助loss提升了模型性能;

2.引入多Token預測(Multi-Token Prediction,MTP)技術,相比原來每次只能預測一個token,顯著提升了infer的速度。

3.1.1 auxiliary-loss-free strategy

無輔助損失策略旨在解決傳統 MoE 模型中因負載不均衡導致的計算效率下降和性能損失問題.

傳統的 MoE 模型中,專家負載不均衡是一個常見問題。某些專家可能會被過度激活,而其他專家則處于閑置狀態,這不僅降低了計算效率,還可能導致路由崩潰(routing collapse),從而影響模型性能.為了解決這一問題,傳統方法通常依賴于輔助損失(Auxiliary Loss),通過額外的損失函數來強制均衡專家的負載。然而,輔助損失可能會對模型性能產生負面影響,尤其是在損失權重設置不當的情況下.

而無輔助損失負載均衡策略則是通過動態調整專家路由的偏差項(bias term)來實現負載均衡,而無需引入額外的輔助損失函數.具體來說:

? 偏差項調整:在訓練過程中,系統會監控每個專家的負載情況。如果某個專家過載,則減少其偏差項;如果某個專家欠載,則增加其偏差項。這種動態調整確保了專家負載的均衡,同時避免了輔助損失對模型性能的干擾

? 路由機制:在計算專家親和度分數(affinity score)時,偏差項被添加到親和度分數中,以確定每個 token 應該路由到哪些專家。門控值(gating value)仍然基于原始的親和度分數計算,從而保持了模型的路由靈活性

采用這種方法,無需引入額外的損失函數,從而在保持模型性能的同時提高了訓練穩定性

3.1.2 MTP

傳統的模型通常采用單Token預測目標,即每次將當前預測結果作為最新的一個輸入,再次預測下一個。而MTP則擴展了這一目標,要求模型在每個時間同時預測多個未來的Token(例如2個、3個或更多)。

使用MTP, 一方面每次預測多個Token,可使訓練信號更密集,提高數據利用效率和訓練速度,另一方面也可以讓模型在生成后續token的時候有一個全局性,從而生成更連貫和語義準確的文本.

大致做法:模型除了有一個主模型,還有幾個并行的MTP模塊.這些MTP模塊的Embedding層和Output Head和主模型共享.在主模型預測了next token后,將這個預測token的表征和之前token的Embedding拼接到一起,生成一個新的輸入(超出長度的更久遠的token被才減掉)。這個拼接好的Embedding輸入到第一個MTP中預測next next token。以此類推..

文中引入Multi-Token Prediction主要為了提升訓練效果,推理階段可以直接去掉這些MTP模塊,主模型可以獨立運行,確保模型的正常工作.

wKgZPGe9nT2AYO2aAALRAzJkfUk076.png

??

3.2 成果

DeepSeek-V3 多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

wKgZO2e9nT6AYkIbAAJawIq5s10068.png

??

?

4.DeepSeek-R1-Zero和DeepSeek-R1

接著就來到了重頭戲,在2025年1月20日發布的DeepSeek-R1模型, 論文地址: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

他的發布,帶來了世界的震撼,也讓2025年初所有人都開始談論.

4.1 技術分析

其實這個DeepSeek-R1先有一個DeepSeek-R1-Zero的版本,只通過強化學習(RL)進行訓練,沒有用監督微調 (SFT) 作為預備步驟,但是它遇到了諸如可讀性差和語言混合等問題,接著引入了 DeepSeek-R1,它在 RL 之前結合了多階段訓練和冷啟動數據.

DeepSeek-R1的技術主要有以下幾點:

?采用GROP(Group Relative Policy Optimization)算法

?Reward Modeling :一種基于規則的獎勵系統和語言一致性獎勵系統

?Cold Start:使用數千條冷啟動數據

4.1.1 GROP算法

LLM 中主流 RLHF 方向分為兩大路線:

?以 [PPO] 為代表的 On Policy 路線 (但目前最常用的還是PPO)每次訓練都基于自己的生成模型(Actor),通過教練(Critic)反饋獎勵;優勢是效率高,沒有模型自生成自然效率高,問題是訓練后模型能力可能不夠;

?以 [DPO] 為代表的 Off Policy 路線 基于現有標注的情況進行分析,存在訓練樣本可能與模型不匹配的問題;優勢是更有可能達到模型能力的上限,問題是效率較低。

從PPO的優化過程分析,其存在如下缺點:1.需要訓練一個與策略模型大小相當的價值模型(Value Model),這帶來了巨大的內存和計算負擔; 2.LLM 通常只有最后一個 token 會被獎勵模型打分,訓練在每個 token 上都準確價值函數難;

而GROP避免了像 PPO 那樣使用額外的 Value Model ,而是使用同一問題下多個采樣輸出的平均獎勵作為基線,好處:

?無需額外的價值函數:GRPO 使用組內平均獎勵作為基線,避免了訓練額外的價值函數,從而減少了內存和計算負擔。

?與獎勵模型的比較性質對齊:GRPO 使用組內相對獎勵計算優勢函數,這與獎勵模型通常在同一問題的不同輸出之間進行比較的性質相符。

?KL懲罰在損失函數中:GRPO 直接將訓練策略 πθ 和參考策略 πref 之間的 KL 散度添加到損失中,而不是像 PPO 那樣在獎勵中添加 KL 懲罰項,從而避免了復雜化 A^i,t 的計算。

wKgZO2e9nTCAev66AAN4T6Dcm34258.png

??

4.1.2 Reward Modeling

為了訓練DeepSeek-R1-Zero,采用了一種基于規則的獎勵系統,該系統主要由兩種類型的獎勵組成:

?準確性獎勵:準確性獎勵模型評估響應是否正確。例如,在具有確定性結果的數學問題中,模型需要以指定格式(例如,在框內)提供最終答案,從而實現基于規則的可靠正確性驗證。類似地,對于 LeetCode 問題,可以使用編譯器根據預定義的測試用例生成反饋。

?格式獎勵:強制模型將其思考過程置于 ‘’ 和 ‘’ 標簽之間。

注意, DeepSeek-R1-Zero 時沒有使用結果或過程神經獎勵模型,因為發現神經獎勵模型在大型強化學習過程中可能會遭受獎勵黑客(reward hacking ),并且重新訓練獎勵模型需要額外的訓練資源,這會使整個訓練流程變得復雜。

在訓練DeepSeek-R1階段,為了解決DeepSeek-R1-Zero中存在的語言混合問題,在RL中中引入了語言一致性獎勵(language consistency reward ),該獎勵計算為CoT中目標語言詞的比例.

最后,通過將推理任務的準確性和語言一致性獎勵相加來形成最終獎勵.

4.1.3 Cold Start

與 DeepSeek-R1-Zero 不同,為了解決 RL 訓練從基礎模型開始的早期不穩定冷啟動階段,對于 DeepSeek-R1,構建并收集少量長 CoT 數據。為了收集此類數據,用了幾種方法:使用少量樣本提示,以長 CoT 作為示例;直接提示模型生成帶有反思和驗證的詳細答案;以可讀格式收集 DeepSeek-R1-Zero 輸出;以及通過人工標注者進行后處理來細化結果。

4.1.4 DeepSeek-R1訓練的整體流程

首先對DeepSek-V3進行RL訓練,并采用基于規則的獎勵系統,產生DeepSeek-R1-Zero模型.通過提示指引DeepSeek-R1-Zero模型帶有反思和驗證的詳細答案等Code Start數據,然后將收集到的數千條冷啟動數據重新微調 DeepSeek-V3-Base 模型.接著執行類似 DeepSeek-R1-Zero 的面向推理的強化學習。在強化學習過程接近收斂時,我們通過對強化學習檢查點進行拒絕采樣,并結合來自 DeepSeek-V3 在寫作、事實問答和自我認知等領域中的監督數據,創建新的 SFT 數據,然后再次重新訓練 DeepSeek-V3-Base 模型,在使用新數據進行微調后,檢查點會進行額外的強化學習過程.(ps:二次訓練 DeepSeek-V3是因為這次使用的新數據是更加優質的CoT數據,使得訓練完之后的模型推理性能再度提升,在這一步我真的感慨這種想法,就是一種藝術~~).經過這些步驟,獲得了名為 DeepSeek-R1 的模型,其性能與 OpenAI-o1-1217 相當。

wKgZPGe9nT-AEqo-AAT8ffC5w2g010.png

??

4.2 成果解讀

DeepSeek-R1 在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。

wKgZPGe9nTGASt-hAAV1RsATATc550.png

??

通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區,其中 32B 和 70B 模型在多項能力上實現了對標 OpenAI o1-mini 的效果。

wKgZO2e9nUCARkDiAAKagil1Dhk444.png

??

四.結語:從大模型引發的思考

我對大模型時代的看法,我覺得我們已經拉開了新的一幕,如果說第一幕是知識驅動模型,卷參數量,拼算力,那么DeepSeek-R1的出現帶我進入第二幕-推理驅動.在這一幕,讓模型學會自我思考,自我推理更為重要.而且更優秀的算法來提高參數效率,降低訓練成本也成為了關鍵所在.

最后,碼字不易,喜歡這篇文章的,請給作者點個贊吧,做個小小鼓勵~~

五.參考文獻

1. DeepSeek

2. DeepSeek中用到的Grouped-Query Attention技術是什么來頭

3. 10分鐘速通DeepSeekV1~V3核心技術點

4. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

5. Multi-Head Latent Attention (MLA) 詳細介紹

6. 一文通透DeepSeek V2——通俗理解多頭潛在注意力MLA:改進MHA,從而壓縮KV緩存,提高推理速度

7. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

8. DeepSeekV3 Technical Report

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    32106

    瀏覽量

    271000
  • 開源
    +關注

    關注

    3

    文章

    3453

    瀏覽量

    42858
  • 大模型
    +關注

    關注

    2

    文章

    2727

    瀏覽量

    3343
  • DeepSeek
    +關注

    關注

    1

    文章

    497

    瀏覽量

    242
收藏 人收藏

    評論

    相關推薦

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的兩個不同定位的大模型,其核心差異主要體現在目標場景、能力側重和技術優化方向上。以下是二
    發表于 02-14 02:08

    解讀“領跑者”認證計劃

    指標設計評價體系。該計劃將通過嚴格的技術評價手段遴選出領跑者先進技術產品,支持我國光伏發電技術進步和產業升級。Q1 簡要概述光伏發電產品“
    發表于 08-27 16:40

    LED球泡燈能效領跑者GB30255-2019標簽怎么申請?

    強制性國家標準編號;(8)能效信息碼;(9)能效"領跑者"信息(僅針對列入國家能效""領跑者"目錄的產品)。LED筒燈能源效率標識樣式示例如下:定向
    發表于 07-15 10:02

    LED筒燈怎么申請GB30255-2019能效領跑者標識?

    強制性國家標準編號;(8)能效信息碼;(9)能效"領跑者"信息(僅針對列入國家能效""領跑者"目錄的產品)。LED筒燈能源效率標識樣式示例如下:定向
    發表于 07-15 10:05

    開源硬件黃金時代】開源運動浪潮:軟件硬件(文中課件可下載)

    運動的無盡前沿,軟件世界大步踏入了硬件領域。以社會學/經濟學/工程學的角度來看,作為種架構/生態的開源技術是怎樣的?以歷史/政治學/哲學的角度來看,作為
    發表于 10-18 21:26

    對標OpenAI o1,DeepSeek-R1發布

    今天,我們正式發布 DeepSeek-R1,并同步開源模型權重。 DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術借助 R
    的頭像 發表于 01-22 13:46 ?823次閱讀
    對標OpenAI o<b class='flag-5'>1</b>,<b class='flag-5'>DeepSeek-R1</b>發布

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    步。 據悉,DeepSeek開源模型在多語言理解與復雜推理任務中直表現出卓越的性能,其V3、R1
    的頭像 發表于 02-06 13:49 ?378次閱讀

    昆侖芯率先完成Deepseek訓練推理全版本適配

    本文是昆侖芯適配DeepSeek系列推篇,將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1
    的頭像 發表于 02-06 15:13 ?509次閱讀
    昆侖芯率先完成<b class='flag-5'>Deepseek</b>訓練<b class='flag-5'>推理</b>全版本適配

    軟通動力天璇MaaS融合DeepSeek-R1,引領企業智能化轉型

    近期,國產高性能AI推理模型DeepSeek-R1在AI領域引發了廣泛關注。憑借其強化學習驅動的推理能力、高性能低成本的優勢以及開源策略,DeepS
    的頭像 發表于 02-08 09:57 ?255次閱讀

    AIBOX 全系產品已適配 DeepSeek-R1

    DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力,目前基于開源R1模型具有1
    的頭像 發表于 02-08 17:30 ?246次閱讀
    AIBOX 全系產品已適配 <b class='flag-5'>DeepSeek-R1</b>

    DeepSeek V3/R1架構解讀:探討其是否具有國運級創新

    DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都屬于MoE(混合專家)架構,并在開源世界產生了較大的影響力。特別是2025 年
    的頭像 發表于 02-10 10:15 ?1259次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>V</b>3/<b class='flag-5'>R1</b>架構解讀:探討其是否具有國運級創新

    Deepseek R1大模型離線部署教程

    。作為國產AI大數據模型的代表,憑借其卓越的推理能力和高效的文本生成技術,在全球人工智能領域引發廣泛關注。 本文主要說明DeepSeek-R1如何離線運行在EASY-EAI-Orin-Nano(RK3576)硬件上, RK357
    的頭像 發表于 02-12 09:37 ?713次閱讀
    <b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型離線部署教程

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    ,OpenAI的O3在編碼任務方面超過了DeepSeekR1,而R1在數學和推理方面表現出了競爭力,同時在成本效益和開源可訪問性方面也具有
    的頭像 發表于 02-18 11:07 ?279次閱讀

    開源大模型DeepSeek的開放內容詳析

    當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關鍵詞之,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型
    的頭像 發表于 02-19 09:48 ?459次閱讀
    <b class='flag-5'>開源</b>大模型<b class='flag-5'>DeepSeek</b>的開放內容詳析

    AI研究所丨Lex Fridman五小時聊DeepSeek看懂DeepSeek的創新與2025AI趨勢

    DeepSeek火了之后,知名科技主播LexFridman,找了兩位嘉賓,DeepSeek及其開源模型V3和
    的頭像 發表于 02-20 15:30 ?919次閱讀
    AI研究所丨Lex Fridman五小時聊<b class='flag-5'>DeepSeek</b>:<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂<b class='flag-5'>DeepSeek</b>的創新與2025AI趨勢
    主站蜘蛛池模板: 噜噜色噜噜 | 热久久影院| 欧美精品xx | 爱爱小说视频永久免费网站 | 国产精品久久精品福利网站 | 国产精品激情综合久久 | 好吊色青青青国产在线观看 | 91md天美精东蜜桃传媒在线 | 日本三级带日本三级带黄首页 | 欧美高清一区 | 狠狠躁夜夜躁人人躁婷婷视频 | 久久 在线播放 | 亚洲综合色婷婷中文字幕 | 国产精品久久久久久久久免费 | 免费一级毛片在线播放不收费 | 天天夜天干天天爽 | 久久久亚洲欧美综合 | 国产精品女丝袜白丝袜 | a级黄视频 | 好硬好湿好爽再深一点h | 污色网站 | 亚洲国内精品 | 天天舔天天射天天干 | 中国美女一级黄色片 | 91在线国内在线播放大神 | 午夜在线视频观看 | 国产高清在线视频 | www.xxx日本人 | 在线91精品亚洲网站精品成人 | 男人的天堂免费视频 | 淫香色香 | 夜夜春夜夜爽 | 四虎影视最新 | 免费人成激情视频在线观看冫 | 五月天综合婷婷 | 激情伦成人综合小说 | 午夜三级毛片 | 日本成人一级片 | 加勒比一到三区 | 日本三级黄在线观看 | 天天做人人爱夜夜爽2020毛片 |