在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

李建忠:DeepSeek技術革新引領AI生態新變革

AI科技大本營 ? 來源:AI科技大本營 ? 2025-02-07 10:41 ? 次閱讀

【導讀】全球 AI 競賽正酣,DeepSeek 的出現,宛如一石激水,打破了原有的平靜。作為資深技術專家和行業觀察者,CSDN 高級副總裁、Boolan 首席技術專家李建忠將在本文撥開“DeepSeek 熱”的表象,深入探究其背后的技術創新邏輯和生態戰略布局,揭示 DeepSeek 如何在全球 AI 競爭中脫穎而出,并預見其對未來 AI 格局可能產生的深遠影響。

春節期間,DeepSeek 在全球科技圈引發強烈震動。“DeepSeek 時刻” 、“國運級創新”等熱議現象在歐美科技界和國內不斷涌現,西方主流媒體如《自然》、《紐約時報》、《經濟學人》也紛紛報道,全球科學、技術、金融、政府、軍事等領域的專家政要亦高度關注。盡管對于 DeepSeek 的評價各有側重,但其出圈和影響力已不容忽視。

DeepSeek 到底做了什么?所謂的“DeepSeek 時刻”或者“國運級創新”到底意味著什么?

個人認為 DeepSeek 巨大的影響力不僅僅在于它在 AI 領域實現的幾個方面的關鍵技術創新,更重要的是由其引發的對全球 AI 生態版圖的升級和重塑。本文將從以下兩個維度,談談我對 DeepSeek 的創新研究和思考:

(一)DeepSeek 的關鍵技術創新;

(二)DeepSeek 對于大模型的生態意義。

f61c64a4-e440-11ef-9310-92fbcf53809c.png

DeepSeek 的關鍵技術創新

1.開源強化學習引領推理計算范式轉換

去年 9 月份 OpenAI 發布的 o1 模型展現了強化學習在推理計算方面的卓越能力,但是 OpenAI 既沒有開源,技術報告也語焉不詳,全球 AI 界雖然對大模型將迎來從預訓練到推理計算的范式轉換抱有很高期待,但一直沒有成功的復現。直到 DeepSeek R1 的出現,無論是在以推理為主的各項國際公認的評測指標上、還是實際使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一眾前沿閉源模型。

DeepSeek 的推理計算路線也讓很多業內專家嘆為觀止,其使用純粹 RL(強化學習),無需 SFT(監督微調),不依賴冷啟動數據,成功地實現了靠純 RL(強化學習)來激勵大模型的推理能力。DeepSeek 在 R1 的訓練中也觀察到了模型推理時“喃喃自語反思錯誤的 Aha Moment”(所謂大模型的“頓悟時刻”)。DeepSeek 的研究人員在其論文中談到,這不僅是大模型的“Aha Moment”,也是研究團隊的“Aha Moment”。

為什么說使用 RL 強化學習來做推理計算,為大模型帶來了新的范式轉換?人類智能的學習行為本質上分兩種:模仿學習和探索學習。

預訓練就是大模型的模仿學習,在 OpenAI o1 和 DeepSeek R1 兩個模型之前,大模型主要進行的是“預訓練”為主的模仿學習。喂給大模型什么樣的數據,大模型才能學會什么。沒教的一概不會,非要回答就會幻覺說胡話。

強化學習就是大模型的探索學習,這是在 OpenAI o1 和 DeepSeek R1 推理時主要的學習方式。在強化學習支持的推理計算下,大模型會不斷探索優化、遇到錯誤會改正自己。不難理解,如果沒有探索學習,僅僅基于預訓練的模仿學習,大模型遇到復雜問題,很難超過人類專家。而有了探索學習,大模型才有可能發展出遠超人類智能的水平,比如在 AlphaGo 當時大敗圍棋冠軍李世石時著名的第 37 手(move 37),背后就是強化學習的功勞。

強化學習在 AI 領域并不新鮮,但將強化學習泛化地應用在大模型領域,成為大模型推理計算的核心,OpenAI o1 和 DeepSeek R1 屬于開先河者。大模型領域也因此迎來了從預訓練到推理計算的范式轉換,而且因為開源的引領,相信 DeepSeek 有機會成為這一范式轉換的領導者。

順便提一句,DeepSeek 在工程領域也有很多可圈可點之處,比如從純強化學習模型 R0,到使用 SFT、基于 V3 基座模型調教出來既有文采又懂推理、文理雙全的 R1;再比如使用 R1 作為教師模型來蒸餾多個小模型,使得小模型也具備很高的推理能力。這些都會加速大模型向推理計算的范式轉換。

2.MLA 和 MoE 等引領大模型架構創新

自 GPT 采用 Transformer 架構取得成功以來,經典 Transformer 架構一直是很多大模型的標配。但這不意味著 Transformer 是完美無缺的。DeepSeek 在 Transformer 架構的基礎上也做了很多創新,主要包括兩個方面:(1)多頭潛在注意力即 MLA ;(2)混合專家模型即MoE。

MLA 用于高效推理,源自 DeepSeek V2 的原創,其顯著降低了推理顯存的消耗。MLA 主要通過改造注意力算子壓縮 KV 緩存大小,將每個查詢 KV 量減少 93.3%,實現了在同樣容量下存儲更多 KV 緩存,極大提升了推理效率。

MoE 用于高效訓練,其由多個專家模型組成,通過部分激活給定任務所需的特定專家,而不是激活整個神經網絡,從而降低計算消耗。MoE 非 DeepSeek 原創,但 DeepSeek 早在 V2 之前的代碼和數學模型(DeepSeek-Coder&DeepSeek-Math),就從稠密架構轉向 MoE 架構。V3 模型中更是大膽地使用了高難度的 256 個路由專家和 1 個共享專家,并創新的采用冗余專家,來實現負載均衡策略和訓練目標。

3.“貼身定制”的軟硬協同工程優化

由于眾所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架構創新的同時,在工程優化方面也絲毫沒有放松。分別從計算、存儲、通信等多個層面實施了軟硬協同的工程優化策略:比如混合精度訓練、跨節點通信優化、雙流水線機制、DualPipe 算法等。甚至采用 PTX 代碼(比 CUDA 更底層的匯編代碼)進行底層優化,實現調整寄存器分配、線程調度、Warp 級別優化。

這種圍繞模型需求,對硬件進行“貼身定制”的軟硬協同工程優化,在一些手握充裕 GPU 卡資源的硅谷大廠技術人員眼里,很像一些“雕蟲小技”。但我想說的是,技術界的雕蟲小技不可小覷,技術領域的創新往往是從這些雕蟲小技開始的。

回顧一下計算歷史:Hadoop 如何倒逼 EMC、IBM 重構存儲架構?ARM 精簡指令集如何用低功耗設計顛覆英特爾 x86 帝國?TCP/IP 協議棧如何倒逼傳統網絡設備革命?記得圖靈獎得主、RISC 指令發明人 David Patterson 曾經有言“硬件架構的創新往往誕生于軟件需求對硬件的持續鞭策”。

如果假以時日,DeepSeek 成為開源大模型領域的標配后,很難說不會出現用“軟件定義硬件”或者說“模型定義硬件”來倒逼硬件廠商,走出一條顛覆英偉達 CUDA 生態的道路。

f62db89e-e440-11ef-9310-92fbcf53809c.png

DeepSeek 對大模型生態的意義

1.大模型成本降到和搜索相當,AI 應用和智能體迎來爆發

DeepSeek 無疑引爆了大模型的成本之戰:(1)自身通過“模型架構創新”和“軟硬件協同工程優化”將大模型訓練成本大幅度降低,大約是 Meta 的 1/10,OpenAI 的 1/20;(2)通過最開放的 MIT 開源協議,和將推理大模型蒸餾給開源小模型等一系列工程方法,為業界帶來低成本的端側模型商品

谷歌一次搜索成本大約 0.2 美分(0.002 美元),DeepSeek R1 推理成本百萬 token 輸出 16 元(2.2 美元), V3 對話輸出百萬 token 2 元(這只是 DeepSeek 官網對外的 API 價格,如果考慮實際發生的推理成本、會更低)。

作為對比:OpenAI o1 百萬 token 輸出 60 美元,是 DeepSeek R1 的 30 倍。如果假設平均一次推理輸出大約 1000 token(相當于大約 500 個漢字)。那么 DeepSeek 一次推理輸出價格大約 2.2 美元/1000 次=0.2 美分,對話輸出大約 0.025 美分。

也就是說,DeepSeek將大模型的推理輸出降到和谷歌一次搜索成本的價格相當,對話輸出則大約是搜索的 1/10。這是具有指標意義的時刻。

我記得 2023 年 4 月份在硅谷訪問時和 Google 做搜索的朋友聊,他談到他們內部從上到下對 ChatGPT 持相當觀望的態度,因為如果按照當時大模型的成本,來對比谷歌的搜索成本,谷歌馬上會從一個盈利 600 億美金的公司,變成一個虧損上千億美金的公司。雖然,大家都預期大模型的成本會不斷降低,但沒想到不到 2 年時間,降低如此之快。

成本一直是技術革命背后的利器。搜索作為互聯網的基礎設施,正是因為極低的成本,才能快速完成對全球信息的整合,引爆了互聯網革命。而 DeepSeek 在 2025 年開年將大模型成本降到和搜索相當,加上性價比極高的端側模型,大模型將很快成為各種應用的基座支撐,GenAI 也將迎來應用爆發的 tipping point。同時隨著強化學習在推理計算帶來的范式轉換,依賴推理能力的智能體 AI Agent 也將迎來加速,2025 年將是大模型應用和智能體爆發的元年。

2.AI 鐵三角迎來新的變量,AI 產業版圖有望被重塑

算法、算力、數據一直是 AI 的鐵三角。隨著大模型成為 AI 科技樹的主流,基于 Transformer 架構、以預訓練為主的模型算法,及其展現的 Scaling Law 一直在向業界傳達一個信息:算力決定一切,訓練數據越多、算力越大,模型性能就會越來越好,所謂“大力出奇跡“。AI 產業的競爭也變成了“誰擁有 GPU 越多、誰的 AI 能力越強”的軍備競賽。

但 DeepSeek 分別從 “后訓練”和“預訓練”兩個階段對這樣的唯算力論提出了響亮的質疑:

(1)后訓練階段——開源強化學習加速推理計算的范式轉換:隨著強化學習成為后訓練階段的標配,推理計算將占比越來越大(相對預訓練計算)。適應預訓練模式的 GPU 大卡集群計算(英偉達的優勢)將不再是未來 AI 算力需求的主流,而英偉達在推理計算方面的優勢相對較弱,很多頭部廠商如谷歌 TPU、AWS Inferentia、華為昇騰等專為推理優化的芯片,在特定負載下能效比顯著高于通用 GPU,加上適應多元推理場景的分布式計算、邊緣計算、端側計算,推理算力領域將不會是英偉達一家獨大的局面。

(2)預訓練階段——通過 MoE 和 MLA 等對經典 Transformer 架構進行的改進和迭代:這使得 DeepSeek 使用少于同行 10~20 倍的算力,完成了同等規模的預訓練。另外,DeepSeek 使用 R1 作為教師模型來實現對小模型的“強化學習推理能力”蒸餾的工程實踐,也會為很多模型訓練帶來一波紅利。

DeepSeek 從 “后訓練”和“預訓練”兩階段對 AI 算法進行的創新,為“算法、算力、數據”構建的 AI 鐵三角帶來新的變量,有機會重新塑造未來 AI 產業的發展版圖。

3.開源的長期主義是創新搖籃

最后,說說 DeepSeek 的開源戰略。DeepSeek 支持商業友好的 MIT 許可證(最為寬松的開源協議之一),開源模型權重,沒有對下游應用的限制(比如合成數據、蒸餾等)。論文開放的技術細節也很有誠意。在全球排名 Top 10 的頭部模型中,DeepSeek 是開源程度最高的,比最早扛起開源大旗的 Meta 的 LLaMA 還要更 Open。這也是 DeepSeek V3 和 R1 在海內外引起眾多權威專家、大佬認可+尊重、甚至贊不絕口的原因。不隱藏、不吹噓,模型、評測、原理等都結結實實擺在那里。

順便說一句, DeepSeek 的論文從一開始就大大方方地承認了其在微觀設計上遵循了 LLaMA 的設計。相對國內各種扭扭捏捏、遮遮掩掩的“半開源”,以及違背開源協議、使用開源實現自己的閉源,DeepSeek 在模型開源方面可以說相當慷慨、也很敞亮。

DeepSeek 實際上在第一天就擁抱開源,回想起早期閱讀《DeepSeek LLM :用長期主義來擴展開源語言模型》 這篇 DeepSeek 于 2024 年 1 月發表的論文,對開源的信仰和宣言,讀起來讓人心生敬意。深層次來看,DeepSeek 是真正深刻領悟開源精神、站在全人類創新的高度、從戰略而非戰術上擁抱開源的。

摘抄 DeepSeek 創始人梁文鋒 2024 年 7 月份接受采訪中的一段話“我們認為當下最重要的,是參與全球科技創新。長期以來,中國企業習慣于利用海外的技術創新,并通過應用層面進行商業化,但這種模式是不可持續的。我們的目標不是快速盈利,而是推動技術前沿的發展,從根本上促進整個生態的成長。開源和發表論文不會帶來重大損失。對于技術人員來說,被同行追隨本身就是一種成就。開源不僅僅是商業策略,更是一種文化。”以此觀之,2025 年 1 月,DeepSeek V3 和 R1 給全球 AI 界帶來的震撼,不足為奇。

DeepSeek 的成功點亮了中國技術界最純粹、最原始的創新火種,他們會激勵一代又一代的中國技術人為全世界做出自己獨特的創新。致敬 DeepSeek。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31734

    瀏覽量

    270524
  • DeepSeek
    +關注

    關注

    1

    文章

    227

    瀏覽量

    83

原文標題:李建忠:DeepSeek 關鍵技術創新及對 AI 生態的影響

文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IBM CEO:DeepSeek將加速AI技術采用

    在迪拜舉行的世界政府峰會上,IBM首席執行官Arvind Krishna發表了對人工智能(AI)技術發展的重要見解。他指出,隨著DeepSeek等新興企業的崛起,開發AI模型的成本估算
    的頭像 發表于 02-12 11:40 ?44次閱讀

    引領少兒 AI 編程教育革新!英荔教育率先接入 DeepSeek

    智能、更易用、更具創造力的 AI 編程學習工具,助力下一代在 AI 時代搶占先機。 技術賦能教育,引領行業變革 英荔
    的頭像 發表于 02-11 13:16 ?47次閱讀

    新華三全面接入DeepSeek引領AI發展新熱潮

    DeepSeek,更秉持開放的大模型策略,積極擁抱AI技術變革。結合其創新的圖靈中試基地,以及多年來在各行各業中積累的深厚經驗,新華三推出了三大重磅產品發布。 這三大發布不僅展示了
    的頭像 發表于 02-10 15:12 ?226次閱讀

    AI智能云平臺的優勢

    當今,AI智能云平臺,正以其獨特的優勢,引領技術革新和業務轉型的新篇章。接下來,AI部落小編為大家分享AI智能云平臺的優勢。
    的頭像 發表于 02-10 10:55 ?35次閱讀

    DeepSeek:引領全球AI競賽的中國新范式

    在全球人工智能(AI技術迭代日益加速的今天,一家名為深度求索(DeepSeek)的中國AI公司正以獨特的路徑引發國際關注。從開源社區的技術
    的頭像 發表于 02-09 10:31 ?335次閱讀

    蓄電池放電技術革新引領能源存儲新時代

    研發,致力于實現更高效、更安全、更環保的蓄電池放電技術。 智能化放電管理系統是當前蓄電池放電技術革新的一個重要方向。通過集成先進的傳感器、微處理器和控制算法,這些系統能夠實時監測電池狀態,精確控制放電
    發表于 02-08 12:59

    吉利汽車與DeepSeek深度融合,引領智能汽車AI新紀元

    DeepSeek共同推動AI科技在智能汽車領域的革新與普及。 此次合作,吉利將DeepSeek R1大模型的頂尖認知能力融入其智能汽車全域AI
    的頭像 發表于 02-08 10:47 ?553次閱讀

    軟通動力天璇MaaS融合DeepSeek-R1,引領企業智能化轉型

    驅動”的范式轉移,為多行業AI應用落地開辟了新路徑。 作為中國數字技術產品和服務創新的領軍企業,軟通動力積極響應這一技術變革,率先與DeepSeek
    的頭像 發表于 02-08 09:57 ?192次閱讀

    “兆瀚”算力產品強力支持DeepSeek,共筑國產AI生態

    全球人工智能競賽進入白熱化之際,中國AI領域迎來里程碑式突破——誕生于本土的開源大模型DeepSeek,憑借媲美全球頂尖水平的算法精度和極致開放的生態策略,迅速獲得全球矚目。作為昇騰戰略合作伙伴
    的頭像 發表于 02-07 19:37 ?154次閱讀
    “兆瀚”算力產品強力支持<b class='flag-5'>DeepSeek</b>,共筑國產<b class='flag-5'>AI</b>新<b class='flag-5'>生態</b>!

    研華AI Agent引領工業物聯網應用革新

    在工業物聯網領域,變革正在發生。研華AI Agent引領工業物聯網應用革新,以創新重構為核心,挖掘AI潛力,賦能行業智能轉型。
    的頭像 發表于 01-22 18:01 ?355次閱讀

    IDC生成式AI白皮書亮點速遞

    在數字化浪潮中,生成式 AI 正成為推動創新和變革的關鍵力量。本文將分享由 IDC 發布的《技術革新引領未來——生成式 AI 塑造核心發展引
    的頭像 發表于 11-04 10:12 ?293次閱讀

    技術革新AI與RFID的融合,亞馬遜引領零售行業變革

    )、RFID(無線射頻識別)技術以及先進的攝像頭和傳感器網絡,為顧客提供了前所未有的無摩擦購物體驗。 技術革新AI與RFID的融合 亞馬遜的Just Walk Out系統自八年前推出以來,不斷進化與優化。早期版本主要依賴于攝像
    的頭像 發表于 09-09 16:04 ?441次閱讀

    全球視野下的PCB線路板:技術革新引領產業變革

    PCB線路板,即印刷電路板,作為現代電子設備中不可或缺的基礎構件,承載著電子元器件之間的連接與信號傳輸任務。其發展歷程見證了電子工業的技術革新與產業變革。本文將從全球和中國兩個維度,梳理PCB線路板的發展歷史,并探討其在現代電子工業中的地位與作用。
    的頭像 發表于 07-15 09:47 ?802次閱讀
    全球視野下的PCB線路板:<b class='flag-5'>技術革新</b><b class='flag-5'>引領</b>產業<b class='flag-5'>變革</b>

    移遠通信引領5G技術革新,構建物聯網生態

    隨著5G技術的飛速發展,物聯網行業正迎來前所未有的變革。移遠通信,作為全球物聯網領域的領軍者,正全面發力,加速推進5G技術服務社會的發展,為行業生態鏈的逐步形成貢獻力量。
    的頭像 發表于 06-12 15:48 ?452次閱讀

    國產深海1萬米六維力傳感器引領卡脖子技術革新

    國產深海萬米六維力傳感器引領卡脖子技術革新
    的頭像 發表于 02-20 16:09 ?901次閱讀
    主站蜘蛛池模板: 四虎永久在线视频 | 日本卡一卡2卡3卡4精品卡无人区 | 久久精品国产亚洲5555 | 日本口工全彩无遮拦漫画大 | 狠狠色狠狠色综合婷婷tag | 国产片一区二区三区 | 美女喷白浆视频 | 欧美一级做一a做片性视频 欧美一级做一级做片性十三 | 伊人操| xxx日本69| 欧美顶级xxxxbbbb | 午夜影院视频 | 欧美污视频网站 | 在线视频 亚洲 | 色香蕉在线视频 | 久久草在线看 | 色六月丁香 | 九九精品在线 | 被cao到合不拢腿腐男男 | 岛国大片在线 | 性欧美高清精品videos | 亚洲高清色图 | 久久精品视频免费观看 | 亚洲免费观看在线视频 | 热久久这里只有精品 | 李老汉的性生生活2 | 性xxxxfreexxxxx国产| xx在线| 色网站免费视频 | 天堂在线www天堂中文在线 | 激情深爱| 欧美xx网站| 女性一级全黄生活片在线播放 | 婷婷国产成人久久精品激情 | 日本在线观看www | 鲁久久 | 黄色二级视频 | 午夜欧美 | 亚洲国产第一区二区香蕉 | 最色成人网 | 亚洲欧美经典 |