在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

幻方量化發布了國內首個開源MoE大模型—DeepSeekMoE

OSC開源社區 ? 來源:OSC開源社區 ? 2024-01-23 11:28 ? 次閱讀

幻方量化旗下組織深度求索發布了國內首個開源 MoE 大模型 ——DeepSeekMoE,全新架構,免費商用。

今年 4 月,幻方量化發布公告稱,公司將集中資源和力量,全力投身到服務于全人類共同利益的人工智能技術之中,成立新的獨立研究組織,探索 AGI 的本質。幻方將這個新組織命名為 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代碼、論文均已同步發布。

模型下載:https://huggingface.co/deepseek-ai

微調代碼:https://github.com/deepseek-ai/DeepSeek-MoE

技術報告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

據介紹,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均領先:

DeepSeekMoE-2B 可接近 MoE 模型的理論上限2B Dense 模型性能(即相同 Attention/FFN 參數配比的 2B Dense 模型),僅用了 17.5% 計算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同時,僅用了 40% 計算量,也是本次主力開源模型,40G 顯存可單卡部署

DeepSeekMoE-145B 上的早期實驗進一步證明該 MoE 架構明顯領先于 Google 的 MoE 架構 GShard,僅用 28.5%(甚至 18.2%)計算量即可匹配 67B Dense 模型的性能

c8cd958e-b13a-11ee-8b88-92fbcf53809c.pngc8e00fca-b13a-11ee-8b88-92fbcf53809c.png

混合專家模型 (Mixed Expert Models,簡稱 MoEs)是用于提高大語言模型效率和準確度的技術。這種方法的核心是將復雜任務劃分為更小、更易管理的子任務,每個子任務由專門的小型模型或 “專家” 負責,然后根據輸入數據的特性選擇性地激活這些 “專家”。 MoE 核心組成:

專家 (Experts):訓練有素的小型神經網絡,擅長特定領域。每個專家通常專注于處理一種特定類型的數據或任務。專家的設計可以是多種形式,如完全連接的網絡、卷積網絡等。

門控機制 (Gating Mechanism):MoE 架構決策者,這是一個智能路由系統,負責決定哪些專家應該被激活來處理當前的輸入數據。門控機制基于輸入數據的特性,動態地將數據分配給不同的專家。

官方稱 DeepSeekMoE 是自研的全新 MoE 框架,主要包含兩大創新:

細粒度專家劃分:不同于傳統 MoE 直接從與標準 FFN 大小相同的 N 個專家里選擇激活 K 個專家(如 Mistral 7B8 采取 8 個專家選 2 專家),DeepSeekMoE把 N 個專家粒度劃分更細,在保證激活參數量不變的情況下,從 mN 個專家中選擇激活 mK 個專家(如 DeepSeekMoE 16B 采取 64 個專家選 8 個專家),如此可以更加靈活地組合多個專家

共享專家分離:DeepSeekMoE 把激活專家區分為共享專家(Shared Expert)和獨立路由專家(Routed Expert),此舉有利于將共享和通用的知識壓縮進公共參數,減少獨立路由專家參數之間的知識冗余

c907f634-b13a-11ee-8b88-92fbcf53809c.png






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4782

    瀏覽量

    101227
  • 智能路由
    +關注

    關注

    0

    文章

    9

    瀏覽量

    7160
  • 卷積網絡
    +關注

    關注

    0

    文章

    42

    瀏覽量

    2211
  • DeepSeek
    +關注

    關注

    1

    文章

    191

    瀏覽量

    70

原文標題:幻方量化開源國內首個MoE大模型,全新架構、免費商用

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Meta組建四大專研小組,深入探索DeepSeek模型

    近日,據報道,臉書母公司Meta為了提升其大模型Llama的性能,專門成立了四個研究小組,深入探索量化巨頭量化旗下的國產大
    的頭像 發表于 02-05 14:02 ?127次閱讀

    字節跳動發布豆包大模型1.5 Pro

    字節跳動正式發布豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型綜合能力顯著增強,在知識、代碼、推理、中文等多個測評基準上,綜合得分優于GPT - 4o、Cl
    的頭像 發表于 01-23 10:24 ?184次閱讀

    獵戶星空發布Orion-MoE 8×7B大模型及AI數據寶AirDS

    近日,獵戶星空攜手聚云科技在北京共同舉辦了一場發布會。會上,獵戶星空正式揭曉其自主研發的Orion-MoE 8×7B大模型,并與聚云科技聯合推出了基于該大
    的頭像 發表于 11-29 13:57 ?317次閱讀

    騰訊發布開源MoE大語言模型Hunyuan-Large

    近日,騰訊公司宣布成功推出業界領先的開源MoE(Mixture of Experts,專家混合)大語言模型——Hunyuan-Large。這款模型不僅在參數量上刷新
    的頭像 發表于 11-06 10:57 ?377次閱讀

    全球首個開源AI標準正式發布

    近日,在備受矚目的2024年ALL THINGS OPEN大會上,開源組織Open Source Initiative(OSI)宣布一項重大突破——正式發布
    的頭像 發表于 10-31 10:59 ?323次閱讀

    Meta發布Llama 3.2量化模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型量化版本,旨在進一步優化
    的頭像 發表于 10-29 11:05 ?481次閱讀

    深開鴻聯合深天使發布國內首個開源鴻蒙產業加速營

    近日,深圳開鴻數字產業發展有限公司(深開鴻)、深圳市天使投資引導基金管理有限公司(深天使)與深圳市天使投資協會攜手發布國內首個開源鴻蒙(OpenHarmony)產業加速營。本次加速營旨
    的頭像 發表于 10-01 08:10 ?336次閱讀
    深開鴻聯合深天使<b class='flag-5'>發布</b><b class='flag-5'>國內</b><b class='flag-5'>首個</b><b class='flag-5'>開源</b>鴻蒙產業加速營

    深開鴻聯合中軟國際、粵科金融集團發布國內首個開源鴻蒙創業投資基金

    在近期舉辦的2024開放原子開源生態大會上,深圳開鴻數字產業發展有限公司(以下簡稱“深開鴻”)攜手中軟國際、粵科金融集團正式發布國內首個專注于開源
    的頭像 發表于 09-30 08:07 ?868次閱讀
    深開鴻聯合中軟國際、粵科金融集團<b class='flag-5'>發布</b><b class='flag-5'>國內</b><b class='flag-5'>首個</b><b class='flag-5'>開源</b>鴻蒙創業投資基金

    深開鴻聯合深天使發布國內首個開源鴻蒙產業加速營

    近日,深圳開鴻數字產業發展有限公司(深開鴻)、深圳市天使投資引導基金管理有限公司(深天使)與深圳市天使投資協會攜手發布國內首個開源鴻蒙(OpenHarmony)產業加速營。本次加速營旨
    的頭像 發表于 09-29 15:28 ?329次閱讀
    深開鴻聯合深天使<b class='flag-5'>發布</b><b class='flag-5'>國內</b><b class='flag-5'>首個</b><b class='flag-5'>開源</b>鴻蒙產業加速營

    全球首個芯片設計開源模型SemiKong正式發布

    在科技日新月異的今天,全球首個芯片設計開源模型SemiKong的正式發布,無疑為半導體行業投下了一枚震撼彈,預示著一場深刻的行業變革即將拉開序幕。這款由Aitomatic與FPT S
    的頭像 發表于 07-14 10:01 ?1024次閱讀

    “燃鴻”重磅發布國內首個燃氣行業開源鴻蒙化智能產品及解決方案

    “鴻蒙賦能智創未來”為主題的燃氣行業燃鴻技術推介與產品發布會在四川成都成功舉辦。會上,三聯合發布“燃鴻”,這是國內
    的頭像 發表于 06-28 08:33 ?791次閱讀
    “燃鴻”重磅<b class='flag-5'>發布</b>!<b class='flag-5'>國內</b><b class='flag-5'>首個</b>燃氣行業<b class='flag-5'>開源</b>鴻蒙化智能產品及解決方案

    昆侖萬維開源2千億稀疏大模型Skywork-MoE

    近日,昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型,該模型擁有高達2千億參數,不僅性能強勁,而且推理成本更低,為人工智能領域帶來了新的突破。
    的頭像 發表于 06-04 14:44 ?626次閱讀

    浪潮信息發布“源2.0-M32”開源模型

    浪潮信息近日推出了革命性的“源2.0-M32”開源模型。該模型在源2.0系列基礎上,引入了“基于注意力機制的門控網絡”技術,構建了一個包含32個專家的混合專家模型
    的頭像 發表于 05-29 09:08 ?726次閱讀

    通義千問推出1100億參數開源模型

    通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B,這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個
    的頭像 發表于 05-06 10:49 ?642次閱讀

    思必馳參編,國內第一個“汽車大模型標準”正式發布

    4月28日,中國信通院發布由思必馳等多家單位共同編制的國內首個“汽車大模型標準”,該標準聚焦汽車行業高質量發展,受到央視報道。
    的頭像 發表于 04-30 14:49 ?2268次閱讀
    思必馳參編,<b class='flag-5'>國內</b>第一個“汽車大<b class='flag-5'>模型</b>標準”正式<b class='flag-5'>發布</b>
    主站蜘蛛池模板: 国产福利久久 | 四虎影院网站 | 五月天在线播放 | 色多多www| 午夜久久影院 | wwwww色| bt天堂新版中文在线地址 | 免费看一毛一级毛片视频 | 天天操夜夜操狠狠操 | 久久精品人人爽人人爽快 | 伊人成伊人成综合网2222 | 天堂8在线天堂资源在线 | 性欧美1819 | 免费被黄网站在观看 | 久久精品.com| 亚洲黄色小说网站 | 69xxxx欧美老师 | 51午夜| 9久热久re爱免费精品视频 | 狠狠做深爱婷婷综合一区 | 亚洲一级免费毛片 | 国产综合在线播放 | 国产乱辈通伦影片在线播放 | 2o18国产大陆天天弄 | 99热色| 色成人在线| 天天夜夜操 | 国产精品一级毛片不收费 | 美女黄页免费 | 天天看片夜夜爽 | 夜夜综合网 | 人人干人人草 | 特黄十八岁大片 | a天堂中文在线 | video欧美性精品 | 四虎永久免费影院 | 狠狠干夜夜骑 | 高清精品女厕在线观看 | 国产高清免费午夜在线视频 | 四虎海外在线永久免费看 | 91成人免费观看 |