在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI初創企業推MoE混合專家模型架構新品abab 6.5

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-17 15:06 ? 次閱讀

4 月 17 日,國內人工智能初創公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含兩款模型:

losoev 6.5:擁有萬億級別的參數,可處理 200k tokens 的上下文長度;

losoev 6.5s:與 losoev 6.5 共享相同的訓練技術和數據,但效率更高,同樣支持 200k tokens 的上下文長度,且能夠在 1 秒鐘內處理近 3 萬字的文本。

自今年 1 月份推出國內首款基于 MoE 架構的 losoev 6 模型以來,MiniMax 通過優化模型架構、重建數據管道、改進訓練算法以及實施并行訓練策略等手段,在加速模型擴展方面取得了顯著進展。

在 200k token 的范圍內,官方對 losoev 6.5 進行了業內常見的“大海撈針”測試,即將一句與原文無關的句子插入長文本中,然后通過自然語言詢問模型,觀察其能否準確識別出這句話。經過 891 次測試,losoev 6.5 均能準確回答問題。

losoev 6.5 和 losoev 6.5s 模型將逐步應用于 MiniMax 旗下的產品,如海螺 AI 和 MiniMax 開放平臺。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4687

    瀏覽量

    94445
  • 人工智能
    +關注

    關注

    1804

    文章

    48509

    瀏覽量

    245337
  • 模型
    +關注

    關注

    1

    文章

    3471

    瀏覽量

    49869
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    套件2.0全面支持 DeepSeek四大關鍵技術:混合專家模型MoE)、多Token預測(MTP)多頭潛在注意力(MLA)、FP8推理(FP8 Inferencing),實現Toke
    發表于 04-13 19:52

    橫空出世!容芯致遠創新“智算整機架構”融合DeepSeek應用

    DeepSeek火爆全球,并引發算力行業鏈式反應。借助混合專家模型(MOE)架構、多頭潛在注意力機制(MLA)等算法創新,DeepSeek顯
    的頭像 發表于 02-28 13:48 ?282次閱讀
    橫空出世!容芯致遠創新“智算整機<b class='flag-5'>架構</b>”融合DeepSeek應用

    字節豆包大模型團隊推出UltraMem稀疏架構

    的應用提供了有力支持。 據介紹,UltraMem架構針對MoE(Mixture of Experts,專家混合)模型推理時存在的高額訪存問題
    的頭像 發表于 02-13 11:17 ?553次閱讀

    DeepSeek:引領全球AI競賽的中國新范式

    的價值重估,DeepSeek現象折射出中國AI產業發展的新邏輯。這家成立僅兩年的初創企業,不僅連續推出性能對標GPT-4的MoE混合
    的頭像 發表于 02-09 10:31 ?759次閱讀

    DeepSeek對芯片算力的影響

    DeepSeek模型,尤其是其基于MOE混合專家架構的DeepSeek-V3,對芯片算力的要求產生了深遠影響。為了更好地理解這一影響,我
    的頭像 發表于 02-07 10:02 ?903次閱讀
    DeepSeek對芯片算力的影響

    解析DeepSeek MoE并行計算優化策略

    本期Kiwi Talks將從集群Scale Up互聯的需求出發,解析DeepSeek在張量并行及MoE專家并行方面采用的優化策略。DeepSeek大模型的工程優化以及國產AI 產業鏈的
    的頭像 發表于 02-07 09:20 ?1302次閱讀
    解析DeepSeek <b class='flag-5'>MoE</b>并行計算優化策略

    法國AI初創企業Mistral AI計劃IPO

    法國AI領域的初創企業Mistral AI近日宣布了其未來的發展藍圖。公司創始人兼首席執行官Arthur Mensch明確表示,Mistral AI
    的頭像 發表于 01-24 13:58 ?466次閱讀

    企業AI模型托管怎么做的

    當下,越來越多的企業選擇將AI模型托管給專業的第三方平臺,以實現高效、靈活和安全的模型運行。下面,AI部落小編為您介紹
    的頭像 發表于 01-15 10:10 ?303次閱讀

    企業AI模型部署攻略

    當下,越來越多的企業開始探索和實施AI模型,以提升業務效率和競爭力。然而,AI模型的部署并非易事,需要
    的頭像 發表于 12-23 10:31 ?484次閱讀

    獵戶星空發布Orion-MoE 8×7B大模型AI數據寶AirDS

    。 Orion-MoE 8×7B是獵戶星空精心打造的開源混合架構專家模型,該模型擁有高達8×7
    的頭像 發表于 11-29 13:57 ?544次閱讀

    NVIDIA AI助力初創企業為心理治療師提供AI工具

    NVIDIA AI 助力初創企業為心理治療師提供 AI 工具,以此來優化和提升心理健康服務水平,為人們的心理健康保駕護航。
    的頭像 發表于 11-19 16:03 ?478次閱讀

    騰訊發布開源MoE大語言模型Hunyuan-Large

    近日,騰訊公司宣布成功推出業界領先的開源MoE(Mixture of Experts,專家混合)大語言模型——Hunyuan-Large。這款模型
    的頭像 發表于 11-06 10:57 ?607次閱讀

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    再到大模型云平臺的構建,此書都有提及和講解,循序漸進,讓讀者可以由點及面,由面到體的來認識大數據模型的體系架構。 前言中,作者通過提出幾個問題來引導讀者閱讀思考——分布式AI計算依賴哪
    發表于 10-08 10:40

    浪潮信息發布“源2.0-M32”開源大模型

    浪潮信息近日推出了革命性的“源2.0-M32”開源大模型。該模型在源2.0系列基礎上,引入了“基于注意力機制的門控網絡”技術,構建了一個包含32個專家混合
    的頭像 發表于 05-29 09:08 ?850次閱讀

    騰訊云大模型價格調整:混元-lite、混元-standard免費,混元-pro降價

    據了解,騰訊混元大模型是騰訊全鏈路自研的萬億參數大模型,采用混合專家模型MoE)結構,
    的頭像 發表于 05-23 17:05 ?1504次閱讀
    主站蜘蛛池模板: 日本三级在线播放线观看2021 | 三级全黄a| 拍拍拍美女黄色1000视频 | 午夜高清福利 | 亚洲香蕉网久久综合影院3p | 美女又黄又免费 | 午夜影视啪啪免费体验区深夜 | 四虎亚洲精品 | 尤物黄色| 婷婷六月天激情 | 一级毛片aaaaaa视频免费看 | 久久久午夜精品理论片 | 老师在办公室被躁得舒服小说 | 77米奇影院| 国产1区2区三区不卡 | 日韩一级片在线免费观看 | 激情综合网色播五月 | 日韩免费在线视频 | 国产美女视频一区二区二三区 | 婷婷激情丁香 | 99久久综合狠狠综合久久男同 | 亚洲第一网站 | 欧美色操| 狠狠色噜噜狠狠狠狠狠色综合久久 | 成人久久久 | 可以免费看黄的网址 | 欧美伊人久久大香线蕉综合69 | 色欲情狂| 青青伊人91久久福利精品 | 97影院理论片在线观看 | 久久综合五月婷婷 | 久久国产精品免费 | 成人三级在线观看 | 美女露出尿口让男人桶爽网站 | 1024手机看片国产 | luxu259在线中文字幕 | 天天综合天天综合色在线 | 天天插天天操天天射 | 日韩欧美亚洲综合一区二区 | 欧美区亚洲区 | 日韩一级片免费 |