在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新火種AI|算力不足,小模型成AI模型發展下個方向?

新火種 ? 來源:新火種 ? 作者:新火種 ? 2024-04-23 21:20 ? 次閱讀

作者:一號

編輯:美美

大模型不是AI的唯一出路,把模型做小也是本事。

這段時間,AI模型界是真的熱鬧,新的模型不斷涌現,不管是開源還是閉源,都在刷新成績。就在前幾天,Meta就上演了一出“重奪開源鐵王座”的好戲。發布了Llama 3 8B和70B兩個版本,在多項指標上都超越了此前開源的Grok-1和DBRX,成為了新的開源大模型王者。

wKgaomYntYWALO4kAAF9o0JhNoc638.jpg

并且Meta還透露,之后還將推出400B版本的Llama 3,它的測試成績可是在很多方面上都追上了OpenAI閉源的GPT-4,讓很多人都直呼,開源版的GPT-4就要來了。盡管在參數量上來看,相比Llama 2,Llama 3并沒有特別大的提升,但是在某些表現上,Llama 3最小的8B版本都比Llama 2 70B要好。可見,模型性能的提升,并非只有堆參數這一種做法。

Llama 3重回開源之王

當地時間4月18日,“真·OpenAI”——Meta跑出了目前最強的開源大模型Llama 3。本次Meta共發布了兩款開源的Llama 3 8B和Llama 3 70B模型。根據Meta的說法,這兩個版本的Llama 3是目前同體量下,性能最好的開源模型。并且在某些數據集上,Llama 3 8B的性能比Llama 2 70B還要強,要知道,這兩者的參數可是相差了一個數量級。

wKgZomYntYWAVtnWAAB9WAUVD7g495.jpg

能夠做到這點,可能是因為Llama 3的訓練效率要高3倍,它基于超過15T token訓練,這比Llama 2數據集的7倍還多。在MMLU、ARC、DROP等基準測試中,Llama 3 8B在九項測試中領先于同行,Llama 3 70B也同樣擊敗了Gemini 1.5 Pro和Claude 3 Sonnet。

wKgaomYntYaAMuX1AABjhtgBFLk869.jpg

盡管在參數量上并沒有特別大的提升,但毫無疑問,Llama 3的性能已經得到了很大的進步,可以說是用相近的參數量獲得了更好的性能,這可能是在算力資源短期內無法滿足更大規模運算的情況下所作出的選擇,但這體現了AI模型的研發并非只有堆砌參數這一條“大力出奇跡”的道路。

把大模型做小正成業內共識

實際上,在Llama 3之間的兩位開源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一個模型解決一切問題的方式不同,Grok-1和DBRX都采用了MoE架構(專家模型架構),在面對不同問題的時候,調用不同的小模型來解決,實現在節省算力的情況下,保證回答的質量。

而微軟也在Llama 3發布后沒幾天,就出手截胡,展示了Phi-3系列小模型的技術報告。在這份報告中,僅3.8B參數的Phi-3-mini在多項基準測試中都超過了Llama 3 8B,并且為了方便開源社區使用,還特意把它設計成了與Llama系列兼容的結構。更夸張的是,微軟的這個模型,在手機上也能直接跑,經4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋果A16芯片上能夠跑到每秒12 token,這也就意味著,現在手機上能本地運行的最佳開源模型,已經做到了ChatGPT水平。

wKgaomYntYeAedOdAAH625X7FZ0117.jpg

而除了mini杯外,微軟也一并發布了小杯和中杯,7B參數的Phi-3-small和14B參數的Phi-3-medium。在技術報告中,微軟也說了,去年研究團隊就發現,單純堆砌參數量并非提升模型性能的唯一路徑,反而是精心設計訓練的數據,尤其是利用大模型本身去生成合成數據,并配合嚴格過濾的高質量數據,能夠讓中小模型的能力大幅躍升,所以他們也說,Textbooks are all you need,教科書級別的高質量數據才是重要的。

wKgZomYntYeACrYjAAAqb2tDS8k509.jpg

AI模型發展正著力于擺脫限制

英偉達乘著AI的東風,成為行業內說一不二,當之無愧的“賣鏟子的人”,各家AI公司都將英偉達的GPU視為“硬通貨”,以致于誰囤有更多的英偉達的GPU,誰的AI實力就強。但英偉達的GPU的交付并未能始終跟上市場的需求。

因此,很多AI公司開始另謀出路,要么找其他的GPU生產商,要么決定自己研發AI芯片。即使你囤夠了英偉達的GPU,也還有其他限制,OpenAI在前段時間就被爆出,因為訓練GPT-6,差點把微軟的電網搞癱瘓。馬斯克也曾說過,當前限制AI發展的主要因素是算力資源,但在未來,電力會成為限制AI發展的另一阻礙。

wKgaomYntYiAPtWZAAF4Lc468Mk068.jpg

顯然,如果持續“大力出奇跡”,通過堆砌參數量來實現AI性能的提升,那么以上這些問題遲早會遇到,但是如果把大模型做小,使用較小的參數量,實現同樣或者更好的性能,那么將可以顯著減少對算力資源的需求,進而減少對電力資源的消耗,從而讓AI在有限資源的情況下,得到更好的發展。

因此,接下來,誰能在將模型做小的同時,還能實現性能的增長,也是實力的體現。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    33714

    瀏覽量

    274484
  • 算力
    +關注

    關注

    1

    文章

    1114

    瀏覽量

    15379
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的突破

    近年來,隨著千億級參數模型的崛起,AI訓練對的需求呈現指數級增長。傳統服務器架構在應對分布式訓練、高并發計算和顯存優化等場景時逐漸顯露瓶頸。而RAKsmart為超大規模
    的頭像 發表于 04-24 09:27 ?131次閱讀

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    套件2.0,打造了一整套圍繞AI開發效率與落地路徑展開的“系統性解法”,為開發者提供了AI應用開發工具全家桶。同時,全新升級的旗艦5G智能體AI芯片天璣9400+也為智能體化用戶體驗提供了牢固的
    發表于 04-13 19:52

    DeepSeek推動AI需求:800G光模塊的關鍵作用

    隨著人工智能技術的飛速發展AI需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對
    發表于 03-25 12:00

    接棒,慧榮科技以主控技術突破AI存儲極限

    ? 過去的AI模型通常走大磚飛的路子,通過疊加更強的,來推動AI
    的頭像 發表于 03-19 01:29 ?1486次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術突破<b class='flag-5'>AI</b>存儲極限

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18

    模型遭遇墻,探索超級應用的發展路徑

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI? 全文如下: 大模型撞上 “墻”,超級應用的探尋之路 文 / 傅聰 近日,大
    的頭像 發表于 02-10 17:24 ?504次閱讀
    大<b class='flag-5'>模型</b>遭遇<b class='flag-5'>算</b><b class='flag-5'>力</b>墻,探索超級應用的<b class='flag-5'>發展</b>路徑

    企業AI租賃是什么

    企業AI租賃是指企業通過互聯網向專業的提供商租用所需的計算資源,以滿足其AI應用的需求。
    的頭像 發表于 11-14 09:30 ?2099次閱讀

    AI時代的重要性及現狀:平衡發展與優化配置的挑戰

    AI時代,扮演著至關重要的角色。如果說數據是AI模型的“燃料”,那么
    的頭像 發表于 11-04 11:45 ?949次閱讀

    AI模型的最新研究進展

    。例如,在醫療領域,生成式AI可以幫助醫生生成診斷報告、治療方案等;在教育領域,AI模型可以生成個性化的學習資源和建議。 多模態融合與交互 : AI
    的頭像 發表于 10-23 15:19 ?1151次閱讀

    未來AI模型發展趨勢

    上得到了顯著提升。未來,算法和架構的進一步優化將推動AI模型在性能上實現新的突破。 多頭自注意機制、前饋神經網絡等關鍵技術的改進,將增強模型的表達能力和泛化能力。 多模態融合 :
    的頭像 發表于 10-23 15:06 ?1617次閱讀

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    的訓練和推理提供了強大的支持,使得AI在科學研究中的應用更加廣泛和深入。 3. 數據驅動的研究范式 第二章還強調了數據在AI for Science中的核心地位。數據是
    發表于 10-14 09:16

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    國慶前就收到《大模型時代的基礎架構》一書,感謝電子發燒友論壇。歡度國慶之余,今天才靜下心來體驗此書,書不厚,200余頁,彩色圖例,印刷精美! 當初申請此書,主要是看到副標題“大模型
    發表于 10-08 10:40

    模型時代的需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型,以及相關的穩定性和性能
    發表于 08-20 09:04

    AI模型發展歷程和應用前景

    隨著人工智能技術的飛速發展AI模型逐漸成為研究與應用領域的熱點。AI模型,顧名思義,是指具有巨大參數量的深度學習
    的頭像 發表于 07-03 18:20 ?2008次閱讀

    STM CUBE AI錯誤導入onnx模型報錯的原因?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發表于 05-27 07:15
    主站蜘蛛池模板: 四虎影视4hu4虎成人 | 女性一级全黄生活片在线播放 | 男人天堂网在线播放 | 中文字幕一区精品欧美 | 九九九精品午夜在线观看 | 成人三级在线播放线观看 | 国产精品嫩草影院一二三区 | 黄色短视频免费看 | 国产精品yy9299在线观看 | 综合天天色 | 欧美在线一级视频 | 巨乳色最新网址 | 性欧美videofree另类超大 | 真人一级一级特黄高清毛片 | 国产精品久久久久久久久kt | 久久xxxx| 国产精品资源网站在线观看 | 久久午夜宅男免费网站 | 男女交性永久免费视频播放 | 666精品国产精品亚洲 | 1024手机最新手机在线 | www.色午夜.com | 免费看黄视频的网站 | 亚洲区 欧美区 | 在线看片你懂得 | 欧美性色综合网 | 人人射人人草 | 一级毛片日韩 | 如果我们是季节韩剧在线观看 | 日韩高清性爽一级毛片免费 | 手机在线看片福利 | 天堂网在线www | 国产午夜精品片一区二区三区 | 久久久综合久久 | 亚洲第一黄色网 | 日本写真高清视频免费网站网 | 免费公开视频人人人人人人人 | 1024成人 | 国产一级又色又爽又黄大片 | 国产成人精品本亚洲 | 手机看片福利永久 |