在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀

北京2024年8月23日/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰。

源2.0-M32大模型研發團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現,最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現高并發推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

評測結果顯示,源2.0-M32量化版在多個業界主流的評測任務中性能表現突出,特別是在MATH(數學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優化,源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環境中均能高效運行。未來,隨著量化技術的進一步優化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用,為用戶提供更高效的智能服務。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3632

    瀏覽量

    43578
  • 算力
    +關注

    關注

    2

    文章

    1165

    瀏覽量

    15500
  • 大模型
    +關注

    關注

    2

    文章

    3060

    瀏覽量

    3895
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama
    發表于 03-05 08:07

    誠技術M720智能模組成功運行DeepSeek模型

    DeepSeek以“開源+低成本+高性能”三大利器席卷全球AI領域。誠技術研發的基于高通驍龍680(SM6225)平臺的智能模組M720,已成功實現DeepSeek模型的穩定
    的頭像 發表于 02-24 15:12 ?569次閱讀

    Meta重磅發布Llama 3.3 70B:開源AI模型的新里程碑

    ?在人工智能領域,Meta的最新動作再次引起了全球的關注。今天,我們見證了Meta發布Llama 3.3 70B 模型,這是一個開源的人工智能模型,它不僅令人印象深刻,而且在
    的頭像 發表于 12-18 16:46 ?547次閱讀
    Meta重磅<b class='flag-5'>發布</b><b class='flag-5'>Llama</b> 3.3 70B:開源AI<b class='flag-5'>模型</b>的新里程碑

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集擴展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型
    的頭像 發表于 11-20 09:59 ?718次閱讀

    Meta發布Llama 3.2量化模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型量化
    的頭像 發表于 10-29 11:05 ?807次閱讀

    Llama 3 與開源AI模型的關系

    在人工智能(AI)的快速發展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創新,還促進了全球開發者社區的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關系
    的頭像 發表于 10-27 14:42 ?723次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個維度進行,包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對Llama
    的頭像 發表于 10-27 14:37 ?991次閱讀

    Llama 3 模型訓練技巧

    Llama 3 模型,假設是指一個先進的人工智能模型,可能是一個虛構的或者是一個特定領域的術語。 1. 數據預處理 數據是任何機器學習模型
    的頭像 發表于 10-27 14:24 ?822次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :
    的頭像 發表于 10-27 14:15 ?685次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布Llama3.2:一個多語言大型語言模型
    的頭像 發表于 10-12 09:39 ?1369次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama</b>-3.2-1B-Instruct<b class='flag-5'>模型</b>

    AMD發布首款小語言AI模型Llama-135m

    近日,AMD在Huggingface平臺上正式推出了自家首款“小語言模型”——AMD-Llama-135m。這款模型以其獨特的推測解碼功能,吸引了業界的廣泛關注。
    的頭像 發表于 09-30 16:38 ?1628次閱讀

    英偉達發布AI模型 Llama-3.1-Nemotron-51B AI模型

    速度比原70B大模型提升2.2倍,具備更準確和更高效的運算效率;能夠大幅降低運行成本。 ? ? ? 通過NAS技術微調;大幅降低了內存消耗、計算復雜性;Llama-3.1-Nemotron-51B AI
    的頭像 發表于 09-26 17:30 ?871次閱讀

    Meta發布全新開源大模型Llama 3.1

    科技巨頭Meta近期震撼發布了其最新的開源人工智能(AI)模型——Llama 3.1,這一舉措標志著Meta在AI領域的又一重大突破。Meta創始人馬克·扎克伯格親自站臺,盛贊Llama
    的頭像 發表于 07-24 18:25 ?1749次閱讀

    Meta即將發布超強開源AI模型Llama 3-405B

    在人工智能領域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發布其最新力作——Llama 3-405B,一個擁有驚人4050億參數的開源大
    的頭像 發表于 07-18 09:58 ?1295次閱讀

    【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    /LLM-TPU.git 然后進入LLAMA3對應的文件夾中,創建虛擬環境并激活: cd LLM-TPU/models/Llama3 python3 -m venv python_v
    發表于 06-25 15:02
    主站蜘蛛池模板: 国产成年网站v片在线观看 国产成人91青青草原精品 | 欧美精品一区二区三区在线播放 | 国产亚洲精品自在久久77 | 久久久xxx| 国模精品 | 国产看午夜精品理论片 | 国模福利 | 女性一级全黄生活片 | 中国一级特黄特色真人毛片 | 老色批在线播放视频网站免费 | 日本高清视频不卡 | 欧美特黄三级在线观看 | 免费在线看片网站 | 色天天综合色天天碰 | 日韩精品免费一级视频 | 欧美视频xxxxx | 色狠狠狠色噜噜噜综合网 | 在线视频网址 | 色片在线| 亚洲欧美7777| 在线播放国产不卡免费视频 | 亚洲 欧洲 日产 韩国在线 | 国产精品一级香蕉一区 | 天堂一区二区三区在线观看 | 伊人三级 | 狠狠躁夜夜躁人人爽天天miya | 奇米福利视频 | 四虎在线精品 | 六月色婷婷 | 九九九色 | 天天做天天爱夜夜大爽完整 | 在线观看一区二区三区四区 | 久久 在线播放 | 亚洲黄色天堂 | 欧美交片 | 国产成人系列 | 爽好舒服快给老师 | 日本tv欧美tv天堂 | 天天干伊人 | 人人干人人干人人干 | 性欧美性free |