在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

低比特量化技術如何幫助LLM提升性能

英特爾物聯網 ? 來源:OpenVINO 中文社區 ? 2023-12-08 15:26 ? 次閱讀

作者:楊亦誠

針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM 提升性能,以及新版 OpenVINO對于低比特量化技術的支持。

大模型性能瓶頸

相比計算量的增加,大模型推理速度更容易受到內存帶寬的影響(memory bound),也就是內存讀寫效率問題,這是因為大模型由于參數量巨大、訪存量遠超內存帶寬容量,意味著模型的權重的讀寫速度跟不上硬件對于算子的計算強度,導致算力資源無法得到充分發揮,進而影響性能。

f7a0f750-957b-11ee-8b88-92fbcf53809c.png

圖:memory bound與compute bound比較

低比特量化技術

低比特量化技術是指將模型參數從 fp32/fp16 壓縮到更低的比特位寬表達,在不影響模型輸出準確性和參數量的情況下,降低模型體積,從而減少緩存對于數據讀寫的壓力,提升推理性能。由于大模型中單個 layer 上的權重體積往往要遠大于該 layer 的輸入數據(activation),因此針對大模型的量化技術往往只會針對關鍵的權重參數進行量化(WeightOnly),而不對輸入數據進行量化,在到達理想的壓縮比的同時,盡可能保證輸出結果,實現最高的量化“性價比”

f7c40178-957b-11ee-8b88-92fbcf53809c.png

圖:權重壓縮示意

經驗證常規的 int8 權重量化,對大模型準確性的影響極低,而為了引入像 int4,nf4 這樣的更極致的壓縮精度,目前在權重量化算法上也經過了一些探索,其中比較典型的就是 GPTQ 算法,簡單來說,GPTQ 對某個 block 內的所有參數逐個量化,每個參數量化后,需要適當調整這個 block 內其他未量化的參數,以彌補量化造成的精度損失。GPTQ 量化需要準備校準數據集,因此他也是一種 PTQ(Post Training Quantization)量化技術。

OpenVINO 2023.2

對于 int4 模型的支持

OpenVINO 2023.2 相較 2023.1 版本,全面引入對 int4 模型以及量化技術的支持。主要有以下 2 個方面:

01CPU 及 iGPU 支持原生 int4 模型推理

OpenVINO工具目前已經可以直接讀取經 NNCF 量化以后的 int4 模型,或者是將 HuggingFace 中使用 AutoGPTQ 庫量化的模型轉換后,進行讀取及編譯。由于目前的 OpenVINO 后端硬件無法直接支持 int4 數據格式的運算,所以在模型執行過程中,OpenVINO runtime 會把 int4 的權重反量化的到 FP16 或是 BF16 的精度進行運算。簡而言之:模型以 int4 精度存儲,以 fp16 精度計算,用計算成本換取空間及 IO 成本,提升運行效率。這也是因為大模型的性能瓶頸主要來源于 memory bound,用更高的數據讀寫效率,降低對于內存帶寬與內存容量的開銷。

f7ebf480-957b-11ee-8b88-92fbcf53809c.png

圖:經 NNCF 權重壓縮后的模型結構

02NNCF 工具支持 int4 的混合精度量化策略(Weights Compression)

剛提到的 GPTQ 是一種 data-based 的量化方案,需要提前準備校驗數據集,借助 HuggingFace 的 Transformers 和 AutoGPTQ 庫可以完成這一操作。而為了幫助開發者縮短 LLM 模型的壓縮時間,降低量化門檻,NNCF 工具在 2.7.0 版本中引入了針對 int4 以及 nf4 精度的權重壓縮模式,這是一種 data-free 的混合精度量化算法,無需準備校驗數據集,僅對 LLM 中的 Linear 和 Embedding layers 展開權重壓縮。整個過程僅用一行代碼就可以完成:

compressed_model = compress_weights(model, mode=CompressWeightsMode.NF4, group_size=64, ratio=0.9)

左滑查看更多

其中model為 PyTorch 或 OpenVINO 的模型對象;mode代表量化模式,這里可以選擇CompressWeightsMode.NF4,或是CompressWeightsMode.INT4_ASYM/INT4_SYM等不同模式;為了提升量化效率,Weights Compression 使用的是分組量化的策略(grouped quantization),因此需要通過group_size配置組大小,例如 group_size=64 意味 64 個 channel 的參數將共享同一組量化參數(zero point, scale value);此外鑒于 data-free 的 int4 量化策略是比帶來一定的準確度損失,為了平衡模型體積和準確度,Weights Compression 還支持混合精度的策略,通過定義ratio值,我們可以將一部分對準確度敏感的權重用 int8 表示,例如在 ratio=0.9 的情況下,90% 的權重用 int4 表示,10% 用 int8 表示,開發者可以根據量化后模型的輸出結果調整這個參數。

在量化過程中,NNCF 會通過搜索的方式,逐層比較偽量化后的權重和原始浮點權重的差異,衡量量化操作對每個 layer 可能帶來的誤差損失,并根據排序結果以及用戶定義的 ratio 值,將損失相對較低的權重壓縮到 int4 位寬。

中文大語言模型實踐

隨著 OpenVINO2023.2 的發布,大語言模型的 int4 壓縮示例也被添加到了openvino_notebooks 倉庫中,這次特別新增了針對中文 LLM 的示例,包括目前熱門模型ChatGLM2Qwen。在這個 notebook 中,開發者可以體驗如何從 HuggingFace 的倉庫中導出一個 OpenVINO IR 格式的模型,并通過 NNCF 工具進行低比特量化,最終完成一個聊天機器人的構建。

f8093eb4-957b-11ee-8b88-92fbcf53809c.png

圖:fp16 與 int4 模型空間占用比較

通過以上這個截圖可以看到,qwen-7b-chat 經過 NNCF 的 int4 量化后,可以將體積壓縮到原本 fp16 模型的 1/3,這樣使得一臺 16GB 內存的筆記本,就可以流暢運行壓縮以后的 ChatGLM2 模型。此外我們還可以通過將 LLM 模型部署在酷睿 CPU 中的集成顯卡上,在提升性能的同時,減輕 CPU 側的任務負載。

f81349cc-957b-11ee-8b88-92fbcf53809c.png

圖:Notebook 運行效果

總結

OpenVINO 2023.2 中對 int4 權重量化的支持,可以全面提升大模型在英特爾平臺上的運行性能,同時降低對于存儲和內存的容量需求,降低開發者在部署大模型時的門檻,讓本地化的大語言模型應用在普通 PC 上落地成為可能。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 輕量化技術
    +關注

    關注

    0

    文章

    6

    瀏覽量

    2294
  • 大模型
    +關注

    關注

    2

    文章

    3039

    瀏覽量

    3853
  • LLM
    LLM
    +關注

    關注

    1

    文章

    321

    瀏覽量

    694
  • OpenVINO
    +關注

    關注

    0

    文章

    114

    瀏覽量

    422

原文標題:如何利用低比特量化技術在 iGPU 上進一步提升大模型推理性能|開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Labview開發技術叢書--運行性能提升技巧

    Labview開發技術叢書--運行性能提升技巧
    發表于 09-02 18:09

    基于RDMA技術的Spark Shuffle性能提升

    一篇文章教你使用RDMA技術提升Spark的Shuffle性能
    發表于 10-28 16:46

    求一種采用分段量化比特滑動技術的流水并行式模數轉換電路?

    本文提出了一種采用分段量化比特滑動技術的流水并行式模數轉換電路,較好地結合了并行式和逐次逼近比較式兩種模數轉換各自的長處,在保證高速工作的同時,可實現并行式難以實現的8位以上的高分辨率模數轉換,而且比現有的流水并行式模數轉換電
    發表于 04-08 06:34

    量化算法介紹及其特點分析

    模型量化作為一種能夠有效減少模型大小,加速深度學習推理的優化技術,已經得到了學術界和工業界的廣泛研究和應用。模型量化有 8/4/2/1 bit等,本文主要討論目前相對比較成熟的 8-bit
    發表于 07-26 08:08

    LLM性能的主要因素

    現在是2023年5月,截止目前,網絡上已經開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎性能,選到適合自己任務的LLM,成為一個關鍵。 本文會涉及以下幾個問題: 影響
    的頭像 發表于 05-22 15:26 ?2101次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    基于MacroBenchmark的性能測試量化指標方案

    介紹基于Google MacroBenchmark的性能量化指標測試的工程配置、測試流程、核心指標和應用案例,幫助Android 開發者更好地評估和比較App的性能
    的頭像 發表于 10-17 10:15 ?1178次閱讀

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進
    的頭像 發表于 10-23 16:10 ?927次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術,旨在通過減少網絡參數的比特寬度來減小模型大小和加速推理過程,同時盡量保持模型性能。從而達到把模型
    的頭像 發表于 07-15 11:01 ?984次閱讀
    深度學習模型<b class='flag-5'>量化</b>方法

    OpenVINO 2024.4持續提升GPU上LLM性能

    本次新版本在整個 OpenVINO 產品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數據中心環境的部署。
    的頭像 發表于 10-12 09:41 ?854次閱讀
    OpenVINO 2024.4持續<b class='flag-5'>提升</b>GPU上<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術,用于減小大型語言模型(LLM)的大小和計算需求,以便將這些模型部署到邊緣設備上。這項技術稱為模型量化。它使得人工智能模型能夠在資源受限的設備上高
    的頭像 發表于 10-25 11:26 ?629次閱讀
    理解<b class='flag-5'>LLM</b>中的模型<b class='flag-5'>量化</b>

    LLM技術對人工智能發展的影響

    隨著人工智能技術的飛速發展,大型語言模型(LLM技術已經成為推動AI領域進步的關鍵力量。LLM技術通過深度學習和自然語言處理
    的頭像 發表于 11-08 09:28 ?1796次閱讀

    TensorRT-LLM精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT
    的頭像 發表于 11-19 14:29 ?1102次閱讀
    TensorRT-<b class='flag-5'>LLM</b><b class='flag-5'>低</b>精度推理優化

    一種信息引導的量化LLM微調新算法IR-QLoRA

    大模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的信號。 問題是,大語言模型(LLM)卓越的表現取決于“力大磚飛”,如何在資源有限的環境中部署大模型并保障性能,仍然頗具挑戰。 以對大模型
    的頭像 發表于 11-19 17:16 ?735次閱讀
    一種信息引導的<b class='flag-5'>量化</b>后<b class='flag-5'>LLM</b>微調新算法IR-QLoRA

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能
    的頭像 發表于 12-17 17:47 ?725次閱讀

    LM Studio使用NVIDIA技術加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發者和技術愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。
    的頭像 發表于 06-06 15:14 ?104次閱讀
    LM Studio使用NVIDIA<b class='flag-5'>技術</b>加速<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>
    主站蜘蛛池模板: 激情五月宗合网 | 在线视频图片小说 | 无遮挡很污很爽很黄的网站 | 午夜寂寞视频在线观看 | 龙口护士门91午夜国产在线 | 国产四虎精品 | 天天躁狠狠躁夜夜躁2021 | 免费午夜不卡毛片 | 日本久久高清视频 | 色综合免费视频 | 狠狠色丁香婷婷综合视频 | 伊人精品在线观看 | 老师在办公室被躁得舒服小说 | 色多多免费在线观看 | 欧美一级特黄aaaaaa在线看首页 | 亚洲免费在线观看视频 | 视频在线免费观看 | 精品福利视频网站 | 男女爱爱免费高清 | 狠狠操狠狠搞 | 福利盒子手机看片 | 88av视频在线观看 | 手机看片福利盒子 | 天天操天天干天天摸 | 青草91| 狠狠摸狠狠操 | 免费精品美女久久久久久久久久 | 国模大尺度酒店私拍视频拍拍 | 美女扒开腿让男人桶尿口 | 一级特黄aaa大片免色 | 曰韩一级 | 国产免费播放一区二区三区 | 国产三片理论电影在线 | 最新久久精品 | 91国内在线视频 | 日本免费色视频 | 1024手机看片国产旧版你懂的 | 亚洲美女爱爱 | 亚洲色四在线视频观看 | 中文在线最新版天堂bt | 天堂网www天堂在线资源链接 |