在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三步完成在英特爾獨(dú)立顯卡上量化和部署ChatGLM3-6B模型

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-01-11 18:04 ? 次閱讀

01

ChatGLM3-6B 簡介

ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源模型,在填寫問卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用

問卷:

55f41322-b067-11ee-8b88-92fbcf53809c.gif

引用自:https://github.com/THUDM/ChatGLM3

請使用命令,將 ChatGLM3-6B 模型下載到本地 (例如,保存到 D 盤) :

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

左滑查看更多

02

BigDL-LLM 簡介

BigDL-LLM 是開源,遵循 Apache 2.0許可證,專門用于在英特爾的硬件平臺(tái)上加速大語言模型(Large Language Model, LLM)推理計(jì)算的軟件工具包。它是在原有的 BigDL 框架基礎(chǔ)上,為了應(yīng)對大語言模型在推理過程中對性能和資源的高要求而設(shè)計(jì)的。BigDL-LLM 旨在通過優(yōu)化和硬件加速技術(shù)來提高大語言模型的運(yùn)行效率,減少推理延遲,并降低資源消耗。

本文將詳細(xì)介紹基于 BigDL-LLM 在英特爾獨(dú)立顯卡上量化和部署 ChatGLM3-6B 模型。

03

部署平臺(tái)簡介:

算力魔方是一款可以 DIY 的迷你主機(jī),采用了抽屜式設(shè)計(jì),后續(xù)組裝、升級、維護(hù)只需要拔插模塊。

通過選擇計(jì)算模塊的版本,再搭配不同額 IO 模塊可以組成豐富的配置,適應(yīng)不同場景。性能不夠時(shí),可以升級計(jì)算模塊提升算力, IO 接口不匹配時(shí),可以更換 IO 模塊調(diào)整功能,而無需重構(gòu)整個(gè)系統(tǒng)。本文在帶有 A380獨(dú)立顯卡的算力模方上完成驗(yàn)證。

04

在英特爾獨(dú)立顯卡上部署 ChatGLM3-6B

4.1

搭建開發(fā)環(huán)境

第一步:請下載并安裝 Visual Studio 2022 Community Edition。安裝時(shí)務(wù)必選擇“使用 C++的桌面開發(fā)”。注意:不要修改默認(rèn)安裝路徑!

下載鏈接:

562d0c9a-b067-11ee-8b88-92fbcf53809c.png

第二步:請下載并安裝英特爾獨(dú)立顯卡驅(qū)動(dòng)程序。

下載鏈接:

https://www.intel.cn/content/www/cn/zh/download/785597/intel-arc-iris-xe-graphics-windows.html

第三步:請下載并安裝 Intel oneAPI Base Toolkit。

下載鏈接:

https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html

第四步:請下載并安裝 Anaconda,然后用下面的命令創(chuàng)建名為“bigdl”的虛擬環(huán)境。

conda create -n bigdl python=3.9 libuv
conda activate bigdl

4.2

安裝 BigDL-LLM[xpu]

第一步:用下載器 (例如:迅雷) 下載*.whl 安裝包到本地。

下載鏈接:

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torch-2.1.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torchvision-0.16.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/intel_extension_for_pytorch-2.1.10%2Bxpu-cp39-cp39-win_amd64.whl

第二步:執(zhí)行命令:

# 從本地安裝已下載的.whl安裝包
pip install torch-2.1.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install torchvision-0.16.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install intel_extension_for_pytorch-2.1.10+xpu-cp39-cp39-win_amd64.whl


# 安裝支持英特爾顯卡的bigdl-llm
pip install --pre --upgrade bigdl-llm[xpu] -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

詳情參考:

https://bigdl.readthedocs.io/en/latest/doc/LLM/Overview/install_gpu.html

4.3

第三步:運(yùn)行范例程序

首先:執(zhí)行命令,配置環(huán)境變量:

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

左滑查看更多

若系統(tǒng)中有集成顯卡,請執(zhí)行下面的命令,保證英特爾獨(dú)立顯卡是“xpu”指代的計(jì)算設(shè)備,

詳情參考:

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

左滑查看更多

然后,請下載范例程序并運(yùn)行:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_infer_gpu.py

import time
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer
import intel_extension_for_pytorch as ipex
import torch
CHATGLM_V3_PROMPT_FORMAT = "<|user|>
{prompt}
<|assistant|>"
# 請指定chatglm3-6b的本地路徑
model_path = "d:/chatglm3-6b"
# 載入ChatGLM3-6B模型并實(shí)現(xiàn)INT4量化
model = AutoModel.from_pretrained(model_path,
                 load_in_4bit=True,
                 trust_remote_code=True)
# run the optimized model on Intel GPU
model = model.to('xpu')
# 載入tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path,
                     trust_remote_code=True)
# 制作ChatGLM3格式提示詞  
prompt = CHATGLM_V3_PROMPT_FORMAT.format(prompt="What is Intel?")
# 對提示詞編碼
input_ids = tokenizer.encode(prompt, return_tensors="pt")
input_ids = input_ids.to('xpu')
st = time.time()
# 執(zhí)行推理計(jì)算,生成Tokens
output = model.generate(input_ids,max_new_tokens=32)
end = time.time()
# 對生成Tokens解碼并顯示
output_str = tokenizer.decode(output[0], skip_special_tokens=True)
print(f'Inference time: {end-st} s')
print('-'*20, 'Prompt', '-'*20)
print(prompt)
print('-'*20, 'Output', '-'*20)
print(output_str)

運(yùn)行結(jié)果,如下所示:

563ba57a-b067-11ee-8b88-92fbcf53809c.png

4.4

運(yùn)行 ChatGLM3-6B WebUI demo

首先,請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

然后,運(yùn)行命令,配置環(huán)境變量:

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

若系統(tǒng)中有集成顯卡,請執(zhí)行下面的命令,保證英特爾獨(dú)立顯卡是“xpu”指代的計(jì)算設(shè)備。

詳情參考:

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

最后,請下載范例程序:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_web_demo_gpu.py

并運(yùn)行:

streamlit run chatglm3_web_demo_gpu.py

左滑查看更多

運(yùn)行結(jié)果如下:

56549706-b067-11ee-8b88-92fbcf53809c.jpg

05

總結(jié)

BigDL-LLM 工具包簡單易用,僅需三步即可完成開發(fā)環(huán)境搭建、bigdl-llm[xpu]安裝以及 ChatGLM3-6B 模型的 INT4量化以及在英特爾獨(dú)立顯卡上的部署。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10009

    瀏覽量

    172344
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    538

    瀏覽量

    10342
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    299

    瀏覽量

    400

原文標(biāo)題:三步完成在英特爾獨(dú)立顯卡上量化和部署 ChatGLM3-6B 模型 | 開發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    英特爾2025上半年將推24GB顯存銳炫B580顯卡

    處理能力的需求。 據(jù)悉,銳炫B580 24GB將基于英特爾的BMG-G21 GPU核心設(shè)計(jì),與現(xiàn)有的銳炫B580 12GB版本核心架構(gòu)
    的頭像 發(fā)表于 01-03 10:46 ?331次閱讀

    使用英特爾AI PC為YOLO模型訓(xùn)練加速

    之后,情況有了新的變化,PyTorch2.5正式開始支持英特爾顯卡,也就是說,此后我們能夠借助英特爾 銳炫 顯卡來進(jìn)行模型訓(xùn)練了。
    的頭像 發(fā)表于 12-09 16:14 ?517次閱讀
    使用<b class='flag-5'>英特爾</b>AI PC為YOLO<b class='flag-5'>模型</b>訓(xùn)練加速

    英特爾推出全新英特爾銳炫B系列顯卡

    英特爾銳炫B580和B570 GPU以卓越價(jià)值為時(shí)新游戲帶來超凡表現(xiàn)。 ? > 今日,英特爾發(fā)布全新英特爾銳炫
    的頭像 發(fā)表于 12-07 10:16 ?925次閱讀
    <b class='flag-5'>英特爾</b>推出全新<b class='flag-5'>英特爾</b>銳炫<b class='flag-5'>B</b>系列<b class='flag-5'>顯卡</b>

    使用PyTorch英特爾獨(dú)立顯卡訓(xùn)練模型

    《PyTorch 2.5重磅更新:性能優(yōu)化+新特性》中的一個(gè)新特性就是:正式支持英特爾獨(dú)立顯卡訓(xùn)練
    的頭像 發(fā)表于 11-01 14:21 ?783次閱讀
    使用PyTorch<b class='flag-5'>在</b><b class='flag-5'>英特爾</b><b class='flag-5'>獨(dú)立</b><b class='flag-5'>顯卡</b><b class='flag-5'>上</b>訓(xùn)練<b class='flag-5'>模型</b>

    英特爾聚焦AI座艙

    英特爾推出首款銳炫車載獨(dú)立顯卡(dGPU)和第一代英特爾軟件定義車載SoC系列,滿足當(dāng)前消費(fèi)者對汽車內(nèi)部配備更多屏幕、獲得更高清晰度等AI座艙體驗(yàn)需求。
    的頭像 發(fā)表于 10-30 16:26 ?247次閱讀

    使用OpenVINO 2024.4算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3算力魔方的本地量化部署》。2024年9月25日,Meta
    的頭像 發(fā)表于 10-12 09:39 ?718次閱讀
    使用OpenVINO 2024.4<b class='flag-5'>在</b>算力魔方上<b class='flag-5'>部署</b>Llama-3.2-1<b class='flag-5'>B</b>-Instruct<b class='flag-5'>模型</b>

    chatglm2-6bP40做LORA微調(diào)

    背景: 目前,大模型的技術(shù)應(yīng)用已經(jīng)遍地開花。最快的應(yīng)用方式無非是利用自有垂直領(lǐng)域的數(shù)據(jù)進(jìn)行模型微調(diào)。chatglm2-6b國內(nèi)開源的大模型
    的頭像 發(fā)表于 08-13 17:12 ?560次閱讀
    <b class='flag-5'>chatglm2-6b</b><b class='flag-5'>在</b>P40<b class='flag-5'>上</b>做LORA微調(diào)

    支持140億參數(shù)AI模型,229TOPS!英特爾重磅發(fā)布第一代車載獨(dú)立顯卡

    英特爾院士、英特爾公司副總裁、汽車事業(yè)部總經(jīng)理Jack Weast指出,今年的CES英特爾發(fā)布了第一代AI增強(qiáng)型軟件定義車載SoC。8
    的頭像 發(fā)表于 08-12 09:07 ?1.1w次閱讀
    支持140億參數(shù)AI<b class='flag-5'>模型</b>,229TOPS!<b class='flag-5'>英特爾</b>重磅發(fā)布第一代車載<b class='flag-5'>獨(dú)立</b><b class='flag-5'>顯卡</b>

    英特爾發(fā)布第一代車載銳炫獨(dú)立顯卡

    英特爾震撼發(fā)布其第一代車載英特爾銳炫獨(dú)立顯卡,標(biāo)志著智能座艙技術(shù)邁入全新階段。這款顯卡平臺(tái)算力高達(dá)229TOPS,不僅支持多達(dá)8塊
    的頭像 發(fā)表于 08-09 14:54 ?593次閱讀

    如何將Llama3.1模型部署英特爾酷睿Ultra處理器

    本文從搭建環(huán)境開始,一幫助讀者實(shí)現(xiàn)只用五行代碼便可將Llama3.1模型部署英特爾 酷睿
    的頭像 發(fā)表于 07-26 09:51 ?2459次閱讀
    如何將Llama3.1<b class='flag-5'>模型</b><b class='flag-5'>部署</b><b class='flag-5'>在</b><b class='flag-5'>英特爾</b>酷睿Ultra處理器

    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    Firefly推出大語言模型本地部署的產(chǎn)品:AIBOX-1684X,目前已適配主流的大語言模型,包括ChatGLM3-6B,以下是ChatGLM3
    的頭像 發(fā)表于 05-15 08:02 ?515次閱讀
    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    網(wǎng)友成功Arm架構(gòu)平臺(tái)運(yùn)行英特爾銳炫A750顯卡

    值得注意的是,英特爾獨(dú)立顯卡源于核心顯卡,因此長期使用的“i915”Linux系統(tǒng)內(nèi)核驅(qū)動(dòng)中,積累了許多與x86架構(gòu)緊密相關(guān)的特性。
    的頭像 發(fā)表于 05-13 15:54 ?735次閱讀

    簡單三步使用OpenVINO?搞定ChatGLM3的本地部署

    英特爾 OpenVINO? 工具套件是一款開源 AI 推理優(yōu)化部署的工具套件,可幫助開發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語言模型、計(jì)算機(jī)視覺和自然語言處理等 AI 工作負(fù)載,簡化深度學(xué)習(xí)推理的開發(fā)和
    的頭像 發(fā)表于 04-03 18:18 ?2209次閱讀
    簡單<b class='flag-5'>三步</b>使用OpenVINO?搞定<b class='flag-5'>ChatGLM3</b>的本地<b class='flag-5'>部署</b>

    浪潮信息&quot;源2.0&quot;大模型YuanChat支持英特爾最新商用AI PC

    % 。企業(yè)可以全新的英特爾商用客戶端AI PC,使用AI PC大模型效率工具"YuanChat"快速本地化部署和運(yùn)行"源2.0"大
    的頭像 發(fā)表于 03-27 22:52 ?561次閱讀
    浪潮信息&quot;源2.0&quot;大<b class='flag-5'>模型</b>YuanChat支持<b class='flag-5'>英特爾</b>最新商用AI PC

    m3芯片相當(dāng)于英特爾幾代cpu m3芯片相當(dāng)于英特爾什么顯卡

    m3芯片相當(dāng)于英特爾幾代cpu 關(guān)于m3芯片相當(dāng)于英特爾幾代cpu的問題,實(shí)際并沒有一個(gè)準(zhǔn)確的答案,因?yàn)椴煌男酒圃焐膛c
    的頭像 發(fā)表于 03-11 18:13 ?1.4w次閱讀
    主站蜘蛛池模板: 激情 婷婷 | 久久国产热视频 | 午夜久久久久久亚洲国产精品 | 色综合天天综久久久噜噜噜久久〔 | 色天使色护士 在线视频观看 | 精品久久久久久婷婷 | 成 人 黄 色视频免费播放 | 午夜看黄网站免费 | 欧美freesex | 亚洲成人免费在线 | 黄色大片视频网站 | 日本一卡二卡3卡四卡网站精品 | 欧美一卡2卡三卡四卡五卡 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 白嫩美女一级高清毛片免费看 | 放荡女同老师和女同学生 | 黄色一级毛片看一级毛片 | 久久综合九色欧美综合狠狠 | 1024国产高清精品推荐 | 国产剧情麻豆三级在线观看 | 国产福利在线观看一区二区 | 你懂的网址在线观看 | 国产女同视频 | 国产女人伦码一区二区三区不卡 | 免费人成在线观看网站品爱网日本 | 色老二精品视频在线观看 | 美女网站黄页 | 岛国毛片 | 狠狠干狠狠操视频 | 午夜湿影院 | 久久精品国产夜色 | 男女爱爱视频免费 | 国产成人一级片 | 色狠狠成人综合网 | 永久手机看片福利盒子 | 在线观看一二三区 | 欧美性受视频 | 天堂网在线观看 | 天堂bt资源在线官网 | 奇米欧美成人综合影院 | 激情六月综合 | 激情综合网站 |