在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

英特爾物聯(lián)網 ? 來源:英特爾物聯(lián)網 ? 2024-05-10 10:34 ? 次閱讀

01

Llama3簡介

Llama3 是Meta最新發(fā)布的開源大語言模型(LLM), 當前已開源8B和70B參數(shù)量的預訓練模型權重,并支持指令微調。詳情參見:

https://ai.meta.com/blog/meta-llama-3/

Llama3性能優(yōu)異,8B和70B參數(shù)模型的性能在chatbot-arena-leaderboard中皆進入前十;LLama-3-70b-Instruct僅次于閉源的GPT-4系列模型。

排行榜鏈接:

https://chat.lmsys.org/?leaderboard

b3bd5d62-0dfd-11ef-a297-92fbcf53809c.png

魔搭社區(qū)已提供Llama3 8B和70B模型的預訓練權重下載,實測下載速度平均34MB/s。

b3d29b8c-0dfd-11ef-a297-92fbcf53809c.png

請讀者用下面的命令把Meta-Llama-3-8B模型的預訓練權重下載到本地待用。

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-70B.git

算力魔方是一款可以DIY的迷你主機,采用了抽屜式設計,后續(xù)組裝、升級、維護只需要拔插模塊。通過選擇不同算力的計算模塊,再搭配不同的 IO 模塊可以組成豐富的配置,適應不同場景。

性能不夠時,可以升級計算模塊提升算力;IO 接口不匹配時,可以更換 IO 模塊調整功能,而無需重構整個系統(tǒng)。

本文以下所有步驟將在帶有英特爾i7-1265U處理器的算力魔方上完成驗證。

02

三步完成Llama3的INT4量化和本地部署

把Meta-Llama-3-8B模型的預訓練權重下載到本地后,接下來本文將依次介紹基于Optimum Intel工具將Llama進行INT4量化,并完成本地部署。

Optimum Intel作為Transformers和Diffusers庫與Intel提供的各種優(yōu)化工具之間的接口層,它給開發(fā)者提供了一種簡便的使用方式,讓這兩個庫能夠利用Intel針對硬件優(yōu)化的技術,例如:OpenVINO、IPEX等,加速基于Transformer或Diffusion構架的AI大模型在英特爾硬件上的推理計算性能。

Optimum Intel代碼倉連接:

https://github.com/huggingface/optimum-intel。

01

第一步,搭建開發(fā)環(huán)境

請下載并安裝Anaconda,然后用下面的命令創(chuàng)建并激活名為optimum_intel的虛擬環(huán)境:

conda create -n optimum_intel python=3.11 #創(chuàng)建虛擬環(huán)境
conda activate optimum_intel        #激活虛擬環(huán)境
python -m pip install --upgrade pip     #升級pip到最新版本

由于Optimum Intel代碼迭代速度很快,請用從源代碼安裝的方式,安裝Optimum Intel和其依賴項openvino與nncf。

python -m pip install "optimum-intel[openvino,nncf]"@git+https://github.com/huggingface/optimum-intel.git

02

第二步,用optimum-cli對Llama3模型進行INT4量化

optimum-cli是Optimum Intel自帶的跨平臺命令行工具,可以不用編寫量化代碼,實現(xiàn)對Llama3模型的量化。

執(zhí)行命令將Llama3-8B模型量化為INT4 OpenVINO格式模型:

optimum-cli export openvino --model D:llama3Meta-Llama-3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama3_int4_ov_model

b40612c8-0dfd-11ef-a297-92fbcf53809c.png

03

第三步:編寫推理程序llama3_int4_ov_infer.py

基于Optimum Intel工具包的API函數(shù)編寫Llama3的推理程序,非常簡單,只需要調用六個API函數(shù):

1.

初始化OpenVINO Core對象:ov.Core()

2.

編譯并載入Llama3模型到指定DEVICE:OVModelForCausalLM.from_pretrained()

3.

實例化Llama3模型的Tokenizer:tok=AutoTokenizer.from_pretrained()

4.

將自然語言轉換為Token序列:tok(question, return_tensors="pt", **{})

5.

生成答案的Token序列:ov_model.generate()

6.

將答案Token序列解碼為自然語言:tok.batch_decode()

完整范例程序如下所示,下載鏈接:

import openvino as ov
from transformers import AutoConfig, AutoTokenizer
from optimum.intel.openvino import OVModelForCausalLM


# 初始化OpenVINO Core對象
core = ov.Core()
ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
model_dir = "d:\llama3_int4_ov_model" #llama3 int4模型路徑
DEVICE = "CPU" #可更換為"GPU", "AUTO"...
# 編譯并載入Llama3模型到DEVICE
ov_model = OVModelForCausalLM.from_pretrained(
  model_dir,
  device=DEVICE,
  ov_config=ov_config,
  config=AutoConfig.from_pretrained(model_dir, trust_remote_code=True),
  trust_remote_code=True,
)
# 載入Llama3模型的Tokenizer
tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 設置問題
question = "What's the OpenVINO?" 
# 將自然語言轉換為Token序列
input_tokens = tok(question, return_tensors="pt", **{})
# 生成答案的Token序列
answer = ov_model.generate(**input_tokens, max_new_tokens=128)
# 將答案Token序列解碼為自然語言并顯示
print(tok.batch_decode(answer, skip_special_tokens=True)[0])

運行l(wèi)lama3_int4_ov_infer.py:

python llama3_int4_ov_infer.py

運行結果,如下所示:

b41a8794-0dfd-11ef-a297-92fbcf53809c.png

03

構建圖形化的Llama3 demo

請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

下載范例程序:

然后運行:

python llama3_webui.py

運行結果如下:

b5465e9a-0dfd-11ef-a297-92fbcf53809c.png

b574c000-0dfd-11ef-a297-92fbcf53809c.jpg

04

總結

Optimum Intel工具包簡單易用,僅需三步即可完成開發(fā)環(huán)境搭建、LLama模型INT4量化和推理程序開發(fā)。基于Optimum Intel工具包開發(fā)Llama3推理程序僅需調用六個API函數(shù),方便快捷的實現(xiàn)將Llama3本地化部署在基于英特爾處理器的算力魔方上。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19726

    瀏覽量

    232751
  • python
    +關注

    關注

    56

    文章

    4822

    瀏覽量

    85817
  • LLM
    LLM
    +關注

    關注

    1

    文章

    316

    瀏覽量

    632
  • OpenVINO
    +關注

    關注

    0

    文章

    111

    瀏覽量

    379
  • AI大模型
    +關注

    關注

    0

    文章

    358

    瀏覽量

    462

原文標題:Optimum Intel三步完成Llama3在算力魔方的本地量化和部署 | 開發(fā)者實戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網,微信公眾號:英特爾物聯(lián)網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    能RADXA微服務器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    。環(huán)境變量的配置,未來具體項目中我們會再次提到。 下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個與AI相關的模塊。先從最核心的LLM開始。 由于LLAMA3
    發(fā)表于 06-25 15:02

    《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構與部署本地知識庫

    實踐RAG技術的開發(fā)者來說是非常有價值的參考。 本人由于時間關系暫時騰不出太多時間投入實際部署本地知識庫,并且考慮到這本書成書是去年,書中提到的例子是利用Llama3,而當下可以考慮
    發(fā)表于 03-07 19:49

    菱FX3U接入MQTT平臺的三步

    菱FX3U接入MQTT平臺的三步第一:PLC網關通過串口采集菱FX3U的數(shù)據(jù) 第二
    發(fā)表于 11-11 16:01 ?1265次閱讀
    <b class='flag-5'>三</b>菱FX<b class='flag-5'>3</b>U接入MQTT平臺的<b class='flag-5'>三步</b>

    使用OpenVINO?魔方上加速stable diffusion模型

    魔方一款可以DIY的迷你主機,采用了抽屜式設計,后續(xù)組裝、升級、維護只需要拔插模塊。通過選擇計算模塊的版本,再搭配不同額IO模塊可以組成豐富的配置,適應不同場景。
    的頭像 發(fā)表于 05-25 14:34 ?919次閱讀
    使用OpenVINO?<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上加速stable diffusion模型

    Llama 3 王者歸來,Airbox 率先支持部署

    前天,智領域迎來一則令人振奮的消息:Meta正式發(fā)布了備受期待的開源大模型——Llama3Llama3的卓越性能Meta表示,Llama3
    的頭像 發(fā)表于 04-22 08:33 ?859次閱讀
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者歸來,Airbox 率先支持<b class='flag-5'>部署</b>

    使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

    人工智能領域,大型語言模型(LLMs)的發(fā)展速度令人震驚。2024年4月18日,Meta正式開源了LLama系列的新一代大模型Llama3,在這一領域中樹立了新的里程碑。
    的頭像 發(fā)表于 04-26 09:42 ?1045次閱讀
    使用OpenVINO?在你的<b class='flag-5'>本地</b>設備上離線運行<b class='flag-5'>Llama3</b>之快手指南

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯(lián)網,簡單快捷完成本地部署。點擊觀看
    的頭像 發(fā)表于 06-06 08:02 ?1044次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b><b class='flag-5'>Llama3</b>

    源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

    北京2024年8月23日?/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運行顯存僅需
    的頭像 發(fā)表于 08-25 22:06 ?531次閱讀
    源2.0-M32大模型發(fā)布<b class='flag-5'>量化</b>版 運行顯存僅需23GB 性能可媲美<b class='flag-5'>LLaMA3</b>

    使用OpenVINO 2024.4魔方部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3魔方
    的頭像 發(fā)表于 10-12 09:39 ?1190次閱讀
    使用OpenVINO 2024.4<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>部署</b><b class='flag-5'>Llama</b>-3.2-1B-Instruct模型

    從零開始訓練一個大語言模型需要投資多少錢?

    關于訓練技巧和模型評估的文章,但很少有直接告訴你如何估算訓練時間和成本的。前面分享了一些關于大模型/本地知識庫的安裝部署方法,無需編寫代碼,即可使用 Ollama+AnythingLLM搭建企業(yè)私有知識庫 ,或者, 三步
    的頭像 發(fā)表于 11-08 14:15 ?616次閱讀
    從零開始訓練一個大語言模型需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個開源的大語言模型服務工具,它的核心目的是簡化大語言模型(LLMs)的本地部署和運行過程,請參考《Gemma 2+Ollama
    的頭像 發(fā)表于 11-23 17:22 ?3231次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

    魔方本地部署Phi-4模型

    ?作者:魔方創(chuàng)始人/英特爾邊緣計算創(chuàng)新大使 劉 前面我們分享了《Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑》,
    的頭像 發(fā)表于 01-15 11:05 ?338次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>本地</b><b class='flag-5'>部署</b>Phi-4模型

    如何在邊緣端獲得GPT4-V的能力:魔方+MiniCPM-V 2.6

    作者:魔方創(chuàng)始人/英特爾邊緣計算創(chuàng)新大使 劉 前面我們分享了《
    的頭像 發(fā)表于 01-20 13:40 ?437次閱讀
    如何在邊緣端獲得GPT4-V的能力:<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>+MiniCPM-V 2.6

    趕緊本地運行與OpenAI-o1能力近似的DeepSeek-R1模型

    ?作者:魔方創(chuàng)始人/英特爾邊緣計算創(chuàng)新大使 劉 前面我們分享了《
    的頭像 發(fā)表于 01-21 14:29 ?3498次閱讀
    趕緊<b class='flag-5'>在</b><b class='flag-5'>本地</b>運行與OpenAI-o1能力近似的DeepSeek-R1模型

    魔方IO擴展模塊介紹 網絡篇1

    不同的總線接口功能。不同場景中,有采用串口、網絡或者是CAN總線通信,魔方?都可以通過模塊的選型提供支持;并且可以根據(jù)場景需要,提供微定制服務。 以上
    的頭像 發(fā)表于 04-09 14:33 ?120次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>IO擴展模塊介紹 網絡篇1
    主站蜘蛛池模板: 黄色毛片儿 | semm亚洲欧美在线高清 | 色偷偷91久久综合噜噜噜 | 午夜精品福利在线 | 免费视频播放 | 夜夜操天天 | 亚洲婷婷综合中文字幕第一页 | 男男失禁play 把尿bl | 激情综合网婷婷 | 国产一区二区三区乱码 | 五月天福利视频 | 5g影院午夜伴侣 | 在线播放色 | 色黄网站| 日本免费一级视频 | 手机在线看a | 看屁屁www视频免费观看 | 伊人网址 | 亚洲国产欧美在线人成aaa | 四虎在线永久免费观看 | 老湿司午夜爽爽影院榴莲视频 | 99热这里只有精品69 | 91亚色视频| 亚洲一区在线观看视频 | 欧美性猛交xxxx黑人喷水 | 天天干天天射天天 | 午夜视频在线观看一区二区 | 天天摸夜夜摸成人免费视频 | 欧美日韩一级视频 | 婷婷国产| 久青草国产手机视频免费观看 | 四虎精品成人免费观看 | 精品国产免费观看久久久 | 热久在线 | 性欧美视频 | 国内精品免费视频自在线 | 98色花堂国产第一页 | 美女视频一区二区三区在线 | 黄网站色| 婷婷色5月| 夜夜爱成人免费网站 |