隨著人工智能技術的迅猛發展,大規模語言模型(LLMs)在自然語言處理、內容生成和智能對話等領域的應用日益廣泛。國產 AI 大模型 DeepSeek 憑借其強大的生成能力和廣泛的應用場景,迅速成為業界焦點。
目前,我們已經在英特爾 酷睿 處理器與英特爾銳炫 顯卡組成的硬件配置上,完成對大模型推理的驗證,為 AI 模型的部署和推理提供了強有力的支持。
本文將帶您深入了解如何在英特爾平臺上高效部署 DeepSeek 模型,充分發揮其潛力,助力 AI 應用的快速落地。
1硬件配置
GPU: 英特爾銳炫 B580 12G
2BIOS 配置
安裝英特爾銳炫顯卡后,必須在 BIOS 中啟用 PCIe 可重設 BAR(Base Address Register)。
3操作系統和驅動程序安裝
3.1Ubuntu* 24.10 操作系統安裝
以下是下載和安裝 Ubuntu 24.10 的步驟:
1)下載并安裝Ubuntu 24.10
wget https://releases.ubuntu.com/24.10/ubuntu-24.10-desktop-amd64.iso
2)關閉 Ubuntu 無人值守升級,以避免未經驗證的內核更新。
登錄 Ubuntu 后,設置屏幕永不鎖定并啟用自動登錄。
Setting->Power->Power Saving->Screen Blank->Never
設置 -> 電源 -> 節能 -> 屏幕空白 -> 從不
System->Users->Automatic Login
系統 -> 用戶 -> 自動登錄
sudo systemctl disable --now unattended-upgrades
然后編輯/etc/apt/apt.conf.d/20auto-upgrades,將Unattended-Upgrade設置為 “0”。
3)檢查內核版本是否為6.11.
$ uname -a Linux benchmark-Z590-VISION-D 6.11.0-8-generic #8-Ubuntu SMP PREEMPT_DYNAMIC Mon Sep 16 1320 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux
4)重新啟動設備,查看顯示是否正常工作。
3.2 英特爾客戶端 GPU
驅動程序安裝(ARC B 系列)
參考:
https://dgpu-docs.intel.com/driver/client/overview.html#installing-client-gpus-on-ubuntu-desktop-24-10
3.2.1在 Ubuntu Desktop 24.10 上
安裝客戶端 GPU
使用以下命令安裝 intel-graphics PPA 和必要的計算與媒體包:
sudo apt-get update sudo apt-get install -y software-properties-common # Add the intel-graphics PPA for 24.10 sudo add-apt-repository -y ppa:kobuk-team/intel-graphics # Install the compute-related packages sudo apt-get install -y libze-intel-gpu1 libze1 intel-ocloc intel-opencl-icd clinfo intel-gsc hwinfo # Install the media-related packages sudo apt-get install -y intel-media-va-driver-non-free libmfx1 libmfx-gen1 libvpl2 libvpl-tools libva-glx2 va-driver-all vainfo
上述命令安裝了大多數用戶所需的所有基本包,旨在盡量減少不必要的包安裝。
請注意,不同版本的 intel-opencl-icd 可能會有不同的性能表現。
3.2.2 配置渲染組成員資格
要訪問 GPU 功能,當前用戶必須能夠訪問/dev/dri 中的 DRM 渲染節點。
如果當前用戶不是 DRM 渲染節點(通常為 'render')組的成員,請將用戶添加到渲染節點組。
sudo gpasswd -a ${USER} render
這對更新后創建的 shell 就足夠了。要更改當前 shell 的組 ID:
newgrp render
3.3 驗證英特爾銳炫 B580 PCIe 配置空間
確保英特爾銳炫 B580 PCIe 配置空間具有 12GB 的 BAR2。以下是檢查 GPU PCIe 配置空間的指南:
步驟 1:列出 VGA 設備的 PCIe 總線地址。
lspci | grep -i vga
您將在屏幕上看到這些消息:
步驟 2:檢查英特爾銳炫 B580 的 PCIe 功能。
sudo lspci -s 03:00 -vvv | grep BAR
您將看到英特爾銳炫 B580 的 PCIe 功能,并檢查 PCIe 配置空間。
4OpenVINO 和基準測試工具安裝
OpenVINO 是一個開源工具包,用于優化和部署從云到邊緣的深度學習模型。它加速了各種用例的深度學習推理,如生成式 AI、視頻、音頻和語言,支持來自流行框架(如 PyTorch、TensorFlow、ONNX 等)的模型。轉換和優化模型,并部署在混合的英特爾 硬件和環境中,無論是在本地、設備上、瀏覽器中還是云端。
OpenVINO GenAI 是 OpenVINO 的一個變體,旨在簡化生成式 AI 模型的推理運行。它隱藏了生成過程的復雜性,并最大限度地減少了所需的代碼量。
使用以下命令快速安裝 OpenVINO 和工具。
git clone https://github.com/openvinotoolkit/openvino.genai.git cd ./tools/llm_bench python3 -m venv python-env source python-env/bin/activate pip install --upgrade pip pip install -r requirements.txt
更多詳情請參考openvino.genai/tools/llm_bench at master · openvinotoolkit/openvino.genai · GitHub
https://github.com/openvinotoolkit/openvino.genai/tree/master/tools/llm_bench
5運行 DeepSeek蒸餾模型的基準測試
5.1 下載預訓練的 LLM 模型
訪問:
https://huggingface.co或https://www.modelscope.cn
下載 deepseek 蒸餾模型,并將下載的模型保存在~/models 文件夾中。
5.2將模型轉換為 OpenVINO IR
運行以下命令將 DeepSeek-R1-Distill-Qwen-7B 轉換為 IR 格式并將權重壓縮為 INT4。您的系統必須至少具有 64GB 內存才能進行轉換。
optimum-cli export openvino --framework pt -m ./DeepSeek-R1-Distill-Qwen-7B --weight-format int4 –sym --trust-remote-code --task text-generation-with-past ./DeepSeek-R1-Distill-Qwen-7B-IR
5.3 使用 OpenVINO 啟動 LLM 基準測試
要在 B580 上啟動 LLM 模型 DeepSeek-R1-Distill-Qwen-7B 的基準測試,請運行以下命令:
python3 benchmark.py -m DeepSeek-R1-Distill-Qwen-7B-IR -n 1 -d GPU python benchmark.py -m DeepSeek-R1-Distill-Qwen-7B-IR -p "What is openvino?" -n 1 -d GPU
測試結果將顯示在屏幕上。請注意,結果可能因平臺和軟件版本而異。
通過本文的詳細步驟和配置指南,我們成功在英特爾平臺上驗證了 DeepSeek 蒸餾模型的推理性能。從硬件配置、BIOS 設置、操作系統安裝到驅動程序和 OpenVINO 工具的部署,每一步都確保了系統發揮更卓越的性能。
通過基準測試,我們展示了 DeepSeek-R1-Distill-Qwen 系列模型在 INT4 精度下的高效推理能力,尤其是在首個 token 和后續 token 的延遲表現上,展現了英特爾銳炫 顯卡在處理大模型推理任務時的強大潛力。英特爾銳炫 B580能夠為AI工作負載提供加速,其配備的英特爾Xe矩陣計算引擎(XMX),為新推出的XeSS 2提供強大支持。OpenVINO 工具套件可以縮短延遲,提高吞吐量,加速 AI 推理過程,同時保持精度,縮小模型占用空間,優化硬件使用。
未來,隨著硬件和軟件的進一步優化,我們期待在更多復雜場景中,特別是在生成式 AI 和大規模語言模型的應用中,驗證和英特爾銳炫 顯卡的性能,通過英特爾豐富的軟硬件產品協同,為 DeepSeek 及各種 AI 大模型的應用提供更強大的算力,讓邊緣側部署 AI 的使用場景有更多可能。
-
英特爾
+關注
關注
61文章
10119瀏覽量
173424 -
顯卡
+關注
關注
16文章
2494瀏覽量
68928 -
人工智能
+關注
關注
1802文章
48330瀏覽量
244066 -
DeepSeek
+關注
關注
1文章
729瀏覽量
822
原文標題:DeepSeek 模型在英特爾銳炫? 顯卡上的高效推理實踐
文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
MWC上海2018:英特爾助力合作伙伴加速5G部署
英特爾CPU部署Qwen 1.8B模型的過程
添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略

英特爾多款平板電腦CPU將于明年推出
OpenCL平臺和英特爾Stratix 10 FPGA的結合使用
為什么選擇加入英特爾?
介紹英特爾?分布式OpenVINO?工具包
英特爾Context Sensing SDK跨平臺上下文感知體驗
由Gayathri Murali設計英特爾平臺上的Android
如何在英特爾? 平臺上實現高效的大語言模型訓練后量化

英特爾酷睿Ultra處理器支持DeepSeek運行
探索座艙“未至之境”:英特爾支持DeepSeek車內本地運行

評論