憑借卓越性能表現與先天開源優勢,DeepSeek正迅速成為全球擴展大模型應用實踐的一大“圓心”。作為英特爾在GPU領域的重要布局,英特爾銳炫?顯卡既是游戲黨與視頻生產力工作者的新歡,也可用作計算卡,對DeepSeek提供加速支持,為企業用戶部署相關AI應用提供一條全新的高價性比實現路徑。具體來說,就是與英特爾? 至強? 可擴展處理器或英特爾? 至強? W處理器搭配,以多卡配置的型態來運行和加速DeepSeek推理任務。
本文將在DeepSeek-R1- Distill-Qwen-32B推理場景下,以面向企業級應用且成本最低可控制在5-6萬元人民幣的4 路英特爾銳炫? A770顯卡 + 至強? W處理器的解決方案為例,詳細闡述搭建硬件環境、配置驅動與軟件、優化參數設置等步驟,手把手教大家部署和配置這一方案。
1. 軟硬件安裝配置與初始化
1.1 硬件安裝配置
硬件配置
處理器:英特爾? 至強? W 處理器(可選20核/24核/28核/32核)
內存:8 x 32GB DDR5-3200
存儲:2TB M.2 固態盤
電源:≥2000瓦
GPU:4 x英特爾銳炫? A770顯卡
BIOS:設置Re-Size BAR Support為[Enabled]
圖. 安裝4路英特爾銳炫? A770顯卡的AI工作站
在BIOS設置中,將Re-Size BAR Support設為[Enabled]
1.2 軟件安裝配置
軟件配置
操作系統:Ubuntu22.04.1 LTS
內核:6.5.0 - 35 - general
驅動程序:23.43.27642.67
vLLM Serving:intelanalytics/ipex-llm-serving-xpu:b11
安裝操作系統Ubuntu22.04.1 LTS(鏡像文件可訪問https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso獲取)。
進行硬件驗證,你要為每塊 GPU 顯卡都配備足額功耗來保證其工作正常。安裝完操作系統后,可通過以下命令檢查英特爾銳炫? A770顯卡是否正常加載:
~$ lspci | grep 56a0
18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
在確保 APT 網絡已連接,且你的賬號已具有 sudo 權限的情況下,需嚴格按以下步驟安裝驅動程序:
~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg
~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list
~$ sudo apt update
如果內核版本不是6.5.0-35,則通過以下命令安裝6.5.0-35版本:
~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic
~$ sudo apt install intel-i915-dkms
~$ sudo vim /etc/default/grub
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"
~$ sudo update-grub
~$ sudo reboot
然后通過以下命令安裝計算、媒體和顯示運行時庫:
~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo
通過以下命令將當前用戶添加到 render 組:
~$ sudo gpasswd -a $(USER) render
~$ sudo newgrp render
驅動程序安裝完成后,建議使用以下命令進行驗證:
~$ clinfo | grep "Driver Version"
Driver Version 23.43.27642.67
1.3 在英特爾? 至強? W平臺上設置GPU的HDMI顯示
首先禁用 ast 卡:
~$ sudo vim /etc/modprobe.d/blacklist.conf
在文件底部添加“blacklist ast”:
~$ sudo update-initramfs -u
然后將窗口系統配置為wayland模式:
~$ sudo vim /etc/gdm3/custom.conf
將WaylandEnable設置為true:
完成后更新初始RAM文件系統(initramfs)并重啟系統,然后將HDMI線插入第一塊英特爾銳炫? A770顯卡即可完成顯示終端設置。
]# sudo update-initramfs -u
~$ sudo reboot
1.4 監控工具xpu-smi安裝
可根據xpumanager repo安裝用于監控和管理 XPU設備狀態信息的xpu-smi 工具。下載xpumanager并執行以下命令:
~$ wgethttps://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb--no-check-certificate
~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb
~$ xpu-smi discovery
結果顯示如下:
大模型服務與聊天機器人演示
2.1容器(Docker)安裝及服務設置
用戶可通過 Docker,在英特爾銳炫? A770顯卡上使用 IPEX-LLM開展 vLLM 服務。Docker的安裝可參考:https://docs.docker.com/engine/install/ubuntu/
通過以下命令,設置CPU主頻至最大睿頻,并將顯卡鎖頻至2.4GHz:
~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic
# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:
~$ sudo cpupower frequency-set -d 4.8GHz
~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400,2400
2.2 安裝并啟動vLLM服務
下載并安裝以下vllm版本:
~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11
從https://hf-mirror.com下載LLM模型到本地文件夾中(例如:/home/worker/LLM)。
從https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下載蒸餾版模型。
將以下腳本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件(以下操作都以DeepSeek-R1-Distill-Qwen-32B版為例):
將以下腳本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:
然后啟動容器和vLLM 服務:
~$ sudo bash backend-ipex-docker.sh
~$ docker exec -it ipex-llm-b11 bash
~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh
如下日志表明DeepSeek推理服務已啟動成功:
2.3 使用Chatbox AI進行性能測試
開發者可以在本地使用Chatbox AI進行LLM推理性能測試。如DeepSeek推理服務IP為192.168.10.110,在Windows PowerShell中執行以下命令并輸入密碼,將遠程服務端口映射到本地:
User> ssh -L 8001:localhost:8001 worker@192.168.10.110
打開Chatbox AI的Url(https://web.chatboxai.app/)
選擇 “User My Own API Key / Local Model”,點擊 “Add Custom Provider”,并根據下圖所示進行配置,手動輸入DeepSeek整流的模型名稱等信息:
由此,使用者可以在Chatbox AI中向大語言模型提問,測試其推理性能:
vllm服務日志能夠顯示當前的性能狀況,如圖中所示,基于多路英特爾銳炫? A770顯卡的推理服務一直有著30+ tokens/s的性能表現。
創新不止步:全新24GB銳炫? 顯卡與滿血版DeepSeek R1方案正在路上
本部署指南雖然是圍繞4路英特爾銳炫? A770顯卡的方案展開,且以DeepSeek-R1-Distill-Qwen-32B版為例,但我們的實踐探索并未局限于此。
一方面,該解決方案可對DeepSeek各個蒸餾版提供同樣靈活的支持。使用者可通過調整輸入模型名稱,以及設定并行使用的顯卡數量來進行調整(使用--tensor-parallel-size參數來控制)。
另一方面,多路英特爾銳炫?顯卡 + 英特爾? 至強? 可擴展處理器 /至強? W處理器方案的關鍵目標,還是鎖定在DeepSeek- R1-671B這一性能巔峰版本上,其配置與優化方法很快就會與大家見面。預計其技術路徑會同時覆蓋基于KTransformer,能更充分發揮至強? 處理器內置AI加速技術AMX潛能的方案,以及GPU配置密度更高的單機16路英特爾銳炫? 顯卡的方案。
另一個值得期待的進展,就是專為生產力應用打造的新一代英特爾銳炫? 顯卡 B580 24G顯存版本也正向我們走來,其4張卡即可提供96GB的顯存容量,意味著用戶可在單機中更輕松地部署更大參數量的DeepSeek服務(例如DeepSeek- R1-671B版本),進而能在實戰中以較低的成本和較為便捷的部署方式,開啟不縮水的DeepSeek服務。
審核編輯 黃宇
-
顯卡
+關注
關注
16文章
2486瀏覽量
68503 -
DeepSeek
+關注
關注
1文章
584瀏覽量
305
發布評論請先 登錄
相關推薦
【第一章 透傳策略】手把手教你玩轉新版正點原子云
《手把手教你做星閃無人機》即將開播,鎖定15日晚七點!

《手把手教你做PC》課程即將啟動!深開鴻引領探索KaihongOS筆記本電腦開發實戰

英特爾2025上半年將推24GB顯存銳炫B580顯卡
英特爾2025上半年或推24GB顯存銳炫B580顯卡
手把手教你通過宏集物聯網工控屏&網關進行協議轉換,將底層PLC/傳感器的數據轉換為TCP協議并傳輸到用戶

英特爾發布第一代車載銳炫獨立顯卡
手把手教你排序算法怎么寫

評論