作者:
Yury Gorbachev 英特爾院士 OpenVINO 產(chǎn)品架構(gòu)師
Whiteny Foster OpenVINO產(chǎn)品專家
翻譯:
武卓 博士 英特爾 OpenVINO 布道師
本次新版本在整個(gè) OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化,使大語(yǔ)言模型 (LLM) 的優(yōu)化和部署在所有支持的場(chǎng)景中更容易、性能更高,包括邊緣和數(shù)據(jù)中心環(huán)境的部署。
在客戶端,在之前的版本中我們一直在努力工作,而這個(gè)版本則支持我們?nèi)碌?Intel Xe2 GPU 架構(gòu),該架構(gòu)在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構(gòu)由 Intel Xe Matrix Extensions (Intel XMX) 加速技術(shù)提供支持,我們與 oneDNN 和驅(qū)動(dòng)程序團(tuán)隊(duì)的合作伙伴合作啟用了該技術(shù),以在矩陣乘法等計(jì)算密集型運(yùn)算上實(shí)現(xiàn)最佳性能。由于矩陣乘法是 LLM 中的一個(gè)關(guān)鍵熱點(diǎn),因此在部署 LLM 時(shí),使用 Xe2 架構(gòu)的性能優(yōu)勢(shì)會(huì)立即顯現(xiàn)出來(lái)。
我們不僅直接通過(guò)英特爾 XMX 優(yōu)化了矩陣乘法,還創(chuàng)建了高度優(yōu)化的 GPU 基元,如 縮放點(diǎn)積注意力(Scaled Dot Product Attention) 和旋轉(zhuǎn)位置編碼( Rotary Positional Embeddings),以減少這些復(fù)雜操作的執(zhí)行流水線開(kāi)銷。我們致力于改善內(nèi)存消耗并更有效地支持具有壓縮權(quán)重的模型,從而使大型語(yǔ)言模型(LLM)的部署更適合筆記本電腦/邊緣設(shè)備,并允許 LLM 適應(yīng)最小的內(nèi)存占用,這對(duì)于資源有限的環(huán)境至關(guān)重要。
我們所做的一些更改是通用的,并且會(huì)對(duì)其它平臺(tái)產(chǎn)生顯著影響,包括平臺(tái)上的集成顯卡(例如 Intel Core Ultra(第一代))和獨(dú)立顯卡(Intel Arc 系列)。
通過(guò)橫跨數(shù)十個(gè)大語(yǔ)言模型的性能和準(zhǔn)確性驗(yàn)證,我們衡量了整個(gè)模型集的這些改進(jìn)。使用神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 優(yōu)化框架中的權(quán)重壓縮算法可以嚴(yán)格控制對(duì)模型準(zhǔn)確性的影響。
對(duì)內(nèi)置 顯卡的性能進(jìn)行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個(gè)Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請(qǐng)參見(jiàn)下圖。
使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級(jí)處理器(第二代)內(nèi)置 GPU 上最大限度地提高 LLM 性能。有關(guān)工作負(fù)載和配置,請(qǐng)參閱附錄。結(jié)果可能會(huì)有所不同。
除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強(qiáng)大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對(duì)上一代產(chǎn)品的重大升級(jí)。OpenVINO 現(xiàn)在通過(guò) OpenVINO GenAI 軟件包為經(jīng)典深度學(xué)習(xí)模型(例如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和生成)和 LLM 提供對(duì)這種加速技術(shù)的訪問(wèn)。我們一直在與 NPU 團(tuán)隊(duì)合作,以提高性能、減少內(nèi)存消耗并加快過(guò)去版本的模型編譯速度,并將在未來(lái)的版本中繼續(xù)增強(qiáng)。
使用 LLM 的另一種常用場(chǎng)景是通過(guò)模型服務(wù),這意味著模型可以通過(guò) REST API 被訪問(wèn),并通過(guò) vLLM 或 OpenVINO 模型服務(wù)器 (OVMS) 等框架來(lái)進(jìn)行服務(wù)。對(duì)于此使用場(chǎng)景,我們還引入了新功能以增強(qiáng)解決方案特性。
OpenVINO 模型服務(wù)器(OVMS) 現(xiàn)在通過(guò) OpenAI API 為 LLM 提供服務(wù),并提供了啟用前綴緩存功能的能力,該功能通過(guò)緩存提示詞常見(jiàn)部分的計(jì)算來(lái)提高服務(wù)吞吐量。當(dāng)提示詞以相同的文本開(kāi)頭(例如“您是一個(gè)有用的 AI 助手”)或在聊天場(chǎng)景中使用 LLM 時(shí),這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內(nèi)存消耗并改進(jìn)了第二個(gè)Token延遲等指標(biāo)。
從 OpenVINO 2024.4 版本開(kāi)始,GPU 將支持分頁(yè)注意力( PagedAttention) 操作和連續(xù)批處理,這使我們能夠在 LLM 服務(wù)場(chǎng)景中使用 GPU。我們最初在對(duì) vLLM 的貢獻(xiàn)中啟用此功能,并在此版本中將其擴(kuò)展到 OpenVINO 模型服務(wù)器。這允許 Intel ARC GPU 在您的環(huán)境中以優(yōu)化的服務(wù)特性提供 LLM 模型服務(wù)。查看適用于 CPU 和 GPU 的 LLM 服務(wù)演示,其中展示了如何利用這些功能。
LLM 服務(wù)演示
https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html
為了繼續(xù)數(shù)據(jù)中心場(chǎng)景,OpenVINO 現(xiàn)在在英特爾至強(qiáng)處理器上運(yùn)行時(shí)提供對(duì) mxfp4 的支持,如開(kāi)放計(jì)算項(xiàng)目規(guī)范中所定義。對(duì)于 LLM,與 BF16 精度相比,它允許在第二個(gè)令牌延遲上提高性能,同時(shí)減少內(nèi)存消耗。神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 模型優(yōu)化功能支持此功能,該功能允許將 LLM 權(quán)重壓縮為這種格式。
定義
https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
從模型支持的角度來(lái)看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運(yùn)行時(shí)時(shí)使用 Hugging Face API 運(yùn)行模型,并高效導(dǎo)出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經(jīng)可用,用于演示如何在您選擇的平臺(tái)上將這些模型與 OpenVINO 一起使用。
OpenVINONotebooks
https://github.com/openvinotoolkit/openvino_notebooks
使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation
整個(gè)夏天,我們一直在與 Google Summer of Code 的優(yōu)秀貢獻(xiàn)者合作,結(jié)果令人鼓舞。我們一直在努力改進(jìn)
ARM 平臺(tái)上的生成式 AI
https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,
支持RISC-V
https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff
并探索許多其他令人興奮的發(fā)展,我們很快將更詳細(xì)地介紹這些發(fā)展。
謝謝您,我們期待在即將發(fā)布的版本中為您帶來(lái)更多性能改進(jìn)和新功能。有關(guān)此版本的更多詳細(xì)信息,請(qǐng)參閱 發(fā)行說(shuō)明。
發(fā)行說(shuō)明
https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html
Appendix
附錄
-
處理器
+關(guān)注
關(guān)注
68文章
19436瀏覽量
231312 -
英特爾
+關(guān)注
關(guān)注
61文章
10017瀏覽量
172420 -
LLM
+關(guān)注
關(guān)注
0文章
301瀏覽量
411 -
OpenVINO
+關(guān)注
關(guān)注
0文章
97瀏覽量
242
原文標(biāo)題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續(xù)提升GPU上LLM性能|開(kāi)發(fā)者實(shí)戰(zhàn)
文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
低比特量化技術(shù)如何幫助LLM提升性能
![低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>](https://file1.elecfans.com/web2/M00/B3/4F/wKgaomVyxiKAZUFaAAAU75F6POo794.png)
Arm KleidiAI助力提升PyTorch上LLM推理性能
![Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>](https://file1.elecfans.com/web3/M00/00/E4/wKgZPGdOysaATeYKAAAY2NNU9IY784.png)
用Chiplet解決ASIC在LLM上的成本問(wèn)題
![用Chiplet解決ASIC在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的成本問(wèn)題](https://file1.elecfans.com/web2/M00/8C/F4/wKgZomS1FPWAOS6YAAC_p1YvQu0512.png)
GPU上OpenVINO基準(zhǔn)測(cè)試的推斷模型的默認(rèn)參數(shù)與CPU上的參數(shù)不同是為什么?
在Raspberry Pi上從源代碼構(gòu)建OpenVINO 2021.3收到錯(cuò)誤怎么解決?
芯片開(kāi)發(fā)商ARM宣布對(duì)CPU與GPU的一系列改進(jìn),性能大幅提升
ARM新架構(gòu)很給力,GPU性能提升了20%,但麒麟990無(wú)緣用上
英偉達(dá):GPU讓AI的性能每年都成倍提升
選擇GPU服務(wù)器需要考慮哪些情況如何才能提升GPU存儲(chǔ)性能
LLM性能的主要因素
![<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素](https://file1.elecfans.com/web2/M00/88/85/wKgaomRrGSeAFUecAAAp6FTHiEs254.png)
Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能
深度解讀各種人工智能加速器和GPU上的LLM性能特征
![深度解讀各種人工智能加速器和<b class='flag-5'>GPU</b><b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征](https://file1.elecfans.com/web2/M00/AA/38/wKgaomU4kMiADnnBAAA4LhDB-rs961.png)
評(píng)論