在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenVINO 2024.4持續(xù)提升GPU上LLM性能

英特爾物聯(lián)網(wǎng) ? 來(lái)源:英特爾物聯(lián)網(wǎng) ? 2024-10-12 09:41 ? 次閱讀

作者:

Yury Gorbachev 英特爾院士 OpenVINO 產(chǎn)品架構(gòu)師

Whiteny Foster OpenVINO產(chǎn)品專家

翻譯:

武卓 博士 英特爾 OpenVINO 布道師

本次新版本在整個(gè) OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化,使大語(yǔ)言模型 (LLM) 的優(yōu)化和部署在所有支持的場(chǎng)景中更容易、性能更高,包括邊緣和數(shù)據(jù)中心環(huán)境的部署。

在客戶端,在之前的版本中我們一直在努力工作,而這個(gè)版本則支持我們?nèi)碌?Intel Xe2 GPU 架構(gòu),該架構(gòu)在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構(gòu)由 Intel Xe Matrix Extensions (Intel XMX) 加速技術(shù)提供支持,我們與 oneDNN 和驅(qū)動(dòng)程序團(tuán)隊(duì)的合作伙伴合作啟用了該技術(shù),以在矩陣乘法等計(jì)算密集型運(yùn)算上實(shí)現(xiàn)最佳性能。由于矩陣乘法是 LLM 中的一個(gè)關(guān)鍵熱點(diǎn),因此在部署 LLM 時(shí),使用 Xe2 架構(gòu)的性能優(yōu)勢(shì)會(huì)立即顯現(xiàn)出來(lái)。

我們不僅直接通過(guò)英特爾 XMX 優(yōu)化了矩陣乘法,還創(chuàng)建了高度優(yōu)化的 GPU 基元,如 縮放點(diǎn)積注意力(Scaled Dot Product Attention) 和旋轉(zhuǎn)位置編碼( Rotary Positional Embeddings),以減少這些復(fù)雜操作的執(zhí)行流水線開(kāi)銷。我們致力于改善內(nèi)存消耗并更有效地支持具有壓縮權(quán)重的模型,從而使大型語(yǔ)言模型(LLM)的部署更適合筆記本電腦/邊緣設(shè)備,并允許 LLM 適應(yīng)最小的內(nèi)存占用,這對(duì)于資源有限的環(huán)境至關(guān)重要。

我們所做的一些更改是通用的,并且會(huì)對(duì)其它平臺(tái)產(chǎn)生顯著影響,包括平臺(tái)上的集成顯卡(例如 Intel Core Ultra(第一代))和獨(dú)立顯卡(Intel Arc 系列)。

通過(guò)橫跨數(shù)十個(gè)大語(yǔ)言模型的性能和準(zhǔn)確性驗(yàn)證,我們衡量了整個(gè)模型集的這些改進(jìn)。使用神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 優(yōu)化框架中的權(quán)重壓縮算法可以嚴(yán)格控制對(duì)模型準(zhǔn)確性的影響。

對(duì)內(nèi)置 顯卡的性能進(jìn)行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個(gè)Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請(qǐng)參見(jiàn)下圖。

36b15926-877f-11ef-b8af-92fbcf53809c.png

使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級(jí)處理器(第二代)內(nèi)置 GPU 上最大限度地提高 LLM 性能。有關(guān)工作負(fù)載和配置,請(qǐng)參閱附錄。結(jié)果可能會(huì)有所不同。

除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強(qiáng)大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對(duì)上一代產(chǎn)品的重大升級(jí)。OpenVINO 現(xiàn)在通過(guò) OpenVINO GenAI 軟件包為經(jīng)典深度學(xué)習(xí)模型(例如計(jì)算機(jī)視覺(jué)語(yǔ)音識(shí)別和生成)和 LLM 提供對(duì)這種加速技術(shù)的訪問(wèn)。我們一直在與 NPU 團(tuán)隊(duì)合作,以提高性能、減少內(nèi)存消耗并加快過(guò)去版本的模型編譯速度,并將在未來(lái)的版本中繼續(xù)增強(qiáng)。

使用 LLM 的另一種常用場(chǎng)景是通過(guò)模型服務(wù),這意味著模型可以通過(guò) REST API 被訪問(wèn),并通過(guò) vLLM 或 OpenVINO 模型服務(wù)器 (OVMS) 等框架來(lái)進(jìn)行服務(wù)。對(duì)于此使用場(chǎng)景,我們還引入了新功能以增強(qiáng)解決方案特性。

OpenVINO 模型服務(wù)器(OVMS) 現(xiàn)在通過(guò) OpenAI API 為 LLM 提供服務(wù),并提供了啟用前綴緩存功能的能力,該功能通過(guò)緩存提示詞常見(jiàn)部分的計(jì)算來(lái)提高服務(wù)吞吐量。當(dāng)提示詞以相同的文本開(kāi)頭(例如“您是一個(gè)有用的 AI 助手”)或在聊天場(chǎng)景中使用 LLM 時(shí),這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內(nèi)存消耗并改進(jìn)了第二個(gè)Token延遲等指標(biāo)。

從 OpenVINO 2024.4 版本開(kāi)始,GPU 將支持分頁(yè)注意力( PagedAttention) 操作和連續(xù)批處理,這使我們能夠在 LLM 服務(wù)場(chǎng)景中使用 GPU。我們最初在對(duì) vLLM 的貢獻(xiàn)中啟用此功能,并在此版本中將其擴(kuò)展到 OpenVINO 模型服務(wù)器。這允許 Intel ARC GPU 在您的環(huán)境中以優(yōu)化的服務(wù)特性提供 LLM 模型服務(wù)。查看適用于 CPU 和 GPU 的 LLM 服務(wù)演示,其中展示了如何利用這些功能。

LLM 服務(wù)演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

為了繼續(xù)數(shù)據(jù)中心場(chǎng)景,OpenVINO 現(xiàn)在在英特爾至強(qiáng)處理器上運(yùn)行時(shí)提供對(duì) mxfp4 的支持,如開(kāi)放計(jì)算項(xiàng)目規(guī)范中所定義。對(duì)于 LLM,與 BF16 精度相比,它允許在第二個(gè)令牌延遲上提高性能,同時(shí)減少內(nèi)存消耗。神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 模型優(yōu)化功能支持此功能,該功能允許將 LLM 權(quán)重壓縮為這種格式。

定義

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

從模型支持的角度來(lái)看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運(yùn)行時(shí)時(shí)使用 Hugging Face API 運(yùn)行模型,并高效導(dǎo)出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經(jīng)可用,用于演示如何在您選擇的平臺(tái)上將這些模型與 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整個(gè)夏天,我們一直在與 Google Summer of Code 的優(yōu)秀貢獻(xiàn)者合作,結(jié)果令人鼓舞。我們一直在努力改進(jìn)

ARM 平臺(tái)上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索許多其他令人興奮的發(fā)展,我們很快將更詳細(xì)地介紹這些發(fā)展。

謝謝您,我們期待在即將發(fā)布的版本中為您帶來(lái)更多性能改進(jìn)和新功能。有關(guān)此版本的更多詳細(xì)信息,請(qǐng)參閱 發(fā)行說(shuō)明。

發(fā)行說(shuō)明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附錄

36febcb6-877f-11ef-b8af-92fbcf53809c.png

371ccbb6-877f-11ef-b8af-92fbcf53809c.png372832a8-877f-11ef-b8af-92fbcf53809c.png3745bbb6-877f-11ef-b8af-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19436

    瀏覽量

    231312
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10017

    瀏覽量

    172420
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    301

    瀏覽量

    411
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    97

    瀏覽量

    242

原文標(biāo)題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續(xù)提升GPU上LLM性能|開(kāi)發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    低比特量化技術(shù)如何幫助LLM提升性能

    針對(duì)大語(yǔ)言模型 (LLM) 在部署過(guò)程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能
    的頭像 發(fā)表于 12-08 15:26 ?1262次閱讀
    低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開(kāi)發(fā) AI 應(yīng)用的庫(kù)。通過(guò)部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器運(yùn)行 LLM性能。Arm 通過(guò)將 Kle
    的頭像 發(fā)表于 12-03 17:05 ?946次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    用Chiplet解決ASIC在LLM的成本問(wèn)題

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說(shuō)最近靠著GPT大語(yǔ)言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說(shuō)仗著GPU的高性能就能高枕無(wú)憂的話,也就未免有些癡人說(shuō)夢(mèng)了。未來(lái)隨著LLM
    的頭像 發(fā)表于 07-18 00:15 ?1320次閱讀
    用Chiplet解決ASIC在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的成本問(wèn)題

    GPUOpenVINO基準(zhǔn)測(cè)試的推斷模型的默認(rèn)參數(shù)與CPU的參數(shù)不同是為什么?

    在 CPU 和 GPU 推斷出具有 OpenVINO? 基準(zhǔn)的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    發(fā)表于 08-15 06:43

    在Raspberry Pi從源代碼構(gòu)建OpenVINO 2021.3收到錯(cuò)誤怎么解決?

    在 Raspberry Pi 從源代碼構(gòu)建 OpenVINO?2021.3。 運(yùn)行OpenVINO?推理,并收到錯(cuò)誤消息: ModuleNotFoundError:沒(méi)有
    發(fā)表于 08-15 08:24

    芯片開(kāi)發(fā)商ARM宣布對(duì)CPU與GPU的一系列改進(jìn),性能大幅提升

    芯片開(kāi)發(fā)商ARM宣布對(duì)CPU與GPU的一系列改進(jìn),當(dāng)芯片在Windows筆記本運(yùn)行時(shí),性能大幅提升
    的頭像 發(fā)表于 06-04 14:54 ?3899次閱讀

    ARM新架構(gòu)很給力,GPU性能提升了20%,但麒麟990無(wú)緣用上

    ARM早已經(jīng)公布了下一代芯片架構(gòu),即A77的CPU核心和Mali-G77的GPU,這一代架構(gòu),在CPU性能將會(huì)提升20%左右,但GPU改變
    的頭像 發(fā)表于 08-21 11:51 ?8957次閱讀

    英偉達(dá):GPU讓AI的性能每年都成倍提升

    英偉達(dá)首席科學(xué)家Bill Dally在一年一度的中國(guó)GPU技術(shù)大會(huì)召開(kāi)前接受第一財(cái)經(jīng)記者獨(dú)家專訪時(shí)表示,GPU讓人工智能(AI)的性能每年都能成倍提升,英偉達(dá)的研究人員正在定義如何在具
    的頭像 發(fā)表于 12-15 13:37 ?2631次閱讀

    選擇GPU服務(wù)器需要考慮哪些情況如何才能提升GPU存儲(chǔ)性能

    GPU是我們常用器件,采用GPU,才使得圖形顯示成為可能。在上期文章中,小編對(duì)GPU的加速原理等知識(shí)有所闡述。為增進(jìn)大家對(duì)GPU的認(rèn)識(shí),本文將基于兩點(diǎn)介紹
    的頭像 發(fā)表于 02-08 17:37 ?3519次閱讀

    LLM性能的主要因素

    現(xiàn)在是2023年5月,截止目前,網(wǎng)絡(luò)已經(jīng)開(kāi)源了眾多的LLM,如何用較低的成本,判斷LLM的基礎(chǔ)性能,選到適合自己任務(wù)的LLM,成為一個(gè)關(guān)鍵
    的頭像 發(fā)表于 05-22 15:26 ?1836次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過(guò)一個(gè)名為TensorRT LLM的新開(kāi)源軟件庫(kù),將其H100、A100和L4 GPU的大型語(yǔ)言模型(LLM)推理性能提高了一倍。 正如對(duì)相同硬件
    的頭像 發(fā)表于 10-23 16:10 ?724次閱讀

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺(tái)上評(píng)估LLM對(duì)于理解傳統(tǒng)和非傳統(tǒng)體系結(jié)構(gòu)的能力和局限性至關(guān)重要。先前的工作已經(jīng)在超級(jí)計(jì)算機(jī)上研究了LLM,并使用傳統(tǒng)的深度學(xué)習(xí)基準(zhǔn)來(lái)提供對(duì)其能力的詳細(xì)評(píng)估與分析。
    發(fā)表于 10-25 11:49 ?806次閱讀
    深度解讀各種人工智能加速器和<b class='flag-5'>GPU</b><b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    如何利用OpenVINO加速LangChain中LLM任務(wù)

    LangChain 是一個(gè)高層級(jí)的開(kāi)源的框架,從字面意義理解,LangChain 可以被用來(lái)構(gòu)建 “語(yǔ)言處理任務(wù)的鏈條”,它可以讓AI開(kāi)發(fā)人員把大型語(yǔ)言模型(LLM)的能力和外部數(shù)據(jù)結(jié)合起來(lái),從而
    的頭像 發(fā)表于 12-05 09:58 ?860次閱讀

    解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運(yùn)行

    LLM 的發(fā)展仍保持著驚人的速度。盡管現(xiàn)有的 LLM 已經(jīng)具備強(qiáng)大的功能,但通過(guò) OpenVINO? 的優(yōu)化和推理加速,可以對(duì)這些復(fù)雜模型的執(zhí)行進(jìn)行精煉,實(shí)現(xiàn)更快、更高效的處理,減少計(jì)算開(kāi)銷并最大限度發(fā)揮硬件潛力,這將直接導(dǎo)致
    的頭像 發(fā)表于 05-10 10:36 ?595次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?290次閱讀
    主站蜘蛛池模板: xvsr-365波多野结衣 | 噜噜噜动态图超猛烈 | 美女毛片免费看 | 久久精品国产99久久72 | 日本黄色免费看 | 久久99精品久久久久久久不卡 | 人人添人人澡人人澡人人人爽 | 日本不卡视频免费 | 国产精品国产三级国快看 | 国产一卡2卡3卡四卡精品网站 | 成人区精品一区二区毛片不卡 | 一级待一黄aaa大片在线还看 | 在线免费色视频 | 72种姿势欧美久久久久大黄蕉 | 天天射天天怕 | 美女网站在线观看视频18 | 丁香花免费观看视频 | 四虎日韩 | 一级做a爱片久久毛片 | 小屁孩cao大人免费网站 | 深夜视频免费在线观看 | 亚洲成a人v在线观看 | 亚洲成a人在线播放www | 亚洲产国偷v产偷v自拍色戒 | 国产一线在线观看 | 五月天丁香婷 | 日韩精品一卡二卡三卡四卡2021 | 五月婷婷一区 | 九九碰| 四虎影院观看 | 日韩欧美卡通动漫在线观看 | 国产欧美日韩在线人成aaaa | bt天堂在线www中文在线 | 免费看黄视频的网站 | 视频免费在线 | 美女一级a毛片免费观看 | 性色在线播放 | 狠狠干网| 色综合久久久高清综合久久久 | 久久99精品久久久久久牛牛影视 | 人人公开免费超级碰碰碰视频 |