大型語言模型(LLM)正在迅速發(fā)展,變得更加強(qiáng)大和高效,使人們能夠在廣泛的應(yīng)用程序中越來越復(fù)雜地理解和生成類人文本。谷歌的Gemma是一個(gè)輕量級(jí)、先進(jìn)的開源模型新家族,站在LLM創(chuàng)新的前沿。然而,對更高推理速度和更智能推理能力的追求并不僅僅局限于復(fù)雜模型的開發(fā),它擴(kuò)展到模型優(yōu)化和部署技術(shù)領(lǐng)域。
OpenVINO 工具套件因此成為一股引人注目的力量,在這些領(lǐng)域發(fā)揮著越來越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型,并在不足千元的AI開發(fā)板上進(jìn)行模型部署、使用OpenVINO 加速推理,將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。
此文使用了研揚(yáng)科技針對邊緣AI行業(yè)開發(fā)者推出的哪吒(Nezha)開發(fā)套件,以信用卡大小(85x56mm)的開發(fā)板-哪吒(Nezha)為核心,哪吒采用Intel N97處理器(Alder Lake-N),最大睿頻3.6GHz,Intel UHD Graphics內(nèi)核GPU,可實(shí)現(xiàn)高分辨率顯示;板載LPDDR5內(nèi)存、eMMC存儲(chǔ)及TPM 2.0,配備GPIO接口,支持Windows和Linux操作系統(tǒng),這些功能和無風(fēng)扇散熱方式相結(jié)合,為各種應(yīng)用程序構(gòu)建高效的解決方案,適用于如自動(dòng)化、物聯(lián)網(wǎng)網(wǎng)關(guān)、數(shù)字標(biāo)牌和機(jī)器人等應(yīng)用。
什么是Gemma?
Gemma是谷歌的一個(gè)輕量級(jí)、先進(jìn)的開源模型家族,采用了與創(chuàng)建Gemini模型相同的研究和技術(shù)。它們以拉丁語單詞 “Gemma” 命名,意思是“寶石”,是文本到文本的、僅解碼器架構(gòu)的LLM,有英文版本,具有開放權(quán)重、預(yù)訓(xùn)練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務(wù),包括問答、摘要和推理。
Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度學(xué)習(xí)模型可擴(kuò)展性和性能的分層方法。在本次博客中,我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理,即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。
利用OpenVINO 優(yōu)化和加速推理
優(yōu)化、推理加速和部署的過程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。
由安裝必要的依賴包開始
運(yùn)行OpenVINO Notebooks倉庫的具體安裝指南在這里。運(yùn)行這個(gè)254-llm-chatbot的代碼示例,需要安裝以下必要的依賴包。
選擇推理的模型
由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM,您可以從下拉框中選擇 “Gemma-2B-it” 來運(yùn)行該模型的其余優(yōu)化和推理加速步驟。當(dāng)然,很容易切換到 “Gemma-7B-it” 和其他列出的型號(hào)。
使用Optimum Intel實(shí)例化模型
Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口,用于加速Intel體系結(jié)構(gòu)上的端到端流水線。接下來,我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型,并創(chuàng)建流水線,使用Hugging Face API以及OpenVINO Runtime運(yùn)行推理。在這種情況下,這意味著我們只需要將AutoModelForXxx類替換為相應(yīng)的OVModelForXxx類。
權(quán)重壓縮
盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強(qiáng)大和復(fù)雜,但管理和部署這些模型在計(jì)算資源、內(nèi)存占用、推理速度等方面帶來了關(guān)鍵挑戰(zhàn),尤其是對于這種不足千元級(jí)的AI開發(fā)板等客戶端設(shè)備。權(quán)重壓縮算法旨在壓縮模型的權(quán)重,可用于優(yōu)化模型體積和性能。
我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比,INT4壓縮進(jìn)一步提高了性能,但預(yù)測質(zhì)量略有下降。因此,我們將在此處選擇INT4壓縮。
我們還可以比較模型權(quán)重壓縮前后的模型體積變化情況。
選擇推理設(shè)備和模型變體
由于OpenVINO 能夠在一系列硬件設(shè)備上輕松部署,因此還提供了一個(gè)下拉框供您選擇將在其上運(yùn)行推理的設(shè)備。考慮到內(nèi)存使用情況,我們將選擇CPU作為推理設(shè)備。
運(yùn)行聊天機(jī)器人
現(xiàn)在萬事具備,在這個(gè)Notebook代碼示例中我們還提供了一個(gè)基于Gradio的用戶友好的界面。現(xiàn)在就讓我們把聊天機(jī)器人運(yùn)行起來吧。
小結(jié)
整個(gè)的步驟就是這樣!現(xiàn)在就開始跟著我們提供的代碼和步驟,動(dòng)手試試用OpenVINO 在哪吒開發(fā)板上運(yùn)行基于大語言模型的聊天機(jī)器人吧。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19882瀏覽量
234933 -
機(jī)器人
+關(guān)注
關(guān)注
213文章
29706瀏覽量
212670 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2930文章
46201瀏覽量
391810 -
GPIO
+關(guān)注
關(guān)注
16文章
1280瀏覽量
54007 -
OpenVINO
+關(guān)注
關(guān)注
0文章
115瀏覽量
478
原文標(biāo)題:千元開發(fā)板,百萬可能:OpenVINO? 助力谷歌大語言模型Gemma實(shí)現(xiàn)高速智能推理 | 開發(fā)者實(shí)戰(zhàn)
文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
無法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?
如何在Ollama中使用OpenVINO后端
Google發(fā)布最新AI模型Gemma 3
使用OpenVINO?進(jìn)行推理時(shí)的內(nèi)存泄漏怎么解決?
為什么深度學(xué)習(xí)中的Frame per Second高于OpenVINO?演示推理腳本?
創(chuàng)建了用于OpenVINO?推理的自定義C++和Python代碼,從C++代碼中獲得的結(jié)果與Python代碼不同是為什么?
為什么無法在運(yùn)行時(shí)C++推理中讀取OpenVINO?模型?
C#集成OpenVINO?:簡化AI模型部署

在龍芯3a6000上部署DeepSeek 和 Gemma2大模型
C#中使用OpenVINO?:輕松集成AI模型!

使用OpenVINO Model Server在哪吒開發(fā)板上部署模型

使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

評(píng)論