在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenVINO?助力谷歌大語言模型Gemma實(shí)現(xiàn)高速智能推理

英特爾物聯(lián)網(wǎng) ? 來源:OpenVINO 中文社區(qū) ? 2024-03-17 17:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語言模型(LLM)正在迅速發(fā)展,變得更加強(qiáng)大和高效,使人們能夠在廣泛的應(yīng)用程序中越來越復(fù)雜地理解和生成類人文本。谷歌的Gemma是一個(gè)輕量級(jí)、先進(jìn)的開源模型新家族,站在LLM創(chuàng)新的前沿。然而,對更高推理速度和更智能推理能力的追求并不僅僅局限于復(fù)雜模型的開發(fā),它擴(kuò)展到模型優(yōu)化和部署技術(shù)領(lǐng)域。

OpenVINO 工具套件因此成為一股引人注目的力量,在這些領(lǐng)域發(fā)揮著越來越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型,并在不足千元的AI開發(fā)板上進(jìn)行模型部署、使用OpenVINO 加速推理,將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。

此文使用了研揚(yáng)科技針對邊緣AI行業(yè)開發(fā)者推出的哪吒(Nezha)開發(fā)套件,以信用卡大小(85x56mm)的開發(fā)板-哪吒(Nezha)為核心,哪吒采用Intel N97處理器(Alder Lake-N),最大睿頻3.6GHz,Intel UHD Graphics內(nèi)核GPU,可實(shí)現(xiàn)高分辨率顯示;板載LPDDR5內(nèi)存、eMMC存儲(chǔ)及TPM 2.0,配備GPIO接口,支持Windows和Linux操作系統(tǒng),這些功能和無風(fēng)扇散熱方式相結(jié)合,為各種應(yīng)用程序構(gòu)建高效的解決方案,適用于如自動(dòng)化、物聯(lián)網(wǎng)網(wǎng)關(guān)、數(shù)字標(biāo)牌和機(jī)器人等應(yīng)用。

什么是Gemma?

Gemma是谷歌的一個(gè)輕量級(jí)、先進(jìn)的開源模型家族,采用了與創(chuàng)建Gemini模型相同的研究和技術(shù)。它們以拉丁語單詞 “Gemma” 命名,意思是“寶石”,是文本到文本的、僅解碼器架構(gòu)的LLM,有英文版本,具有開放權(quán)重、預(yù)訓(xùn)練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務(wù),包括問答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度學(xué)習(xí)模型可擴(kuò)展性和性能的分層方法。在本次博客中,我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理,即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。

利用OpenVINO 優(yōu)化和加速推理

優(yōu)化、推理加速和部署的過程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運(yùn)行OpenVINO Notebooks倉庫的具體安裝指南在這里。運(yùn)行這個(gè)254-llm-chatbot的代碼示例,需要安裝以下必要的依賴包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM,您可以從下拉框中選擇 “Gemma-2B-it” 來運(yùn)行該模型的其余優(yōu)化和推理加速步驟。當(dāng)然,很容易切換到 “Gemma-7B-it” 和其他列出的型號(hào)。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel實(shí)例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口,用于加速Intel體系結(jié)構(gòu)上的端到端流水線。接下來,我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型,并創(chuàng)建流水線,使用Hugging Face API以及OpenVINO Runtime運(yùn)行推理。在這種情況下,這意味著我們只需要將AutoModelForXxx類替換為相應(yīng)的OVModelForXxx類。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

權(quán)重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強(qiáng)大和復(fù)雜,但管理和部署這些模型在計(jì)算資源、內(nèi)存占用、推理速度等方面帶來了關(guān)鍵挑戰(zhàn),尤其是對于這種不足千元級(jí)的AI開發(fā)板等客戶端設(shè)備。權(quán)重壓縮算法旨在壓縮模型的權(quán)重,可用于優(yōu)化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比,INT4壓縮進(jìn)一步提高了性能,但預(yù)測質(zhì)量略有下降。因此,我們將在此處選擇INT4壓縮。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我們還可以比較模型權(quán)重壓縮前后的模型體積變化情況。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

選擇推理設(shè)備和模型變體

由于OpenVINO 能夠在一系列硬件設(shè)備上輕松部署,因此還提供了一個(gè)下拉框供您選擇將在其上運(yùn)行推理的設(shè)備。考慮到內(nèi)存使用情況,我們將選擇CPU作為推理設(shè)備。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

運(yùn)行聊天機(jī)器人

現(xiàn)在萬事具備,在這個(gè)Notebook代碼示例中我們還提供了一個(gè)基于Gradio的用戶友好的界面。現(xiàn)在就讓我們把聊天機(jī)器人運(yùn)行起來吧。

小結(jié)

整個(gè)的步驟就是這樣!現(xiàn)在就開始跟著我們提供的代碼和步驟,動(dòng)手試試用OpenVINO 在哪吒開發(fā)板上運(yùn)行基于大語言模型的聊天機(jī)器人吧。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19882

    瀏覽量

    234933
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29706

    瀏覽量

    212670
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2930

    文章

    46201

    瀏覽量

    391810
  • GPIO
    +關(guān)注

    關(guān)注

    16

    文章

    1280

    瀏覽量

    54007
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    115

    瀏覽量

    478

原文標(biāo)題:千元開發(fā)板,百萬可能:OpenVINO? 助力谷歌大語言模型Gemma實(shí)現(xiàn)高速智能推理 | 開發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    在 NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯(cuò)誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的結(jié)合為大型語言模型(LLM)的管理和推理提供了強(qiáng)大的雙引擎驅(qū)動(dòng)。Ollama 提供了極簡的模型管理工具
    的頭像 發(fā)表于 04-14 10:22 ?452次閱讀

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動(dòng)實(shí)用 AI 技術(shù)普惠大眾的重要基石。上個(gè)月,Gemma 迎來了首個(gè)生日?;赝^去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍生模型
    的頭像 發(fā)表于 03-18 09:51 ?832次閱讀

    使用OpenVINO?進(jìn)行推理時(shí)的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進(jìn)行推理時(shí),內(nèi)存會(huì)隨著時(shí)間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29

    如何使用多攝像頭作為OpenVINO?推理的輸入?

    無法確定如何使用多攝像頭作為OpenVINO?推理的輸入
    發(fā)表于 03-06 07:30

    為什么深度學(xué)習(xí)中的Frame per Second高于OpenVINO?演示推理腳本?

    在 DL Workbench 上使用 Microsoft 通用對象上下文 (MS COCO) 數(shù)據(jù)集運(yùn)行 YOLOv4 對象檢測模型,并獲得 50 - 60 FPS。 OpenVINO?演示推理腳本運(yùn)行,并獲得更高的 FP
    發(fā)表于 03-06 07:27

    創(chuàng)建了用于OpenVINO?推理的自定義C++和Python代碼,從C++代碼中獲得的結(jié)果與Python代碼不同是為什么?

    創(chuàng)建了用于OpenVINO?推理的自定義 C++ 和 Python* 代碼。 在兩個(gè)推理過程中使用相同的圖像和模型。 從 C++ 代碼中獲得的結(jié)果與 Python* 代碼不同。
    發(fā)表于 03-06 06:22

    為什么無法在運(yùn)行時(shí)C++推理中讀取OpenVINO?模型

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉(zhuǎn)換模型 使用 Runtime 2022.3 版本在 C++ 推理實(shí)現(xiàn) ( core.r
    發(fā)表于 03-05 06:17

    C#集成OpenVINO?:簡化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不
    的頭像 發(fā)表于 02-17 10:03 ?1955次閱讀
    C#集成<b class='flag-5'>OpenVINO</b>?:簡化AI<b class='flag-5'>模型</b>部署

    在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

    run deepseek-r1:1.5b 3.運(yùn)行Gemma 2大模型 如果想體驗(yàn) Google Gemma 2 可以到下面的網(wǎng)站選擇不同參數(shù)的大模型https://ollama.
    發(fā)表于 02-07 19:35

    C#中使用OpenVINO?:輕松集成AI模型!

    與分析三大領(lǐng)域中,如何快速將AI模型集成到應(yīng)用程序中,實(shí)現(xiàn)AI賦能和應(yīng)用增值?最容易的方式是:在C#中,使用OpenVINO?工具套件集成AI模型。 一,什么是
    的頭像 發(fā)表于 02-07 14:05 ?834次閱讀
    C#中使用<b class='flag-5'>OpenVINO</b>?:輕松集成AI<b class='flag-5'>模型</b>!

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1406次閱讀
    使用vLLM+<b class='flag-5'>OpenVINO</b>加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    使用OpenVINO Model Server在哪吒開發(fā)板上部署模型

    OpenVINO Model Server(OVMS)是一個(gè)高性能的模型部署系統(tǒng),使用C++實(shí)現(xiàn),并在Intel架構(gòu)上的部署進(jìn)行了優(yōu)化,使用OpenVINO 進(jìn)行
    的頭像 發(fā)表于 11-01 14:19 ?720次閱讀
    使用<b class='flag-5'>OpenVINO</b> Model Server在哪吒開發(fā)板上部署<b class='flag-5'>模型</b>

    使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

    OpenVINO 是一個(gè)開源工具套件,用于對深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應(yīng)用場景中加快深度學(xué)習(xí)
    的頭像 發(fā)表于 10-12 09:55 ?981次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大
    發(fā)表于 08-02 11:03
    主站蜘蛛池模板: 亚洲 欧美 综合 | 182tv免费视视频线路一二三 | 哟交小u女国产精品视频 | www.4虎| 日本一区二区视频在线观看 | 国产三级视频在线播放 | 99久久精品费精品国产 | 欧美视频亚洲色图 | 日韩高清毛片 | 免费看欧美一级特黄a大片 免费看欧美一级特黄a大片一 | 夜色321看片资源站 夜色sese | h视频免费观看 | 午夜剧j | 免费黄色一级片 | 亚洲色图综合在线 | 资源新版在线天堂 | 色老头久久久久久久久久 | 午夜高清在线观看免费6 | 种子 在线播放 | 亚洲一区视频 | 韩彩英三级无删版甜性涩爱 | 扒开双腿爽爽爽视频www | 福利观看| 日日噜噜噜噜人人爽亚洲精品 | 黄黄视频免费看 | 色吧在线视频 | 国产精品29页 | 日本免费三级网站 | 凸输偷窥xxxx自由视频 | 91牛牛| 欧美伊人久久大香线蕉综合69 | 色偷偷狠狠色综合网 | h网站在线观看 | 中文字幕一区二区三区有限公司 | 欧美日韩一卡2卡三卡4卡新区 | 亚洲 另类 在线 欧美 制服 | 午夜精品福利视频 | 最近2018年中文字幕在线 | 黄色毛片大全 | 黄色成人免费网站 | 四虎免费大片aⅴ入口 |