在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

VILA與其他模型在提供邊緣AI 2.0方面的表現

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2024-10-10 10:06 ? 次閱讀

VILA 是 NVIDIA 研究部門與麻省理工學院共同開發的高性能視覺語言模型系列。最大的模型約有 400 億參數,最小的模型約有 30 億參數,并且完全開源(包括模型檢查點、訓練代碼和訓練數據)。

本文將比較 VILA 與其他模型在提供邊緣 AI 2.0 方面的表現。

最初幾個版本的邊緣 AI 需要在邊緣設備上部署經過壓縮的 AI 模型。該階段被稱為邊緣 AI 1.0,側重于特定任務模型,這種方法的挑戰在于需要用不同的數據集來訓練不同的模型,而其中的負樣本難以采集,離群情況也很難處理。這一過程非常耗時,因此需要適應性更強、通用性更好的 AI 解決方案。

邊緣 AI 2.0:生成式 AI 的興起

邊緣 AI 2.0 標志著向增強泛化的轉變,由基礎視覺語言模型(VLM)提供支持。

VILA 等視覺語言模型具有驚人的多功能性,能夠理解復雜的指令并迅速適應新場景,這種靈活性使其成為諸多應用中的重要工具。它們可以優化自動駕駛汽車的決策,在物聯網智能物聯網環境中創建個性化交互,進行事件檢測,提升智能家居體驗等。

VLM 的核心優勢在于其在語言預訓練過程中獲得的世界知識,以及用戶使用自然語言進行查詢的能力。這就為由 AI 驅動的智能相機提供了動態處理能力,而無需對定制的視覺管道進行硬編碼。

邊緣 VLM:

VILA 與 NVIDIA Jetson Orin

要實現邊緣 AI 2.0,VLM 必須具有高性能且易于部署。VILA 通過以下方式實現這兩點:

精心設計的訓練管道和高質量的混合數據

精度損失可忽略不計的 AWQ 4 位量化

wKgaomcHNq6AIXlgAAKp65hJCW8270.jpg

圖 1. VILA 模型架構和訓練配方

VILA 是一種可將視覺信息引入大語言模型(LLM)的視覺語言模型。VILA 模型由視覺編碼器、LLM 和投影儀組成,可連接兩種模態的嵌入。為了充分利用功能強大的 LLM,VILA 使用視覺編碼器將圖像或視頻編碼為視覺 token,然后將這些視覺 token 作為外語輸入 LLM。這種設計可以處理任意數量的交錯圖像-文本輸入。

VILA 的成功源于經過增強的預訓練配方。通過對視覺語言模型預訓練選擇的深入研究,我們獲得了三個重要發現:

在預訓練過程中凍結 LLM 可以實現不錯的零點性能,但缺乏語境學習能力,而這需要解凍 LLM;

交錯的預訓練數據是有益的,而單獨的圖像-文本對并不是最佳選擇;

在指令微調過程中,將純文本指令數據與圖像-文本數據重新混合,不僅能彌補純文本任務的不足,還能提高 VLM 任務的準確性。

我們觀察到,該預訓練過程解鎖了模型的幾項引人矚目的能力:

多圖像推理,盡管模型在 SFT 期間只能看到單個圖像-文本對(監督微調)

更強的語境學習能力

增進的世界知識

NVIDIA Jetson Orin 具有無與倫比的 AI 計算、大容量統一內存和全面的 AI 軟件堆棧,是在高能效邊緣設備上部署 VILA 的完美平臺。Jetson Orin 能夠快速推理采用 transformer 架構的任何生成式 AI 模型,在 MLPerf 基準測試中展現出領先的邊緣性能。

AWQ 量化

為了在 Jetson Orin 上部署 VILA,我們集成了激活感知權重量化(AWQ)以實現 4 位量化。AWQ 使我們能夠將 VILA 量化到精度損失可忽略不計的 4 位精度,這為 VLM 在保持性能標準的同時還能深入改變邊緣計算鋪平了道路。

盡管采用了 AWQ 等先進技術,但在邊緣設備上部署大語言和視覺模型仍然是一項復雜的任務。4 位權重缺乏字節對齊,需要專門的計算才能達到最佳效率。

TinyChat 是專為邊緣設備上的 LLM 和 VLM 設計的高效推理框架。無論是 NVIDIA RTX 4070 筆記本電腦 GPU 還是 NVIDIA Jetson Orin,TinyChat 的適應性使其能夠在各種硬件平臺上運行,這引發了開源社區的極大興趣。

現在,TinyChat 擴大了對 VILA 的支持,實現了對視覺數據的重要理解和推理。TinyChat 在結合文本和視覺處理方面具有出眾的效率和靈活性,使邊緣設備能夠執行最前沿的多模態任務。

基準測試

下表顯示了 VILA 1.5-3B 的基準測試結果。就其規模而言,它在圖像質量保證和視頻質量保證基準測試中均表現出色。您還可以看到,AWQ 4 位量化并沒有降低精度,而且通過與 Scaling on Scales (S2) 集成,它可以感知更高分辨率的圖像,并進一步提高性能。

wKgaomcHNp6AMtjiAABbYqzWeuM375.png

表 1. 模型在圖像質量保證基準測試中的

評估結果(量化前/后)

wKgZomcHNsCACA6PAAAjzXuXb-4914.png

表 2. 模型在視頻質量保證基準測試中的評估結果

部署在 Jetson Orin 和 NVIDIA RTX 上

隨著攝像頭和視覺系統在現實環境中的應用日益普及,在邊緣設備上推理 VILA 已成為一項重要的任務。根據模型的規模,從入門級 AI 到七種 Jetson Orin 高性能模塊,您都可以選擇,來靈活地為智能家居設備、醫療儀器、自主機器人和視頻分析構建那些用戶可以動態地重新配置和查詢的生成式 AI 應用。

圖 3 顯示了在 Jetson AGX Orin 和 Jetson Orin Nano 上運行 VILA 的端到端多模態管道性能,兩者都在視頻流上達到了交互速率。

wKgaomcHNsmAATmjAACS3D4yYvk255.png

圖 3. VILA 推理速度比較

這些基準測試包含查詢 1 幀圖像的總體時間,包括視覺編碼(使用 CLIP 或 SigLIP)、多模態投影、聊天嵌入組裝、使用 4 位量化生成語言模型輸出等測試。VILA-1.5 模型包括一個新型適配器,可將用于表示每個圖像嵌入的 token 數從 729 個減少到 196 個,這不僅提高了性能,而且在視覺編碼器空間分辨率提高的情況下保持了準確性。

這一高度優化的 VLM 管道是開源的,并且集成了多模態 RAG 和單樣本圖像標記等先進功能,能夠將圖像嵌入高效率地重復用于整個系統中的其他視覺相關任務。

wKgaomcHNt-AE7AEABrc_QCsWyY256.jpg

圖 4. 在 Jetson Orin 上運行的 VILA-3B(4 位)

在消費級 GPU 上的體驗

VILA 還可以部署在筆記本電腦和 PC 工作站上的 NVIDIA RTX 等消費級 GPU 中,以提高用戶的工作效率和交互體驗。

wKgZomcHNuOAAV3NABr6QCSLMY4220.jpg

圖 5. 在 NVIDIA RTX 4090 上運行的 VILA-3B(4 位)

多圖像推理

TinyChat 的最新版本使用了 VILA 令人印象深刻的多圖像推理功能,使您能夠同時上傳多張圖像來增強交互,帶來令人興奮的創新可能性。

圖 6 顯示 VILA 可以理解圖像序列的內容和順序,為創造性應用開辟了新途徑。

wKgZomcHNx6AJWnZAIgeoTfc9Qc788.gif

圖 6. VILA-3B(4 位)在多圖像理解方面的表現

語境學習

VILA 還具有出色的語境學習能力。無需明確的系統提示,VILA 就能從以前的圖像-文本對中無縫推理出模式,為新的圖像輸入生成相關文本。

在圖 7 中,VILA 成功識別了 NVIDIA 的徽標,并按照之前示例的風格輸出了 NVIDIA 最著名的產品

wKgZomcHNy2Adf5vAAnjS8OQh4c830.gif

圖 7. VILA-3B(4 位)在語境學習任務中的表現

開始使用 VILA

我們計劃繼續對 VILA 進行創新,包括擴展上下文長度、提高分辨率以及為視覺和語言對齊策劃更好的數據集。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5080

    瀏覽量

    103825
  • 模型
    +關注

    關注

    1

    文章

    3342

    瀏覽量

    49270
  • 邊緣AI
    +關注

    關注

    0

    文章

    99

    瀏覽量

    5063
  • LLM
    LLM
    +關注

    關注

    0

    文章

    301

    瀏覽量

    411

原文標題:視覺語言智能和邊緣 AI 2.0

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    邊緣AI應用越來越普遍,AI模型邊緣端如何部署?

    模型端側的部署也成了業界關注的焦點。 ? 如何把AI 模型邊緣端部署 ? 首先得軟硬件適配
    的頭像 發表于 07-04 00:11 ?2772次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應用越來越普遍,<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>在</b><b class='flag-5'>邊緣</b>端如何部署?

    risc-v多核芯片在AI方面的應用

    應用中的成本。 最后,RISC-V多核芯片不僅可以應用于AI邊緣計算領域,還可以擴展到其他領域,如數據中心、云計算、自動駕駛、機器人等,為這些領域提供高效、靈活和安全的解決方案。 總的
    發表于 04-28 09:20

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    非零梯度。 可能更好的表現某些情況下,PReLU可以比標準ReLU和Leaky ReLU提供更好的性能,因為它可以根據具體任務來調整激活函數的形狀。 保留稀疏激活:類似于其他ReL
    發表于 12-19 14:33

    EdgeBoard FZ5 邊緣AI計算盒及計算卡

    科技攜手百度,推出系列高性能及高性價比EdgeBoard 邊緣AI計算卡/計算盒,助力AI項目落地。可靈活適配海量的且不斷迭代的AI模型,并
    發表于 08-31 14:12

    網絡邊緣實施AI的原因

    AI推向邊緣的影響通過邊緣運行ML模型可以使哪些具體的AI項目更容易運行?
    發表于 02-23 06:21

    嵌入式邊緣AI應用開發指南

    擴展和量化感知培訓工具可幫助您優化自己的DNN模型。第3步:評估模型性能在開發邊緣AI應用之前,需要在實際硬件上評估模型性能。TI
    發表于 11-03 06:53

    ST MCU邊緣AI開發者云 - STM32Cube.AI

    道:“STM32Cube.AI 開發者云為我們的數據科學家和嵌入式開發人員提供了一種簡單的方法來協作和分享他們嵌入式神經網絡方面的知識,這有助于簡化我們的開發流程。基準測試功能還使我
    發表于 02-02 09:52

    NVIDIA收購ARM,加速了RISC-V邊緣AI的神經網路方面的應用

    近日,Facebook的首席AI科學家Yann LeCun法國CEA-Leti研究實驗室的創新日上指出,由于美國限制中國半導體產業、以及NVIDIA并購ARM的動作,正加速RISC-V邊緣
    的頭像 發表于 10-23 11:35 ?2403次閱讀

    全球金融機構使用AI方面的主要趨勢

    2022 年調查確定了全球金融機構使用 AI 方面的主要趨勢。
    的頭像 發表于 04-25 11:39 ?1626次閱讀

    邊緣AI模型壓縮技術

    某個時間點,人們認為大型和復雜的模型表現更好,但現在它幾乎是一個神話。隨著邊緣AI的發展,越來越多的技術將大型復雜
    的頭像 發表于 10-19 14:22 ?1116次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b>壓縮技術

    NVIDIA加速識因智能AI模型落地應用方面的重要作用介紹

    本案例介紹了 NVIDIA 加速識因智能 AI模型落地應用方面的重要作用。生成式大模型已廣泛應用于各領域,通過學習人類思維方式,能快速
    的頭像 發表于 03-29 15:28 ?696次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個維度進行,包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對L
    的頭像 發表于 10-27 14:37 ?542次閱讀

    AI模型托管原理分析

    AI模型托管是指將訓練好的AI模型部署云端或邊緣服務器上,由第三
    的頭像 發表于 11-07 09:33 ?262次閱讀

    AI環境可持續發展方面的作用

    近日,《聯合國氣候變化框架公約》締約會議第二十九次會議(COP29)阿塞拜疆巴庫落下帷幕,與會者們齊聚于此,共同應對氣候變化。AI 環境可持續發展
    的頭像 發表于 11-27 11:24 ?366次閱讀

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗艦大
    的頭像 發表于 02-07 15:07 ?200次閱讀
    主站蜘蛛池模板: 日韩在线影院 | 波多野结衣在线一区 | 特级毛片aaaa级毛片免费 | 国产亚洲视频在线播放大全 | 老色批软件 | 六月丁香啪啪六月激情 | 人人搞人人干 | 国产成人毛片毛片久久网 | 久久9966精品国产免费 | 中文字幕一区二区三区四区 | 日本一区二区三区视频在线 | 亚洲第一区视频在线观看 | 永久毛片 | 日韩黄色免费 | 22eee在线播放成人免费视频 | 日本视频黄色 | 免费黄色 | 亚洲邪恶天堂影院在线观看 | 久久夜色精品国产飘飘 | 人人玩人人添天天爽 | 国产又粗又大又爽又免费 | 欧美极品xxxxⅹ另类 | 国产一二精品 | 国产h在线观看 | 免费在线观看的网站 | 91po狼人社在线观看 | 国产成人午夜精品影院游乐网 | 午夜刺激爽爽视频免费观看 | 免费黄视频在线观看 | 色多多视频官网 | 97影院3 | 美女黄网站 | 天天天天天干 | 可以免费观看的一级毛片 | 色天天综合网色鬼综合 | 国产成人啪精品午夜在线播放 | 乱小说录目伦800 | 欧美成人性色生活片天天看 | 黄色午夜剧场 | 2020av在线 | 日韩三级在线免费观看 |