在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文詳解視覺語言模型

麗臺科技 ? 來源:NVIDIA英偉達 ? 2025-02-12 11:13 ? 次閱讀

視覺語言模型(VLM)是一種多模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。

1什么是視覺語言模型?

視覺語言模型是通過將大語言模型(LLM)與視覺編碼器相結合構建的多模態 AI 系統,使 LLM 具有“看”的能力。

憑借這種能力,VLM 可以處理并提供對提示中的視頻、圖像和文本輸入的高級理解,以生成文本響應。

c053d91c-e8d5-11ef-9310-92fbcf53809c.png

圖 1:視覺語言模型用例

與傳統的計算機視覺模型不同,VLM 不受固定類別集或特定任務(如分類或檢測)約束。在大量文本和圖像/視頻字幕對的語料上進行重新訓練,VLM 可以用自然語言進行指導,并用于處理許多典型的視覺任務以及新的生成式 AI 任務,例如摘要和視覺問答

2為何視覺語言模型很重要?

為了理解 VLM 的重要性,了解之前的計算機視覺(CV)模型的工作原理會很有幫助。傳統的基于卷積神經網絡(CNN)的 CV 模型是在有限類別的(數據)集(合)上針對特定任務進行訓練的。例如:

識別圖像中是否包含貓或狗的分類模型

讀取圖像中的文本,但不對文檔的格式或任何視覺數據進行解讀的光學字符檢測和識別 CV 模型

以前的 CV 模型是為了特定目的而進行訓練的,無法超越其開發和訓練的任務或類別集。如果用例發生根本變化或需要向模型添加新類別,開發人員則須收集和標記大量圖像并重新訓練模型。這是一個昂貴且耗時的過程。此外,CV 模型沒有任何自然語言理解。

VLM 結合基礎模型(如 CLIP)和 LLM 的功能,擁有視覺和語言能力,從而帶來了一類新能力。開箱即用,VLM 在各種視覺任務(如視覺問答、分類和光學字符識別)上具有強大的零樣本性能。它們也非常靈活,不僅可以用于一組固定類別集,而且可以通過簡單地更改文本提示用于幾乎任何用例。

使用 VLM 和與 LLM 交互非常類似。用戶提供可以與圖像交錯的文本提示。然后根據輸入來生成文本輸出。輸入提示是開放式的,允許用戶向 VLM 發出回答問題、總結、解釋內容或使用圖像進行推理的指令。用戶可以與 VLM 進行多輪對話,并能夠在對話上下文中添加圖像。VLM 還可以集成到視覺智能體中,從而自主執行視覺任務。

3視覺語言模型如何工作?

大多數 VLM 架構由三部分構成:

視覺編碼器

投影器(Projector)

LLM

視覺編碼器通常是一個基于 transformer 架構的 CLIP 模型,該模型已在數百萬個圖像-文本對進行了訓練,具有圖像與文本的關聯能力。投影器(Projector)由一組網絡層構成,將視覺編碼器的輸出轉換為 LLM 可以理解的方式,一般解讀為圖像標記(tokens)。投影器(Projector)可以是如 LLLaVA 與 VILA 中的簡單線性層,或者是如 Llama 3.2 Vision 中使用的交叉注意力層更復雜的結構。

任何現有的 LLM 都可以用來構建 VLM。有數百種結合了各種 LLM 與視覺編碼器的 VLM 變體。

c0685522-e8d5-11ef-9310-92fbcf53809c.png

圖 2:視覺語言模型的通用三部分架構

4如何訓練視覺語言模型?

VLM 的訓練分為幾個階段,包括預訓練,之后是監督式微調。或者,參數有效微調(PEFT)也可以作為最后階段在自定義數據上構建特定領域 VLM(的訓練方法)。

預訓練階段將視覺編碼器(encoder)、投影器(projector)和 LLM 對齊,使其在解釋文本和圖像輸入時基本上使用相同的語言。這是使用包含圖像——標題對與交錯圖像-文本數據的大量文本及圖像語料來完成的。一旦通過預訓練將三部分對齊,VLM 就會通過監督微調階段來幫助了解如何響應用戶提示。

這一階段使用的數據是示例提示與文本和/或圖像輸入以及模型的預期響應的混合。例如,這些數據可以是提示模型描述圖像或統計該幀內所有目標數量,以及預期正確的響應。經過這一輪訓練,VLM 將了解如何最好地解讀圖像并響應用戶提示。

c08747e8-e8d5-11ef-9310-92fbcf53809c.png

圖 3:VLM 訓練通常針對模型的特定部分,分幾個階段完成

VLM 一旦訓練完成,可以以與 LLM 相同的方式,即提供提示的方式使用,該提示還可以在文本中穿插圖像。然后,VLM 將根據輸入生成文本響應。VLM 通常使用 OpenAI 風格的 REST API 接口進行部署,以便于與模型交互。

目前正在研究更先進的技術來增強視覺能力:

整合視覺編碼器來處理圖像輸入

將高分辨率圖像輸入分割為更小的圖塊進行處理

增加上下文長度,以改善長視頻理解能力

所有這些進展都在提升 VLM 的能力,從僅僅理解單一圖像輸入發展為能夠比較與對比圖像、準確閱讀文本、理解長視頻并具有強大空間理解能力的高性能模型。

5視覺語言模型如何進行基準測試?

目前存在的常見基準測試,如 MMMU、Video-MME、MathVista、ChartQA 和 DocVQA,用于確定視覺語言模型在各種任務上的表現,例如:

視覺問答

邏輯和推理

文檔理解

多圖像比較

視頻理解

大多數基準測試由一組圖像和幾個相關問題組成,通常以多選題的形式呈現。多選題是一致性基準測試和比較 VLM 的最簡單方法。這些問題測試 VLM 的感知、知識和推理能力。在運行這些基準測試時,VLM 會收到圖像、問題以及它必須做出選擇的多選題答案。

c0a78f94-e8d5-11ef-9310-92fbcf53809c.jpg

圖4:VLMs(視覺語言類模型)使用 MMMU 基準測試的多選題示例

來源:MMMU

VLM 的準確度是指一組多選題中做出正確選項的數量。一些基準還包括數字問題,其中 VLM 必須執行特定的計算,并且在答案的一定百分比范圍內才被視為正確。這些問題和圖像通常來源于學術資料,如大學教材。

6如何使用視覺語言模型?

VLM 憑借其靈活性和自然語言理解能力,正迅速成為所有視覺相關任務類型的首選工具。可以通過自然語言輕松指示 VLM 執行各種各樣的任務:

視覺問答

圖像和視頻總結

文本解析和手寫文檔

以前需要大量經過特殊訓練的模型的應用程序現在只需一個 VLM 即可完成。

VLM 尤其擅長總結圖像內容,并且可以根據內容提示執行特定任務。以教育用例為例——可以向 VLM 提供一張手寫數學問題的圖像,它可以使用其光學字符識別和推理能力來解讀該問題并生成如何解決問題的分步指南。VLM 不僅能夠理解圖像的內容,還可進行推理并執行特定任務。

c0bdaf36-e8d5-11ef-9310-92fbcf53809c.png

圖 5:視頻分析 AI 智能體將視頻和圖像數據轉換為真實世界的見解

每天都會產生大量的視頻,因此審查各行各業制作的大量視頻并從中提取見解是不可行的。VLM 可以集成到更大的系統中,以構建在提示時具有檢測特定事件能力的視頻分析 AI 智能體。這些系統可用于檢測倉庫中發生故障的機器人,或在貨架變空時發出缺貨警報。其總體理解超越了單純的檢測,還可以用來生成自動報告。例如,智能交通系統可以檢測、分析并生成交通危險報告,如倒下的樹木、停滯的車輛或發生碰撞。

VLM 可與圖數據庫等技術一起使用來理解長視頻。這有助于其捕捉視頻中復雜的物體和活動。此類系統可用于總結倉庫中的操作以發現瓶頸和低效環節,或為足球、籃球或足球比賽制作體育解說。

7視覺語言模型面臨哪些挑戰?

視覺語言模型正在迅速成熟,但它們仍然存在一些局限性,特別是在空間理解和長上下文視頻理解方面。

多數 VLM 采用基于 CLIP 的模型作為視覺編碼器,輸入圖像大小被限制為 224x224 或 336x336。這種較小的輸入圖像導致小物體和細節很難被檢測到。例如,視頻的高清 1080x1920 幀必須壓縮或裁剪為更小的輸入分辨率,導致很難保留小物體或精細的細節。為了解決這個問題,VLM 開始使用平鋪方法,將大圖像分解成更小的塊,然后輸入到模型中。目前還在進行研究,探索使用更高分辨率的圖像編碼器。

VLM 也難以提供物體的精確位置。基于 CLIP 的視覺編碼器的訓練數據主要由圖像的簡短文本描述(如標題)組成。這些描述不包括詳細的、細粒度的物體位置,這種限制會影響 CLIP 的空間理解。采用其作為視覺編碼器的 VLM 繼承了這一限制。新的方法正在探索集成多個視覺編碼器來克服這些限制 2408.15998 (arxiv.org)。

長視頻理解是一項挑戰,因為需要考慮長達數小時的視頻中的視覺信息才能正確分析或回答問題。與 LLM 一樣,VLM 具有有限的上下文長度含義——只能涵蓋視頻中的一定數量的幀來回答問題。目前正在研究增加上下文長度和在更多基于視頻的數據上訓練 VLM 的方法,例如 LongVILA 2408.10188(arxiv.org)。

對于非常具體的用例(例如,在特定產品線中發現制造缺陷)而言,VLM 可能沒有看到足夠的數據。這些限制可以通過在特定領域的數據上微調 VLM 來克服,或者使用帶有上下文學習的多圖像 VLM 來提供示例,這些示例可以在不顯式訓練模型的情況下傳授模型新的信息。使用 PEFT 對特定領域數據進行模型訓練是另一種可用于提高 VLM 在自定義數據上準確性的技術。

8如何開始使用視覺語言模型?

NVIDIA 提供了一些工具來簡化視覺語言模型的構建和部署:

NVIDIA NIM:NVIDIA NIM 是一組推理微服務,包括行業標準 API、領域特定代碼、優化推理引擎和企業運行時。點擊此處查看當前可用的 VLM NIM。我們創建了 NIM 參考工作流,幫助您快速上手。

NVIDIA AI Blueprint:NVIDIA AI Blueprint 是生成式 AI 用例的參考工作流程,使用 NVIDIA NIM 微服務構建,作為 NVIDIA AI 企業平臺的一部分。用于視頻搜索和摘要的 NVIDIA AI Blueprint 可幫助您構建和定制交互式視頻分析 AI 智能體,該智能體能夠使用視覺 VLM、LLM 和 RAG 理解大量實時或存檔視頻中的活動。

9開始學習

學習視頻分析 AI 智能體

視頻分析 AI 智能體可以結合視覺和語言模式來理解自然語言提示并進行視覺回答。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3675

    瀏覽量

    135332
  • NVIDIA
    +關注

    關注

    14

    文章

    5082

    瀏覽量

    103838
  • AI
    AI
    +關注

    關注

    87

    文章

    31743

    瀏覽量

    270528
  • 模型
    +關注

    關注

    1

    文章

    3348

    瀏覽量

    49277

原文標題:麗臺科普丨讓 AI "看懂"世界!一文搞懂視覺語言模型(VLM)

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    詳解知識增強的語言預訓練模型

    隨著預訓練語言模型(PLMs)的不斷發展,各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習定的知識,但仍舊存在很多問題,如知識量有限、受訓練數據長尾分布影響魯棒性不好等
    的頭像 發表于 04-02 17:21 ?9745次閱讀

    如何利用Transformers了解視覺語言模型

    模型稱為 “視覺語言模型是什么意思?個結合了視覺
    發表于 03-03 09:49 ?1089次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    微軟視覺語言模型有顯著超越人類的表現

    視覺語言(Vision-Language,VL)系統允許為文本查詢搜索相關圖像(或反之),并使用自然語言描述圖像的內容。般來說,個VL系
    的頭像 發表于 01-19 14:32 ?1707次閱讀

    詳解精密封裝技術

    詳解精密封裝技術
    的頭像 發表于 12-30 15:41 ?1721次閱讀

    詳解分立元件門電路

    詳解分立元件門電路
    的頭像 發表于 03-27 17:44 ?3407次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>詳解</b>分立元件門電路

    讀懂大語言模型

    本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有些了解。ChatGPT是種基于*大語言模型
    發表于 06-16 09:59 ?1382次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>讀懂大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    詳解pcb和smt的區別

    詳解pcb和smt的區別
    的頭像 發表于 10-08 09:31 ?3520次閱讀

    詳解pcb地孔的作用

    詳解pcb地孔的作用
    的頭像 發表于 10-30 16:02 ?1774次閱讀

    詳解pcb不良分析

    詳解pcb不良分析
    的頭像 發表于 11-29 17:12 ?1257次閱讀

    詳解pcb的msl等級

    詳解pcb的msl等級
    的頭像 發表于 12-13 16:52 ?1w次閱讀

    詳解pcb微帶線設計

    詳解pcb微帶線設計
    的頭像 發表于 12-14 10:38 ?3725次閱讀

    詳解pcb的組成和作用

    詳解pcb的組成和作用
    的頭像 發表于 12-18 10:48 ?1705次閱讀

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?459次閱讀
    機器人基于開源的多模態<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    理解多模態大語言模型——下

    /understanding-multimodal-llms ? 《理解多模態大語言模型 - 上》介紹了什么是多模態大語言
    的頭像 發表于 12-03 15:18 ?223次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>理解多模態大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為智能機
    的頭像 發表于 12-13 10:51 ?357次閱讀
    主站蜘蛛池模板: 婷婷综合激情网 | 免费一级毛毛片 | 伊人久久亚洲综合天堂 | 1000又爽又黄禁片在线久 | 色www| 好硬好大好爽女房东在线观看 | 天天骑天天射 | 成年片色大黄全免费 | 五月婷婷天| 亚洲欧美视频网站 | 国产精品资源在线观看 | 久久久久国产精品免费免费 | 114毛片免费观看网站 | 精品乱码一区二区三区四区 | 天天干天天玩天天操 | 我不卡老子影院午夜伦我不卡四虎 | 资源在线www天堂 | 人人弄 | 日本拍拍视频 | 亚洲 欧美 自拍 另类 欧美 | 亚欧色| 国产色秀视频在线观看 | 欧美日韩视频综合一区无弹窗 | 国产精品毛片在线大全 | 一区二区三区视频观看 | 亚洲色图在线观看视频 | 1024在线观看你懂的 | 天天躁狠狠躁狠狠躁夜夜躁 | 成人在色线视频在线观看免费大全 | 亚洲网站在线看 | 狠狠干福利视频 | 婷婷久操| 高清人人天天夜夜曰狠狠狠狠 | 天天看片网站 | 国产在线观看www鲁啊鲁免费 | 欧美激情综合色综合啪啪五月 | 美女视频永久黄网站免费观看国产 | 高清色本在线www | 全免费一级毛片在线播放 | baoyu污污网站入口免费 | 天天爱天天做色综合 |