大主宰天蚕土豆,完美世界有声小说全集,已完结小说排行榜

本文提出了 VISPROG，一種神經(jīng)符號(hào)方法，用于在給定自然語(yǔ)言指令的情況下解決復(fù)雜的組合視覺任務(wù)。VISPROG 無(wú)需進(jìn)行任何特定任務(wù)的訓(xùn)練。相反，它利用大型語(yǔ)言模型的上下文學(xué)習(xí)能力來(lái)生成類似Python的模塊化程序，然后執(zhí)行這些程序以獲得解決方案和全面且可解釋的基本原理。

生成的程序的每一行都可以調(diào)用幾個(gè)現(xiàn)成的計(jì)算機(jī)視覺模型、圖像處理子例程或Python函數(shù)之一來(lái)產(chǎn)生可由程序的后續(xù)部分使用的中間輸出。我們展示了 VISPROG 在 4 個(gè)不同任務(wù)上的靈活性 - 組合視覺問答、圖像對(duì)的零樣本推理、事實(shí)知識(shí)對(duì)象標(biāo)記和語(yǔ)言引導(dǎo)圖像編輯。我們相信像 VISPROG 這樣的神經(jīng)符號(hào)方法是一個(gè)令人興奮的途徑，可以輕松有效地?cái)U(kuò)展人工智能系統(tǒng)的范圍，以服務(wù)于人們可能希望執(zhí)行的復(fù)雜任務(wù)的長(zhǎng)尾。

1 前言

目的：對(duì)通用人工智能系統(tǒng)的追求導(dǎo)致了強(qiáng)大的端到端可訓(xùn)練模型的開發(fā)，其中許多模型渴望為人工智能提供簡(jiǎn)單的自然語(yǔ)言界面使用戶能與模型進(jìn)行交互。現(xiàn)有方法：構(gòu)建這些系統(tǒng)的主要方法是大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練，然后是監(jiān)督多任務(wù)訓(xùn)練。然而，這種方法需要為每個(gè)任務(wù)提供精心策劃的數(shù)據(jù)集，這使得擴(kuò)展到我們最終希望這些系統(tǒng)執(zhí)行的復(fù)雜任務(wù)變得具有挑戰(zhàn)性。此論文工作：在這項(xiàng)工作中，探索使用大型語(yǔ)言模型來(lái)解決復(fù)雜任務(wù)的視覺問題，方法是將自然語(yǔ)言描述的這些任務(wù)分解為可以由專門的端到端訓(xùn)練模型或其他程序處理的更簡(jiǎn)單的步驟。

圖 1.VISPROG 是一個(gè)用于組合視覺推理的模塊化且可解釋的神經(jīng)符號(hào)系統(tǒng)（左為框架圖，右為此系統(tǒng)可實(shí)現(xiàn)的四大任務(wù)）VISPROG，它輸入視覺數(shù)據(jù)（單個(gè)圖像或一組圖像）以及自然語(yǔ)言指令，生成一系列步驟，如果您愿意，還可以生成可視化程序，然后執(zhí)行這些步驟以產(chǎn)生所需的輸出?？梢暬绦蛑械拿恳恍卸紩?huì)調(diào)用系統(tǒng)當(dāng)前支持的各種模塊之一。模塊可以是現(xiàn)成的計(jì)算機(jī)視覺模型、語(yǔ)言模型、OpenCV中的圖像處理子例程或算術(shù)和邏輯運(yùn)算符。

模塊消耗通過執(zhí)行前面的代碼行產(chǎn)生的輸入，并輸出可被下游消耗的中間結(jié)果。在上面的示例中，VISPROG 生成的可視化程序調(diào)用人臉檢測(cè)器、GPT-3 作為知識(shí)檢索系統(tǒng)，以及 CLIP作為開放詞匯圖像分類器來(lái)生成所需的輸出（參見圖。1）。VISPROG 改進(jìn)了以前為視覺應(yīng)用生成和執(zhí)行程序的方法。

對(duì)于視覺問答（VQA）任務(wù)，神經(jīng)模塊網(wǎng)絡(luò)（NMN）[2,9,10,12]由專門的、可微分的神經(jīng)模塊組成一個(gè)特定于問題的、端到端的可訓(xùn)練網(wǎng)絡(luò)。這些方法要么使用脆弱的、現(xiàn)成的語(yǔ)義解析器來(lái)確定性地計(jì)算模塊的布局，要么通過 REINFORCE [30] 通過弱答案監(jiān)督來(lái)學(xué)習(xí)布局生成器。相比之下，VISPROG 使用強(qiáng)大的語(yǔ)言模型（GPT-3）以及少量上下文示例，無(wú)需任何訓(xùn)練即可創(chuàng)建復(fù)雜的程序1。VISPROG 創(chuàng)建的程序還使用比 NMN 更高級(jí)別的抽象，并調(diào)用經(jīng)過訓(xùn)練的最先進(jìn)模型和非神經(jīng) Python 子例程（圖 2）。

這些優(yōu)點(diǎn)使 VISPROG 成為易于使用、高性能和模塊化的神經(jīng)符號(hào)系統(tǒng)。VISPROG 也具有高度可解釋性。首先，VISPROG 生成易于理解的程序，用戶可以驗(yàn)證其邏輯正確性。其次，通過將預(yù)測(cè)分解為簡(jiǎn)單的步驟，VISPROG 允許用戶檢查中間步驟的輸出以診斷錯(cuò)誤，并在需要時(shí)干預(yù)推理過程?？偠灾?，具有中間步驟結(jié)果（例如文本、邊界框、分割掩模、生成的圖像等）的執(zhí)行程序鏈接在一起以描述信息流，作為預(yù)測(cè)的視覺原理。

為了展示其靈活性，我們使用 VISPROG 執(zhí)行 4 個(gè)不同的任務(wù)，這些任務(wù)共享一些通用技能（例如圖像解析），同時(shí)還需要一定程度的專業(yè)推理和視覺操作能力。這些任務(wù)是 - 我們強(qiáng)調(diào)，語(yǔ)言模型和任何模塊都沒有以任何方式進(jìn)行微調(diào)。讓 VISPROG 適應(yīng)任何任務(wù)非常簡(jiǎn)單，只需提供一些由自然語(yǔ)言指令和相應(yīng)程序組成的上下文示例即可。

雖然易于使用，但 VISPROG 在組合 VQA 任務(wù)上比基本 VQA 模型提高了 2.7 個(gè)點(diǎn)，在 NLVR 上的零樣本準(zhǔn)確率高達(dá) 62.4%，無(wú)需對(duì)圖像對(duì)進(jìn)行訓(xùn)練，并且在知識(shí)標(biāo)記方面取得了令人愉快的定性和定量結(jié)果和圖像編輯任務(wù)。

本文貢獻(xiàn)點(diǎn)：(i) VISPROG - 一個(gè)使用語(yǔ)言模型的上下文學(xué)習(xí)能力從自然語(yǔ)言指令生成視覺程序的系統(tǒng)，用于組合視覺任務(wù)（第 3 節(jié)）；(ii) 展示 VISPROG 在復(fù)雜視覺任務(wù)上的靈活性，例如事實(shí)知識(shí)對(duì)象標(biāo)記和語(yǔ)言引導(dǎo)圖像編輯，這些任務(wù)在單一端到端模型中未能實(shí)現(xiàn)或取得有限成功；(iii) 為這些任務(wù)提供可視化原理，并展示它們?cè)阱e(cuò)誤分析和用戶驅(qū)動(dòng)指令調(diào)整方面的實(shí)用性，以顯著提高 VISPROG 的性能。

2 相關(guān)背景

由于大型語(yǔ)言模型 (LLM) 令人難以置信的理解、生成和上下文學(xué)習(xí)能力，神經(jīng)符號(hào)方法獲得了新的發(fā)展動(dòng)力。現(xiàn)在簡(jiǎn)單說(shuō)明下以前的視覺任務(wù)程序生成和執(zhí)行方法、最近使用LLMs進(jìn)行視覺的工作以及語(yǔ)言任務(wù)推理方法的進(jìn)展。視覺任務(wù)的程序生成和執(zhí)行的相關(guān)工作。

神經(jīng)模塊網(wǎng)絡(luò)（NMN開創(chuàng)了視覺問答（VQA）任務(wù)的模塊化和組合方法。NMN 將神經(jīng)模塊組合成端到端的可微網(wǎng)絡(luò)。雖然早期的嘗試使用現(xiàn)成的解析器，但最近的方法使用 REINFORCE和弱答案監(jiān)督與神經(jīng)模塊聯(lián)合學(xué)習(xí)布局生成模型。雖然 VISPROG 與 NMN 的精神相似，但它比 NMN 有幾個(gè)優(yōu)勢(shì)。

首先，VISPROG 生成高級(jí)程序，在中間步驟調(diào)用經(jīng)過訓(xùn)練的最先進(jìn)的神經(jīng)模型和其他 Python 函數(shù)，而不是生成端到端神經(jīng)網(wǎng)絡(luò)。這使得合并符號(hào)化、不可微分的模塊變得很容易。其次，VISPROG 利用LLMs的上下文學(xué)習(xí)能力，通過使用自然語(yǔ)言指令（或視覺問題或待驗(yàn)證的陳述）以及一些示例來(lái)提示LLM（GPT-3）來(lái)生成程序類似的指令及其相應(yīng)的程序，從而無(wú)需為每個(gè)任務(wù)訓(xùn)練專門的程序生成器。

針對(duì)視覺任務(wù)的LLMs的相關(guān)工作。LLMs和情境學(xué)習(xí)已應(yīng)用于視覺任務(wù)。PICa使用 LLM 來(lái)完成基于知識(shí)的 VQA任務(wù)。PICa 通過標(biāo)題、對(duì)象和屬性將圖像中的視覺信息表示為文本，并將該文本表示與問題和上下文示例一起提供給 GPT-3，以直接生成答案。蘇格拉底模型（SM），由不同模態(tài)組成預(yù)訓(xùn)練模型，例如語(yǔ)言（BERT、GPT-2）、視覺語(yǔ)言（CLIP）和音頻語(yǔ)言（mSLAM），執(zhí)行許多零樣本任務(wù)，包括圖像字幕、視頻到文本檢索和機(jī)器人規(guī)劃。

然而，在 SM 中，每個(gè)任務(wù)的組成都是預(yù)先確定和固定的。相比之下，VISPROG 通過根據(jù)指令、問題或語(yǔ)句生成程序來(lái)確定如何為每個(gè)實(shí)例構(gòu)建模型。我們展示了 VISPROG 處理復(fù)雜指令的能力，這些指令涉及不同的功能（20 個(gè)模塊）和不同的輸入（文本、圖像和圖像對(duì)）、中間（文本、圖像、邊界框、分割掩模）和輸出模式（文本和圖像）。

與 VISPROG 類似，ProgPrompt 是一項(xiàng)并行工作，展示了LMM從自然語(yǔ)言指令生成類似 python 的機(jī)器人動(dòng)作計(jì)劃的能力。雖然 ProgPrompt 模塊（例如“find”或“grab”）將字符串（通常是對(duì)象名稱）作為輸入，但 VISPROG 程序更為通用。在 VISPROG 程序的每個(gè)步驟中，模塊可以接受先前步驟生成的多個(gè)參數(shù)，包括字符串、數(shù)字、算術(shù)和邏輯表達(dá)式或任意 Python 對(duì)象（例如包含邊界框或分段掩碼的 list() 或 dict() 實(shí)例）。

3 方法（Visual Programming）

在過去的幾年里，人工智能社區(qū)已經(jīng)為許多視覺和語(yǔ)言任務(wù)（例如對(duì)象檢測(cè)、分割、VQA、字幕和文本到圖像生成）創(chuàng)建了高性能、特定于任務(wù)的模型。雖然這些模型中的每一個(gè)都解決了一個(gè)定義明確但范圍狹窄的問題，但我們通常想要在現(xiàn)實(shí)世界中解決的任務(wù)往往更廣泛且定義松散。為了解決此類實(shí)際任務(wù)，人們必須收集一個(gè)新的特定于任務(wù)的數(shù)據(jù)集，這可能會(huì)很昂貴，或者精心編寫一個(gè)調(diào)用多個(gè)神經(jīng)模型、圖像處理子例程（例如圖像調(diào)整大小、裁剪、過濾和色彩空間轉(zhuǎn)換）的程序，以及其他計(jì)算（例如數(shù)據(jù)庫(kù)查找，或算術(shù)和邏輯運(yùn)算）。

為我們每天遇到的無(wú)限長(zhǎng)尾的復(fù)雜任務(wù)手動(dòng)創(chuàng)建這些程序不僅需要編程專業(yè)知識(shí)，而且速度慢、勞動(dòng)強(qiáng)度大，最終不足以覆蓋所有任務(wù)的空間。如果可以用自然語(yǔ)言描述任務(wù)并讓人工智能系統(tǒng)生成并執(zhí)行任務(wù)無(wú)需任何訓(xùn)練即可對(duì)應(yīng)視覺程序似乎就可以解決問題？

3.1 Large language models for visual programming-用于可視化編程的大型語(yǔ)言模型。

GPT-3 等大型語(yǔ)言模型在上下文中進(jìn)行了少量輸入和輸出演示后，已表現(xiàn)出卓越的泛化到新樣本的能力。例如，用兩個(gè)英語(yǔ)到法語(yǔ)的翻譯示例和一個(gè)新的英語(yǔ)短語(yǔ)來(lái)提示 GPT-3產(chǎn)生了法語(yǔ)翻譯“bonsoir”。請(qǐng)注意，我們不必微調(diào) GPT-3 來(lái)執(zhí)行第三個(gè)短語(yǔ)的翻譯任務(wù)。VISPROG 使用 GPT-3 的上下文學(xué)習(xí)能力來(lái)輸出自然語(yǔ)言指令的視覺程序。

good morning -> bonjourgood day -> bonne journ ?eegood evening ->與上例中的英語(yǔ)和法語(yǔ)翻譯對(duì)類似，我們用指令對(duì)和所需的高級(jí)程序提示 GPT-3。圖3顯示了這樣一個(gè)圖像編輯任務(wù)的提示。上下文示例中的程序是手動(dòng)編寫的，通?？梢栽跊]有隨附圖像的情況下構(gòu)建。VISPROG 程序的每一行或程序步驟均由模塊名稱、模塊的輸入?yún)?shù)名稱及其值以及輸出變量名稱組成。

VISPROG 程序通常使用過去步驟的輸出變量作為未來(lái)步驟的輸入。我們使用描述性模塊名稱（例如“Select”、“ColorPop”、“Replace”）、參數(shù)名稱（例如“image”、“object”、“query”）和變量名稱（例如“IMAGE”、“OBJ”）讓GPT-3了解各個(gè)模塊的輸入輸出類型以及功能。在執(zhí)行期間，輸出變量可用于存儲(chǔ)任意數(shù)據(jù)類型。例如，“OBJ”是圖像中的對(duì)象列表，其中包含與每個(gè)對(duì)象關(guān)聯(lián)的蒙版、邊界框和文本（例如類別名稱）。

圖 3.VISPROG 中的程序生成。這些上下文示例與新的自然語(yǔ)言指令一起被輸入到 GPT-3 中。在不觀察圖像或其內(nèi)容的情況下，VISPROG 會(huì)生成一個(gè)程序（圖 3 底部），該程序可以在輸入圖像上執(zhí)行以執(zhí)行所描述的任務(wù)。

3.2 Modules-模塊介紹

VISPROG 目前支持 20 個(gè)模塊（圖 2），用于實(shí)現(xiàn)圖像理解、圖像處理（包括生成）、知識(shí)檢索以及執(zhí)行算術(shù)和邏輯運(yùn)算等功能。

在 VISPROG 中，每個(gè)模塊都實(shí)現(xiàn)為一個(gè) Python 類（代碼 1），該類具有以下方法：(i) 解析該行以提取輸入?yún)?shù)名稱和值以及輸出變量名稱；(ii) 執(zhí)行可能涉及經(jīng)過訓(xùn)練的神經(jīng)模型的必要計(jì)算，并使用輸出變量名稱和值更新程序狀態(tài)；(iii) 使用 html 直觀地總結(jié)該步驟的計(jì)算（稍后用于創(chuàng)建視覺原理）。


向 VISPROG 添加新模塊只需實(shí)現(xiàn)并注冊(cè)一個(gè)模塊類，而使用該模塊的程序的執(zhí)行則由 VISPROG 解釋器自動(dòng)處理，這將在下面介紹。

圖 2. VISPROG 當(dāng)前支持的模塊。紅色模塊使用神經(jīng)模型（OWL-ViT、DSFD、MaskForme、CLIP、ViLT和 Stable Diffusion）。藍(lán)色模塊使用圖像處理和其他 python 子例程。這些模塊在由自然語(yǔ)言指令生成的程序中調(diào)用。添加新模塊來(lái)擴(kuò)展 VISPROG 的功能非常簡(jiǎn)單（代碼 1）。

classVisProgModule():
def__init__(self):
#loadatrainedmodel;movetoGPU
defhtml(self,inputs:List,output:Any):
#returnanhtmlstringvisualizingstepI/O

defparse(self,step:str):
#parsestepandreturnlistofinputvalues/variablenames
#andoutputvariablename

defexecute(self,step:str,state:Dict):
inputs,input_var_names,output_var_name=self.parse(step)
#getvaluesofinputvariablesfromstate
forvar_nameininput_var_names:
inputs.append(state[var_name])

#performcomputationusingtheloadedmodel
output=some_computation(inputs)

#updatestate
state[output_var_name]=output

#visualsummaryofthestepcomputation
step_html=self.html(inputs,output)
returnoutput,step_html

3.3 Program Execution-程序執(zhí)行

程序的執(zhí)行由解釋器處理。解釋器使用輸入初始化程序狀態(tài)（將變量名稱映射到其值的字典），并逐行執(zhí)行程序，同時(shí)使用該行中指定的輸入調(diào)用正確的模塊。執(zhí)行每個(gè)步驟后，程序狀態(tài)將使用該步驟輸出的名稱和值進(jìn)行更新。

3.4 Visual Rationale-視覺原理

除了執(zhí)行必要的計(jì)算之外，每個(gè)模塊類還實(shí)現(xiàn)了一個(gè)名為 html() 的方法，以直觀地總結(jié) HTML 片段中模塊的輸入和輸出。解釋器只需將所有程序步驟的 HTML 摘要拼接成可視化原理（圖 4），即可用于分析程序的邏輯正確性以及檢查程序的內(nèi)部結(jié)構(gòu)的中間輸出。視覺原理還使用戶能夠理解失敗的原因，并盡可能地調(diào)整自然語(yǔ)言指令以提高性能。

圖 4. VISPROG 生成的視覺原理。這些基本原理直觀地總結(jié)了圖像編輯（上）和 NLVR 任務(wù)（下）推理期間生成的程序中每個(gè)計(jì)算步驟的輸入和輸出。

4 Tasks-具體任務(wù)應(yīng)用

VISPROG 提供了一個(gè)靈活的框架，可應(yīng)用于各種復(fù)雜的視覺任務(wù)。我們?cè)?4 項(xiàng)任務(wù)上評(píng)估 VISPROG，這些任務(wù)需要空間推理、多圖像推理、知識(shí)檢索以及圖像生成和操作等能力。圖 5 總結(jié)了用于這些任務(wù)的輸入、輸出和模塊。我們現(xiàn)在描述這些任務(wù)、它們的評(píng)估設(shè)置以及上下文示例的選擇。

圖 5.我們?cè)谝唤M不同的任務(wù)上評(píng)估 VISPROG。這些任務(wù)涵蓋各種輸入和輸出，并盡可能重用模塊（Loc、FaceDet、VQA）。

4.1 Compositional Visual Question Answering-組合式視覺問答

VISPROG 是組合式的，這使得它適合組合式、多步驟的視覺問答任務(wù)：GQA。GQA 任務(wù)的模塊包括用于開放詞匯本地化的模塊、VQA 模塊、給定邊界框坐標(biāo)或空間介詞（例如上、左等）的裁剪圖像區(qū)域的函數(shù)、計(jì)數(shù)框的模塊以及用于計(jì)算框數(shù)量的模塊。評(píng)估 Python 表達(dá)式。例如，考慮以下問題：“小卡車是在戴頭盔的人的左邊還是右邊？”。VISPROG 首先定位“戴頭盔的人”，裁剪這些人左側(cè)（或右側(cè)）的區(qū)域，檢查該側(cè)是否有“小卡車”，如果有則返回“左”，否則返回“右”。

VISPROG 使用基于 VILT 的問答模塊，但 VISPROG 不是簡(jiǎn)單地將復(fù)雜的原始問題傳遞給 VILT，而是調(diào)用它來(lái)執(zhí)行更簡(jiǎn)單的任務(wù)，例如識(shí)別部分圖像中的內(nèi)容。因此，我們生成的 GQA VISPROG 不僅比 VILT 更容易解釋，而且更準(zhǔn)確（表 1）。或者，我們可以完全消除對(duì) ViLT 等 QA 模型的需求，并使用 CLIP 和對(duì)象檢測(cè)器等其他系統(tǒng)，但我們將其留待未來(lái)研究。

評(píng)估。為了限制使用 GPT-3 生成程序所花費(fèi)的資金，我們創(chuàng)建了一個(gè) GQA 子集用于評(píng)估。GQA 中的每個(gè)問題都標(biāo)有問題類型。為了評(píng)估不同的問題類型集（～ 100 個(gè)詳細(xì)類型），我們從平衡的 val (k = 5) 和 testdev (k = 20) 集中隨機(jī)抽取每個(gè)問題類型最多 k 個(gè)樣本。提示。我們使用所需的 VISPROG 程序手動(dòng)注釋平衡訓(xùn)練集中的 31 個(gè)隨機(jī)問題。用程序注釋問題很容易，需要寫下回答該特定問題所需的推理鏈。我們向 GPT-3 提供了較小的上下文示例子集，從該列表中隨機(jī)采樣，以減少回答每個(gè) GQA 問題的成本。

表 1.GQA 測(cè)試開發(fā)結(jié)果。我們報(bào)告原始 GQA 測(cè)試開發(fā)集的一個(gè)子集的性能

4.2 Zero-Shot Reasoning on Image Pairs-圖像對(duì)上的零樣本推理

VQA 模型經(jīng)過訓(xùn)練可以回答有關(guān)單個(gè)圖像的問題。在實(shí)踐中，人們可能需要一個(gè)系統(tǒng)來(lái)回答有關(guān)圖像集合的問題。例如，用戶可以要求系統(tǒng)解析他們的假期相冊(cè)并回答以下問題：“在我們看到埃菲爾鐵塔的第二天，我們參觀了哪個(gè)地標(biāo)？”。

我們展示了 VISPROG 使用單圖像 VQA 系統(tǒng)解決涉及多圖像的任務(wù)而無(wú)需對(duì)多圖像示例進(jìn)行訓(xùn)練的能力，而不是采集昂貴的數(shù)據(jù)集并訓(xùn)練多圖像模型。我們?cè)?NLVRV2基準(zhǔn)測(cè)試中展示了這種能力，其中涉及驗(yàn)證有關(guān)圖像對(duì)的語(yǔ)句。通常，應(yīng)對(duì) NLVRV2 挑戰(zhàn)需要訓(xùn)練自定義架構(gòu)，將圖像對(duì)作為 NLVRV2 訓(xùn)練集的輸入。

相反，VISPROG 通過將復(fù)雜的語(yǔ)句分解為有關(guān)單個(gè)圖像的簡(jiǎn)單問題和涉及算術(shù)和邏輯運(yùn)算符的 Python 表達(dá)式以及圖像級(jí)問題的答案來(lái)實(shí)現(xiàn)此目的。VQA模型VILT-VQA用于獲取圖像級(jí)答案，并評(píng)估python表達(dá)式以驗(yàn)證該語(yǔ)句。評(píng)估。我們通過從 NLVRV2 開發(fā)集中抽取 250 個(gè)隨機(jī)樣本來(lái)創(chuàng)建一個(gè)小型驗(yàn)證集，以指導(dǎo)提示選擇，并在 NLVRV2 的完整公共測(cè)試集上測(cè)試泛化。

提示。我們針對(duì) NLVRV2 訓(xùn)練集中的 16 個(gè)隨機(jī)語(yǔ)句對(duì) VISPROG 程序進(jìn)行采樣和注釋。由于其中一些示例是冗余的（類似的程序結(jié)構(gòu)），我們還通過刪除 4 個(gè)冗余示例來(lái)創(chuàng)建 12 個(gè)示例的精選子集。

4.3 Factual Knowledge Object Tagging-事實(shí)知識(shí)對(duì)象標(biāo)記

我們經(jīng)常想要識(shí)別圖像中我們不知道名字的人和物體。例如，我們可能想要識(shí)別名人、政治家、電視節(jié)目中的人物、國(guó)家國(guó)旗、公司徽標(biāo)、流行汽車及其制造商、生物物種等等。解決這個(gè)任務(wù)不僅需要定位人、面孔和物體，還需要在外部知識(shí)庫(kù)中查找事實(shí)知識(shí)來(lái)構(gòu)建一組類別進(jìn)行分類，例如電視節(jié)目中角色的名字。我們將此任務(wù)簡(jiǎn)稱為事實(shí)知識(shí)對(duì)象標(biāo)記或知識(shí)標(biāo)記。為了解決知識(shí)標(biāo)簽問題，VISPROG 使用 GPT-3 作為隱式知識(shí)庫(kù)，可以通過自然語(yǔ)言提示進(jìn)行查詢，例如“列出電視節(jié)目《生活大爆炸》中的主要角色，用逗號(hào)分隔?！?br />
然后，CLIP 圖像分類模塊可以使用生成的類別列表，該模塊對(duì)定位和人臉檢測(cè)模塊生成的圖像區(qū)域進(jìn)行分類。VISPROG 的程序生成器根據(jù)自然語(yǔ)言指令中的上下文自動(dòng)確定是使用面部檢測(cè)器還是開放詞匯定位器。VISPROG 還估計(jì)檢索到的類別列表的最大大小。

例如，“標(biāo)記前 5 個(gè)德國(guó)汽車公司的徽標(biāo)”會(huì)生成一個(gè)包含 5 個(gè)類別的列表，而“標(biāo)記德國(guó)汽車公司的徽標(biāo)”則會(huì)生成一個(gè)由 GPT-3 確定的任意長(zhǎng)度的列表，截止值為 20這使得用戶可以通過調(diào)整指令輕松控制分類過程中的噪聲。評(píng)估。為了評(píng)估 VISPROG 在此任務(wù)上的表現(xiàn)，我們?cè)?46 個(gè)圖像中注釋了 100 個(gè)標(biāo)記指令，這些圖像需要外部知識(shí)來(lái)標(biāo)記 253 個(gè)對(duì)象實(shí)例，包括流行文化、政治、體育和藝術(shù)領(lǐng)域的人物，以及各種對(duì)象（例如汽車、旗幟、水果、電器、家具等）。

對(duì)于每條指令，我們通過精度（正確預(yù)測(cè)框的分?jǐn)?shù)）和召回率（正確預(yù)測(cè)的地面實(shí)況對(duì)象的分?jǐn)?shù)）來(lái)衡量定位和標(biāo)記性能。標(biāo)記度量要求預(yù)測(cè)的邊界框和關(guān)聯(lián)的標(biāo)簽或類標(biāo)簽都是正確的，而本地化會(huì)忽略標(biāo)簽。為了確定定位的正確性，我們使用 IoU 閾值 0.5。我們通過 F1 分?jǐn)?shù)（指令間平均精度和召回率的調(diào)和平均值）總結(jié)定位和標(biāo)記性能。提示。我們?yōu)榇巳蝿?wù)創(chuàng)建了 14 個(gè)上下文示例。請(qǐng)注意，這些示例的說(shuō)明是幻覺的，即沒有圖像與這些示例相關(guān)聯(lián)。

4.4 Image Editing with Natural Language-使用自然語(yǔ)言進(jìn)行圖像編輯

文本到圖像的生成在過去幾年中通過 DALL-E、Parti 和 Stable Diffusion等模型取得了令人印象深刻的進(jìn)步。然而，這些模型仍然無(wú)法處理諸如“用 :p 隱藏 Daniel Craig 的臉部”（去識(shí)別化或隱私保護(hù)）或“創(chuàng)建 Daniel Craig 的流行顏色并模糊背景”之類的提示（對(duì)象突出顯示），盡管使用面部檢測(cè)、分割和圖像處理模塊的組合以編程方式實(shí)現(xiàn)這些相對(duì)簡(jiǎn)單。實(shí)現(xiàn)復(fù)雜的編輯，例如“用戴著墨鏡的巴拉克·奧巴馬替換巴拉克·奧巴馬”（對(duì)象替換），首先需要識(shí)別感興趣的對(duì)象，生成要替換的對(duì)象的掩模，然后調(diào)用圖像修復(fù)模型（我們使用穩(wěn)定擴(kuò)散））與原始圖像、指定要替換的像素的掩碼以及要在該位置生成的新像素的描述。

當(dāng)VISPROG配備必要的模塊和示例程序時(shí)，可以輕松處理非常復(fù)雜的指令。評(píng)估。為了測(cè)試 VISPROG 的去識(shí)別、對(duì)象突出顯示和對(duì)象替換的圖像編輯指令，我們收集了 65 張圖像中的 107 條指令。我們手動(dòng)對(duì)預(yù)測(cè)的正確性和報(bào)告準(zhǔn)確性進(jìn)行評(píng)分。請(qǐng)注意，只要生成的圖像在語(yǔ)義上正確，我們就不會(huì)懲罰使用穩(wěn)定擴(kuò)散的對(duì)象替換子任務(wù)的視覺偽影。提示。與知識(shí)標(biāo)記類似，我們?yōu)榇巳蝿?wù)創(chuàng)建了 10 個(gè)沒有關(guān)聯(lián)圖像的上下文示例。

5 實(shí)驗(yàn)與分析

我們的實(shí)驗(yàn)評(píng)估了提示數(shù)量對(duì) GQA 和 NLVR 性能的影響（第 5.1 節(jié)），比較各種提示策略的 VISPROG 在四個(gè)任務(wù)上的泛化（第 5.2 節(jié)），分析每個(gè)任務(wù)的錯(cuò)誤來(lái)源（圖 9），并研究視覺原理在診斷錯(cuò)誤和通過指令調(diào)整提高 VISPROG 性能方面的實(shí)用性（第 5.3 節(jié)）。

5.1 提示大小的影響

圖 6 顯示，隨著 GQA 和 NLVR 提示中使用的上下文示例數(shù)量的增加，驗(yàn)證性能逐漸提高。每次運(yùn)行都會(huì)根據(jù)隨機(jī)種子隨機(jī)選擇帶注釋的上下文示例的子集。

我們還發(fā)現(xiàn)，對(duì)隨機(jī)種子進(jìn)行多數(shù)投票所帶來(lái)的性能始終優(yōu)于運(yùn)行中的平均性能。這與數(shù)學(xué)推理問題的思想鏈推理文獻(xiàn)中的發(fā)現(xiàn)是一致的。在 NLVR 上，VISPROG 的性能在提示數(shù)少于 GQA 的情況下達(dá)到飽和。我們認(rèn)為這是因?yàn)?NLVRV2 程序比 GQA 需要更少的模塊，因此使用這些模塊的演示也更少。

圖 6. GQA 和 NLVRV2 驗(yàn)證集上的上下文示例數(shù)量提高了性能。誤差線代表 5 次運(yùn)行的 95% 置信區(qū)間。來(lái)自相同運(yùn)行的預(yù)測(cè)用于多數(shù)投票。（第 5.1 節(jié)）

5.2 概括

GQA。在表1中，我們?cè)?GQA testdev集上評(píng)估不同的提示策略。對(duì)于在驗(yàn)證集上評(píng)估的最大提示大?。?4 個(gè)上下文中的示例），我們比較了由 VISPROG 在驗(yàn)證集上的 5 次運(yùn)行中選擇的最佳提示組成的隨機(jī)策略（每次運(yùn)行從 31 個(gè)帶注釋的示例中隨機(jī)采樣上下文中的示例））以及多數(shù)投票策略，該策略在 5 次運(yùn)行中對(duì)每個(gè)問題進(jìn)行最大共識(shí)預(yù)測(cè)。雖然“隨機(jī)”提示僅略微優(yōu)于 VILT-VQA，但投票帶來(lái)了 2.7 個(gè)百分點(diǎn)的顯著收益。這是因?yàn)樵诙啻芜\(yùn)行中進(jìn)行投票，每次運(yùn)行都有一組不同的上下文示例，有效地增加了每個(gè)預(yù)測(cè)看到的上下文示例的總數(shù)。

我們還評(píng)估了一個(gè)手動(dòng)策劃的提示，其中包含 20 個(gè)示例，其中 16 個(gè)來(lái)自 31 個(gè)帶注釋的示例，以及 4 個(gè)額外的幻覺示例，旨在更好地覆蓋驗(yàn)證集中觀察到的失敗案例。精心策劃的提示的性能與投票策略一樣好，同時(shí)使用的計(jì)算量減少了 5 倍，凸顯了提示工程的前景。NLVR。表2 顯示了 VISPROG 在 NLVRV2 測(cè)試集上的性能，并比較了隨機(jī)、投票和策劃的提示策略與 GQA 的效果。雖然 VISPROG 在無(wú)需對(duì)圖像對(duì)進(jìn)行訓(xùn)練的情況下零樣本執(zhí)行 NLVR 任務(wù)，但我們報(bào)告了 VILT-NLVR，這是一種在 NLVRV2 上進(jìn)行微調(diào)的 VILT 模型，作為性能上限。

雖然落后上限幾個(gè)點(diǎn)，但 VISPROG 僅使用單圖像 VQA 模型進(jìn)行圖像理解和 LLM 進(jìn)行推理，顯示出強(qiáng)大的零樣本性能。請(qǐng)注意，VISPROG 使用 VILT-VQA 作為其 VQA 模塊，該模塊在 VQAV2 單圖像問答任務(wù)上進(jìn)行訓(xùn)練，而不是在 NLVRV2 上進(jìn)行訓(xùn)練。

表 2. NLVRV2 測(cè)試結(jié)果。VISPROG 執(zhí)行 NLVR 零樣本，即無(wú)需在圖像對(duì)上訓(xùn)練任何模塊。VILT-NLVR 是在 NLVRV2 上微調(diào)的 VILT 模型，用作上限。Knowledge Tagging。表3 顯示了知識(shí)標(biāo)記任務(wù)的本地化和標(biāo)記性能。此任務(wù)的所有指令不僅需要開放詞匯本地化，還需要查詢知識(shí)庫(kù)以獲取類別來(lái)標(biāo)記本地化對(duì)象。

這使得僅靠物體檢測(cè)器來(lái)說(shuō)這是一項(xiàng)不可能完成的任務(wù)。使用原始指令，VISPROG 在標(biāo)記方面取得了令人印象深刻的 63.7% F1 分?jǐn)?shù)，其中涉及正確本地化和命名對(duì)象，僅在本地化方面就取得了 80.6% F1 分?jǐn)?shù)。VISPROG 中的視覺原理允許通過修改指令進(jìn)一步提高性能。

表 3. 知識(shí)標(biāo)記結(jié)果。該表顯示了原始指令的性能以及在檢查視覺原理以了解特定于實(shí)例的錯(cuò)誤來(lái)源后創(chuàng)建的修改指令的性能。Image Editing。

表4 顯示了語(yǔ)言引導(dǎo)圖像編輯任務(wù)的性能。圖 7 顯示了 VISPROG 中當(dāng)前模塊集可能進(jìn)行的廣泛操作，包括面部操作、通過顏色彈出和背景模糊等風(fēng)格效果突出顯示圖像中的一個(gè)或多個(gè)對(duì)象，以及通過替換關(guān)鍵元素來(lái)更改場(chǎng)景上下文在場(chǎng)景中（例如沙漠）。

表 4. 圖像編輯結(jié)果。我們手動(dòng)評(píng)估每個(gè)預(yù)測(cè)的語(yǔ)義正確性。

圖 7. 圖像編輯（頂部）和知識(shí)標(biāo)記任務(wù)（底部）的定性結(jié)果。

5.3. 視覺原理的實(shí)用性

誤差分析。

VISPROG 的可視化原理可以對(duì)故障模式進(jìn)行徹底分析。在圖 9 中，我們檢查每個(gè)任務(wù)約 100 個(gè)樣本的基本原理，以分解錯(cuò)誤來(lái)源。此類分析為提高 VISPROG 在各種任務(wù)上的性能提供了明確的途徑。例如，由于不正確的程序是 GQA 錯(cuò)誤的主要來(lái)源，影響了 16% 的樣本，因此可以通過提供更多類似于失敗問題的上下文示例來(lái)提高 GQA 的性能。通過將用于實(shí)現(xiàn)高錯(cuò)誤模塊的模型升級(jí)為性能更高的模塊，也可以提高性能。例如，用更好的 NLVR VQA 模型替換 VILT-VQA 模型可以將性能提高高達(dá) 24%（圖 9）。同樣，改進(jìn)用于實(shí)現(xiàn)“列表”和“選擇”模塊（知識(shí)標(biāo)記和圖像編輯任務(wù)的主要錯(cuò)誤來(lái)源）的模型可以顯著減少錯(cuò)誤。

圖 9. VISPROG 中的誤差源。

指令調(diào)整。

為了有用，視覺原理最終必須允許用戶提高系統(tǒng)在其任務(wù)中的性能。對(duì)于知識(shí)標(biāo)記和圖像編輯任務(wù)，我們研究視覺原理是否可以幫助用戶修改或調(diào)整指令以實(shí)現(xiàn)更好的性能。圖 8 顯示了通過視覺原理揭示的本地化錯(cuò)誤如何使用戶能夠修改指令，以便更好地查詢本地化模塊。修改指令的其他方式包括為知識(shí)檢索提供更好的查詢或?yàn)檫x擇模塊提供類別名稱以將搜索限制到屬于該類別的分段區(qū)域。表 3 和表 4 顯示，指令調(diào)整可為知識(shí)標(biāo)記和圖像編輯任務(wù)帶來(lái)顯著收益。

圖 8. 使用視覺原理調(diào)整指令。通過揭示失敗的原因，VISPROG 允許用戶修改原始指令以提高性能。

5 總結(jié)

VISPROG 提出可視化編程作為一種簡(jiǎn)單而有效的方式，將LMMs的推理能力用于復(fù)雜的視覺任務(wù)。VISPROG 展示了強(qiáng)大的性能，同時(shí)生成高度可解釋的視覺原理。我們相信，研究整合用戶反饋以提高 VISPROG 等神經(jīng)符號(hào)系統(tǒng)性能的新方法是構(gòu)建下一代通用視覺系統(tǒng)的一個(gè)令人興奮的方向。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1804

文章
48788

瀏覽量
246989
可視化

可視化

+關(guān)注

關(guān)注
1

文章
1249

瀏覽量
21671
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
9

文章
1706

瀏覽量
46598

原文標(biāo)題：?基于文本提示就可自動(dòng)實(shí)現(xiàn)復(fù)雜計(jì)算機(jī)視覺任務(wù)？

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

?基于文本提示就可自動(dòng)實(shí)現(xiàn)復(fù)雜計(jì)算機(jī)視覺任務(wù)？

1 前言

2 相關(guān)背景

3 方法（Visual Programming）