在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

?基于文本提示就可自動(dòng)實(shí)現(xiàn)復(fù)雜計(jì)算機(jī)視覺任務(wù)?

3D視覺工坊 ? 來(lái)源:3DCV ? 2023-09-23 11:16 ? 次閱讀


本文提出了 VISPROG,一種神經(jīng)符號(hào)方法,用于在給定自然語(yǔ)言指令的情況下解決復(fù)雜的組合視覺任務(wù)。VISPROG 無(wú)需進(jìn)行任何特定任務(wù)的訓(xùn)練。相反,它利用大型語(yǔ)言模型的上下文學(xué)習(xí)能力來(lái)生成類似Python的模塊化程序,然后執(zhí)行這些程序以獲得解決方案和全面且可解釋的基本原理。


生成的程序的每一行都可以調(diào)用幾個(gè)現(xiàn)成的計(jì)算機(jī)視覺模型、圖像處理子例程或Python函數(shù)之一來(lái)產(chǎn)生可由程序的后續(xù)部分使用的中間輸出。我們展示了 VISPROG 在 4 個(gè)不同任務(wù)上的靈活性 - 組合視覺問答、圖像對(duì)的零樣本推理、事實(shí)知識(shí)對(duì)象標(biāo)記和語(yǔ)言引導(dǎo)圖像編輯。我們相信像 VISPROG 這樣的神經(jīng)符號(hào)方法是一個(gè)令人興奮的途徑,可以輕松有效地?cái)U(kuò)展人工智能系統(tǒng)的范圍,以服務(wù)于人們可能希望執(zhí)行的復(fù)雜任務(wù)的長(zhǎng)尾。

1 前言



目的:對(duì)通用人工智能系統(tǒng)的追求導(dǎo)致了強(qiáng)大的端到端可訓(xùn)練模型的開發(fā),其中許多模型渴望為人工智能提供簡(jiǎn)單的自然語(yǔ)言界面使用戶能與模型進(jìn)行交互。現(xiàn)有方法:構(gòu)建這些系統(tǒng)的主要方法是大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練,然后是監(jiān)督多任務(wù)訓(xùn)練。然而,這種方法需要為每個(gè)任務(wù)提供精心策劃的數(shù)據(jù)集,這使得擴(kuò)展到我們最終希望這些系統(tǒng)執(zhí)行的復(fù)雜任務(wù)變得具有挑戰(zhàn)性。此論文工作:在這項(xiàng)工作中,探索使用大型語(yǔ)言模型來(lái)解決復(fù)雜任務(wù)的視覺問題,方法是將自然語(yǔ)言描述的這些任務(wù)分解為可以由專門的端到端訓(xùn)練模型或其他程序處理的更簡(jiǎn)單的步驟。


57056b00-5962-11ee-939d-92fbcf53809c.png


圖 1.VISPROG 是一個(gè)用于組合視覺推理的模塊化且可解釋的神經(jīng)符號(hào)系統(tǒng)(左為框架圖,右為此系統(tǒng)可實(shí)現(xiàn)的四大任務(wù))VISPROG,它輸入視覺數(shù)據(jù)(單個(gè)圖像或一組圖像)以及自然語(yǔ)言指令,生成一系列步驟,如果您愿意,還可以生成可視化程序,然后執(zhí)行這些步驟以產(chǎn)生所需的輸出??梢暬绦蛑械拿恳恍卸紩?huì)調(diào)用系統(tǒng)當(dāng)前支持的各種模塊之一。模塊可以是現(xiàn)成的計(jì)算機(jī)視覺模型、語(yǔ)言模型、OpenCV中的圖像處理子例程或算術(shù)和邏輯運(yùn)算符。


模塊消耗通過執(zhí)行前面的代碼行產(chǎn)生的輸入,并輸出可被下游消耗的中間結(jié)果。在上面的示例中,VISPROG 生成的可視化程序調(diào)用人臉檢測(cè)器、GPT-3 作為知識(shí)檢索系統(tǒng),以及 CLIP作為開放詞匯圖像分類器來(lái)生成所需的輸出(參見圖。1)。VISPROG 改進(jìn)了以前為視覺應(yīng)用生成和執(zhí)行程序的方法。


對(duì)于視覺問答(VQA)任務(wù),神經(jīng)模塊網(wǎng)絡(luò)(NMN)[2,9,10,12]由專門的、可微分的神經(jīng)模塊組成一個(gè)特定于問題的、端到端的可訓(xùn)練網(wǎng)絡(luò)。這些方法要么使用脆弱的、現(xiàn)成的語(yǔ)義解析器來(lái)確定性地計(jì)算模塊的布局,要么通過 REINFORCE [30] 通過弱答案監(jiān)督來(lái)學(xué)習(xí)布局生成器。相比之下,VISPROG 使用強(qiáng)大的語(yǔ)言模型(GPT-3)以及少量上下文示例,無(wú)需任何訓(xùn)練即可創(chuàng)建復(fù)雜的程序1。VISPROG 創(chuàng)建的程序還使用比 NMN 更高級(jí)別的抽象,并調(diào)用經(jīng)過訓(xùn)練的最先進(jìn)模型和非神經(jīng) Python 子例程(圖 2)。


這些優(yōu)點(diǎn)使 VISPROG 成為易于使用、高性能和模塊化的神經(jīng)符號(hào)系統(tǒng)。VISPROG 也具有高度可解釋性。首先,VISPROG 生成易于理解的程序,用戶可以驗(yàn)證其邏輯正確性。其次,通過將預(yù)測(cè)分解為簡(jiǎn)單的步驟,VISPROG 允許用戶檢查中間步驟的輸出以診斷錯(cuò)誤,并在需要時(shí)干預(yù)推理過程??偠灾?,具有中間步驟結(jié)果(例如文本、邊界框、分割掩模、生成的圖像等)的執(zhí)行程序鏈接在一起以描述信息流,作為預(yù)測(cè)的視覺原理。


為了展示其靈活性,我們使用 VISPROG 執(zhí)行 4 個(gè)不同的任務(wù),這些任務(wù)共享一些通用技能(例如圖像解析),同時(shí)還需要一定程度的專業(yè)推理和視覺操作能力。這些任務(wù)是 - 我們強(qiáng)調(diào),語(yǔ)言模型和任何模塊都沒有以任何方式進(jìn)行微調(diào)。讓 VISPROG 適應(yīng)任何任務(wù)非常簡(jiǎn)單,只需提供一些由自然語(yǔ)言指令和相應(yīng)程序組成的上下文示例即可。


雖然易于使用,但 VISPROG 在組合 VQA 任務(wù)上比基本 VQA 模型提高了 2.7 個(gè)點(diǎn),在 NLVR 上的零樣本準(zhǔn)確率高達(dá) 62.4%,無(wú)需對(duì)圖像對(duì)進(jìn)行訓(xùn)練,并且在知識(shí)標(biāo)記方面取得了令人愉快的定性和定量結(jié)果和圖像編輯任務(wù)。


本文貢獻(xiàn)點(diǎn):(i) VISPROG - 一個(gè)使用語(yǔ)言模型的上下文學(xué)習(xí)能力從自然語(yǔ)言指令生成視覺程序的系統(tǒng),用于組合視覺任務(wù)(第 3 節(jié));(ii) 展示 VISPROG 在復(fù)雜視覺任務(wù)上的靈活性,例如事實(shí)知識(shí)對(duì)象標(biāo)記和語(yǔ)言引導(dǎo)圖像編輯,這些任務(wù)在單一端到端模型中未能實(shí)現(xiàn)或取得有限成功;(iii) 為這些任務(wù)提供可視化原理,并展示它們?cè)阱e(cuò)誤分析和用戶驅(qū)動(dòng)指令調(diào)整方面的實(shí)用性,以顯著提高 VISPROG 的性能。


2 相關(guān)背景


由于大型語(yǔ)言模型 (LLM) 令人難以置信的理解、生成和上下文學(xué)習(xí)能力,神經(jīng)符號(hào)方法獲得了新的發(fā)展動(dòng)力。現(xiàn)在簡(jiǎn)單說(shuō)明下以前的視覺任務(wù)程序生成和執(zhí)行方法、最近使用LLMs進(jìn)行視覺的工作以及語(yǔ)言任務(wù)推理方法的進(jìn)展。視覺任務(wù)的程序生成和執(zhí)行的相關(guān)工作。

神經(jīng)模塊網(wǎng)絡(luò)(NMN開創(chuàng)了視覺問答(VQA)任務(wù)的模塊化和組合方法。NMN 將神經(jīng)模塊組合成端到端的可微網(wǎng)絡(luò)。雖然早期的嘗試使用現(xiàn)成的解析器 ,但最近的方法使用 REINFORCE和弱答案監(jiān)督與神經(jīng)模塊聯(lián)合學(xué)習(xí)布局生成模型。雖然 VISPROG 與 NMN 的精神相似,但它比 NMN 有幾個(gè)優(yōu)勢(shì)。

首先,VISPROG 生成高級(jí)程序,在中間步驟調(diào)用經(jīng)過訓(xùn)練的最先進(jìn)的神經(jīng)模型和其他 Python 函數(shù),而不是生成端到端神經(jīng)網(wǎng)絡(luò)。這使得合并符號(hào)化、不可微分的模塊變得很容易。其次,VISPROG 利用LLMs的上下文學(xué)習(xí)能力,通過使用自然語(yǔ)言指令(或視覺問題或待驗(yàn)證的陳述)以及一些示例來(lái)提示LLM(GPT-3)來(lái)生成程序類似的指令及其相應(yīng)的程序,從而無(wú)需為每個(gè)任務(wù)訓(xùn)練專門的程序生成器。


針對(duì)視覺任務(wù)的LLMs的相關(guān)工作。LLMs和情境學(xué)習(xí)已應(yīng)用于視覺任務(wù)。PICa使用 LLM 來(lái)完成基于知識(shí)的 VQA任務(wù)。PICa 通過標(biāo)題、對(duì)象和屬性將圖像中的視覺信息表示為文本,并將該文本表示與問題和上下文示例一起提供給 GPT-3,以直接生成答案。蘇格拉底模型(SM),由不同模態(tài)組成預(yù)訓(xùn)練模型,例如語(yǔ)言(BERT、GPT-2)、視覺語(yǔ)言(CLIP)和音頻語(yǔ)言(mSLAM),執(zhí)行許多零樣本任務(wù),包括圖像字幕、視頻到文本檢索和機(jī)器人規(guī)劃。

然而,在 SM 中,每個(gè)任務(wù)的組成都是預(yù)先確定和固定的。相比之下,VISPROG 通過根據(jù)指令、問題或語(yǔ)句生成程序來(lái)確定如何為每個(gè)實(shí)例構(gòu)建模型。我們展示了 VISPROG 處理復(fù)雜指令的能力,這些指令涉及不同的功能(20 個(gè)模塊)和不同的輸入(文本、圖像和圖像對(duì))、中間(文本、圖像、邊界框、分割掩模)和輸出模式(文本和圖像) 。


與 VISPROG 類似,ProgPrompt 是一項(xiàng)并行工作,展示了LMM從自然語(yǔ)言指令生成類似 python 的機(jī)器人動(dòng)作計(jì)劃的能力。雖然 ProgPrompt 模塊(例如“find”或“grab”)將字符串(通常是對(duì)象名稱)作為輸入,但 VISPROG 程序更為通用。在 VISPROG 程序的每個(gè)步驟中,模塊可以接受先前步驟生成的多個(gè)參數(shù),包括字符串、數(shù)字、算術(shù)和邏輯表達(dá)式或任意 Python 對(duì)象(例如包含邊界框或分段掩碼的 list() 或 dict() 實(shí)例) 。

3 方法(Visual Programming)


在過去的幾年里,人工智能社區(qū)已經(jīng)為許多視覺和語(yǔ)言任務(wù)(例如對(duì)象檢測(cè)、分割、VQA、字幕和文本到圖像生成)創(chuàng)建了高性能、特定于任務(wù)的模型。雖然這些模型中的每一個(gè)都解決了一個(gè)定義明確但范圍狹窄的問題,但我們通常想要在現(xiàn)實(shí)世界中解決的任務(wù)往往更廣泛且定義松散。為了解決此類實(shí)際任務(wù),人們必須收集一個(gè)新的特定于任務(wù)的數(shù)據(jù)集,這可能會(huì)很昂貴,或者精心編寫一個(gè)調(diào)用多個(gè)神經(jīng)模型、圖像處理子例程(例如圖像調(diào)整大小、裁剪、過濾和色彩空間轉(zhuǎn)換)的程序,以及其他計(jì)算(例如數(shù)據(jù)庫(kù)查找,或算術(shù)和邏輯運(yùn)算)。

為我們每天遇到的無(wú)限長(zhǎng)尾的復(fù)雜任務(wù)手動(dòng)創(chuàng)建這些程序不僅需要編程專業(yè)知識(shí),而且速度慢、勞動(dòng)強(qiáng)度大,最終不足以覆蓋所有任務(wù)的空間。如果可以用自然語(yǔ)言描述任務(wù)并讓人工智能系統(tǒng)生成并執(zhí)行任務(wù)無(wú)需任何訓(xùn)練即可對(duì)應(yīng)視覺程序似乎就可以解決問題?

3.1 Large language models for visual programming-用于可視化編程的大型語(yǔ)言模型。


GPT-3 等大型語(yǔ)言模型在上下文中進(jìn)行了少量輸入和輸出演示后,已表現(xiàn)出卓越的泛化到新樣本的能力。例如,用兩個(gè)英語(yǔ)到法語(yǔ)的翻譯示例和一個(gè)新的英語(yǔ)短語(yǔ)來(lái)提示 GPT-3產(chǎn)生了法語(yǔ)翻譯“bonsoir”。請(qǐng)注意,我們不必微調(diào) GPT-3 來(lái)執(zhí)行第三個(gè)短語(yǔ)的翻譯任務(wù)。VISPROG 使用 GPT-3 的上下文學(xué)習(xí)能力來(lái)輸出自然語(yǔ)言指令的視覺程序。

good morning -> bonjourgood day -> bonne journ ?eegood evening ->與上例中的英語(yǔ)和法語(yǔ)翻譯對(duì)類似,我們用指令對(duì)和所需的高級(jí)程序提示 GPT-3。圖3顯示了這樣一個(gè)圖像編輯任務(wù)的提示。上下文示例中的程序是手動(dòng)編寫的,通??梢栽跊]有隨附圖像的情況下構(gòu)建。VISPROG 程序的每一行或程序步驟均由模塊名稱、模塊的輸入?yún)?shù)名稱及其值以及輸出變量名稱組成。

VISPROG 程序通常使用過去步驟的輸出變量作為未來(lái)步驟的輸入。我們使用描述性模塊名稱(例如“Select”、“ColorPop”、“Replace”)、參數(shù)名稱(例如“image”、“object”、“query”)和變量名稱(例如“IMAGE”、“OBJ”)讓GPT-3了解各個(gè)模塊的輸入輸出類型以及功能。在執(zhí)行期間,輸出變量可用于存儲(chǔ)任意數(shù)據(jù)類型。例如,“OBJ”是圖像中的對(duì)象列表,其中包含與每個(gè)對(duì)象關(guān)聯(lián)的蒙版、邊界框和文本(例如類別名稱)。

572f30ac-5962-11ee-939d-92fbcf53809c.png

圖 3.VISPROG 中的程序生成。這些上下文示例與新的自然語(yǔ)言指令一起被輸入到 GPT-3 中。在不觀察圖像或其內(nèi)容的情況下,VISPROG 會(huì)生成一個(gè)程序(圖 3 底部),該程序可以在輸入圖像上執(zhí)行以執(zhí)行所描述的任務(wù)。

3.2 Modules-模塊介紹


VISPROG 目前支持 20 個(gè)模塊(圖 2),用于實(shí)現(xiàn)圖像理解、圖像處理(包括生成)、知識(shí)檢索以及執(zhí)行算術(shù)和邏輯運(yùn)算等功能。

在 VISPROG 中,每個(gè)模塊都實(shí)現(xiàn)為一個(gè) Python 類(代碼 1),該類具有以下方法:(i) 解析該行以提取輸入?yún)?shù)名稱和值以及輸出變量名稱;(ii) 執(zhí)行可能涉及經(jīng)過訓(xùn)練的神經(jīng)模型的必要計(jì)算,并使用輸出變量名稱和值更新程序狀態(tài);(iii) 使用 html 直觀地總結(jié)該步驟的計(jì)算(稍后用于創(chuàng)建視覺原理)。


向 VISPROG 添加新模塊只需實(shí)現(xiàn)并注冊(cè)一個(gè)模塊類,而使用該模塊的程序的執(zhí)行則由 VISPROG 解釋器自動(dòng)處理,這將在下面介紹。

575a5b60-5962-11ee-939d-92fbcf53809c.png


圖 2. VISPROG 當(dāng)前支持的模塊。紅色模塊使用神經(jīng)模型(OWL-ViT、DSFD、MaskForme、CLIP、ViLT和 Stable Diffusion)。藍(lán)色模塊使用圖像處理和其他 python 子例程。這些模塊在由自然語(yǔ)言指令生成的程序中調(diào)用。添加新模塊來(lái)擴(kuò)展 VISPROG 的功能非常簡(jiǎn)單(代碼 1)。

classVisProgModule():
def__init__(self):
#loadatrainedmodel;movetoGPU
defhtml(self,inputs:List,output:Any):
#returnanhtmlstringvisualizingstepI/O

defparse(self,step:str):
#parsestepandreturnlistofinputvalues/variablenames
#andoutputvariablename

defexecute(self,step:str,state:Dict):
inputs,input_var_names,output_var_name=self.parse(step)
#getvaluesofinputvariablesfromstate
forvar_nameininput_var_names:
inputs.append(state[var_name])

#performcomputationusingtheloadedmodel
output=some_computation(inputs)

#updatestate
state[output_var_name]=output

#visualsummaryofthestepcomputation
step_html=self.html(inputs,output)
returnoutput,step_html

3.3 Program Execution-程序執(zhí)行

程序的執(zhí)行由解釋器處理。解釋器使用輸入初始化程序狀態(tài)(將變量名稱映射到其值的字典),并逐行執(zhí)行程序,同時(shí)使用該行中指定的輸入調(diào)用正確的模塊。執(zhí)行每個(gè)步驟后,程序狀態(tài)將使用該步驟輸出的名稱和值進(jìn)行更新。

3.4 Visual Rationale-視覺原理

除了執(zhí)行必要的計(jì)算之外,每個(gè)模塊類還實(shí)現(xiàn)了一個(gè)名為 html() 的方法,以直觀地總結(jié) HTML 片段中模塊的輸入和輸出。解釋器只需將所有程序步驟的 HTML 摘要拼接成可視化原理(圖 4),即可用于分析程序的邏輯正確性以及檢查程序的內(nèi)部結(jié)構(gòu)的中間輸出。視覺原理還使用戶能夠理解失敗的原因,并盡可能地調(diào)整自然語(yǔ)言指令以提高性能。

5778bdda-5962-11ee-939d-92fbcf53809c.png


圖 4. VISPROG 生成的視覺原理。這些基本原理直觀地總結(jié)了圖像編輯(上)和 NLVR 任務(wù)(下)推理期間生成的程序中每個(gè)計(jì)算步驟的輸入和輸出。

4 Tasks-具體任務(wù)應(yīng)用

VISPROG 提供了一個(gè)靈活的框架,可應(yīng)用于各種復(fù)雜的視覺任務(wù)。我們?cè)?4 項(xiàng)任務(wù)上評(píng)估 VISPROG,這些任務(wù)需要空間推理、多圖像推理、知識(shí)檢索以及圖像生成和操作等能力。圖 5 總結(jié)了用于這些任務(wù)的輸入、輸出和模塊。我們現(xiàn)在描述這些任務(wù)、它們的評(píng)估設(shè)置以及上下文示例的選擇。

578d4548-5962-11ee-939d-92fbcf53809c.png

圖 5.我們?cè)谝唤M不同的任務(wù)上評(píng)估 VISPROG。這些任務(wù)涵蓋各種輸入和輸出,并盡可能重用模塊(Loc、FaceDet、VQA)。

4.1 Compositional Visual Question Answering-組合式視覺問答

VISPROG 是組合式的,這使得它適合組合式、多步驟的視覺問答任務(wù):GQA。GQA 任務(wù)的模塊包括用于開放詞匯本地化的模塊、VQA 模塊、給定邊界框坐標(biāo)或空間介詞(例如上、左等)的裁剪圖像區(qū)域的函數(shù)、計(jì)數(shù)框的模塊以及用于計(jì)算框數(shù)量的模塊。評(píng)估 Python 表達(dá)式。例如,考慮以下問題:“小卡車是在戴頭盔的人的左邊還是右邊?”。VISPROG 首先定位“戴頭盔的人”,裁剪這些人左側(cè)(或右側(cè))的區(qū)域,檢查該側(cè)是否有“小卡車”,如果有則返回“左”,否則返回“右”。

VISPROG 使用基于 VILT 的問答模塊,但 VISPROG 不是簡(jiǎn)單地將復(fù)雜的原始問題傳遞給 VILT,而是調(diào)用它來(lái)執(zhí)行更簡(jiǎn)單的任務(wù),例如識(shí)別部分圖像中的內(nèi)容。因此,我們生成的 GQA VISPROG 不僅比 VILT 更容易解釋,而且更準(zhǔn)確(表 1)。或者,我們可以完全消除對(duì) ViLT 等 QA 模型的需求,并使用 CLIP 和對(duì)象檢測(cè)器等其他系統(tǒng),但我們將其留待未來(lái)研究。

評(píng)估。為了限制使用 GPT-3 生成程序所花費(fèi)的資金,我們創(chuàng)建了一個(gè) GQA 子集用于評(píng)估。GQA 中的每個(gè)問題都標(biāo)有問題類型。為了評(píng)估不同的問題類型集(~ 100 個(gè)詳細(xì)類型),我們從平衡的 val (k = 5) 和 testdev (k = 20) 集中隨機(jī)抽取每個(gè)問題類型最多 k 個(gè)樣本。提示。我們使用所需的 VISPROG 程序手動(dòng)注釋平衡訓(xùn)練集中的 31 個(gè)隨機(jī)問題。用程序注釋問題很容易,需要寫下回答該特定問題所需的推理鏈。我們向 GPT-3 提供了較小的上下文示例子集,從該列表中隨機(jī)采樣,以減少回答每個(gè) GQA 問題的成本。

579b246a-5962-11ee-939d-92fbcf53809c.png

表 1.GQA 測(cè)試開發(fā)結(jié)果。我們報(bào)告原始 GQA 測(cè)試開發(fā)集的一個(gè)子集的性能

4.2 Zero-Shot Reasoning on Image Pairs-圖像對(duì)上的零樣本推理

VQA 模型經(jīng)過訓(xùn)練可以回答有關(guān)單個(gè)圖像的問題。在實(shí)踐中,人們可能需要一個(gè)系統(tǒng)來(lái)回答有關(guān)圖像集合的問題。例如,用戶可以要求系統(tǒng)解析他們的假期相冊(cè)并回答以下問題:“在我們看到埃菲爾鐵塔的第二天,我們參觀了哪個(gè)地標(biāo)?”。

我們展示了 VISPROG 使用單圖像 VQA 系統(tǒng)解決涉及多圖像的任務(wù)而無(wú)需對(duì)多圖像示例進(jìn)行訓(xùn)練的能力,而不是采集昂貴的數(shù)據(jù)集并訓(xùn)練多圖像模型。我們?cè)?NLVRV2基準(zhǔn)測(cè)試中展示了這種能力,其中涉及驗(yàn)證有關(guān)圖像對(duì)的語(yǔ)句。通常,應(yīng)對(duì) NLVRV2 挑戰(zhàn)需要訓(xùn)練自定義架構(gòu),將圖像對(duì)作為 NLVRV2 訓(xùn)練集的輸入。

相反,VISPROG 通過將復(fù)雜的語(yǔ)句分解為有關(guān)單個(gè)圖像的簡(jiǎn)單問題和涉及算術(shù)和邏輯運(yùn)算符的 Python 表達(dá)式以及圖像級(jí)問題的答案來(lái)實(shí)現(xiàn)此目的。VQA模型VILT-VQA用于獲取圖像級(jí)答案,并評(píng)估python表達(dá)式以驗(yàn)證該語(yǔ)句。評(píng)估。我們通過從 NLVRV2 開發(fā)集中抽取 250 個(gè)隨機(jī)樣本來(lái)創(chuàng)建一個(gè)小型驗(yàn)證集,以指導(dǎo)提示選擇,并在 NLVRV2 的完整公共測(cè)試集上測(cè)試泛化。

提示。我們針對(duì) NLVRV2 訓(xùn)練集中的 16 個(gè)隨機(jī)語(yǔ)句對(duì) VISPROG 程序進(jìn)行采樣和注釋。由于其中一些示例是冗余的(類似的程序結(jié)構(gòu)),我們還通過刪除 4 個(gè)冗余示例來(lái)創(chuàng)建 12 個(gè)示例的精選子集。

4.3 Factual Knowledge Object Tagging-事實(shí)知識(shí)對(duì)象標(biāo)記

我們經(jīng)常想要識(shí)別圖像中我們不知道名字的人和物體。例如,我們可能想要識(shí)別名人、政治家、電視節(jié)目中的人物、國(guó)家國(guó)旗、公司徽標(biāo)、流行汽車及其制造商、生物物種等等。解決這個(gè)任務(wù)不僅需要定位人、面孔和物體,還需要在外部知識(shí)庫(kù)中查找事實(shí)知識(shí)來(lái)構(gòu)建一組類別進(jìn)行分類,例如電視節(jié)目中角色的名字。我們將此任務(wù)簡(jiǎn)稱為事實(shí)知識(shí)對(duì)象標(biāo)記或知識(shí)標(biāo)記。為了解決知識(shí)標(biāo)簽問題,VISPROG 使用 GPT-3 作為隱式知識(shí)庫(kù),可以通過自然語(yǔ)言提示進(jìn)行查詢,例如“列出電視節(jié)目《生活大爆炸》中的主要角色,用逗號(hào)分隔?!?br />
然后,CLIP 圖像分類模塊可以使用生成的類別列表,該模塊對(duì)定位和人臉檢測(cè)模塊生成的圖像區(qū)域進(jìn)行分類。VISPROG 的程序生成器根據(jù)自然語(yǔ)言指令中的上下文自動(dòng)確定是使用面部檢測(cè)器還是開放詞匯定位器。VISPROG 還估計(jì)檢索到的類別列表的最大大小。

例如,“標(biāo)記前 5 個(gè)德國(guó)汽車公司的徽標(biāo)”會(huì)生成一個(gè)包含 5 個(gè)類別的列表,而“標(biāo)記德國(guó)汽車公司的徽標(biāo)”則會(huì)生成一個(gè)由 GPT-3 確定的任意長(zhǎng)度的列表,截止值為 20這使得用戶可以通過調(diào)整指令輕松控制分類過程中的噪聲。評(píng)估。為了評(píng)估 VISPROG 在此任務(wù)上的表現(xiàn),我們?cè)?46 個(gè)圖像中注釋了 100 個(gè)標(biāo)記指令,這些圖像需要外部知識(shí)來(lái)標(biāo)記 253 個(gè)對(duì)象實(shí)例,包括流行文化、政治、體育和藝術(shù)領(lǐng)域的人物,以及各種對(duì)象(例如汽車、旗幟、 水果、電器、家具等)。


對(duì)于每條指令,我們通過精度(正確預(yù)測(cè)框的分?jǐn)?shù))和召回率(正確預(yù)測(cè)的地面實(shí)況對(duì)象的分?jǐn)?shù))來(lái)衡量定位和標(biāo)記性能。標(biāo)記度量要求預(yù)測(cè)的邊界框和關(guān)聯(lián)的標(biāo)簽或類標(biāo)簽都是正確的,而本地化會(huì)忽略標(biāo)簽。為了確定定位的正確性,我們使用 IoU 閾值 0.5。我們通過 F1 分?jǐn)?shù)(指令間平均精度和召回率的調(diào)和平均值)總結(jié)定位和標(biāo)記性能。提示。我們?yōu)榇巳蝿?wù)創(chuàng)建了 14 個(gè)上下文示例。請(qǐng)注意,這些示例的說(shuō)明是幻覺的,即沒有圖像與這些示例相關(guān)聯(lián)。

4.4 Image Editing with Natural Language-使用自然語(yǔ)言進(jìn)行圖像編輯

文本到圖像的生成在過去幾年中通過 DALL-E、Parti 和 Stable Diffusion等模型取得了令人印象深刻的進(jìn)步。然而,這些模型仍然無(wú)法處理諸如“用 :p 隱藏 Daniel Craig 的臉部”(去識(shí)別化或隱私保護(hù))或“創(chuàng)建 Daniel Craig 的流行顏色并模糊背景”之類的提示(對(duì)象突出顯示),盡管使用面部檢測(cè)、分割和圖像處理模塊的組合以編程方式實(shí)現(xiàn)這些相對(duì)簡(jiǎn)單。實(shí)現(xiàn)復(fù)雜的編輯,例如“用戴著墨鏡的巴拉克·奧巴馬替換巴拉克·奧巴馬”(對(duì)象替換),首先需要識(shí)別感興趣的對(duì)象,生成要替換的對(duì)象的掩模,然后調(diào)用圖像修復(fù)模型(我們使用穩(wěn)定擴(kuò)散) )與原始圖像、指定要替換的像素的掩碼以及要在該位置生成的新像素的描述。


當(dāng)VISPROG配備必要的模塊和示例程序時(shí),可以輕松處理非常復(fù)雜的指令。評(píng)估。為了測(cè)試 VISPROG 的去識(shí)別、對(duì)象突出顯示和對(duì)象替換的圖像編輯指令,我們收集了 65 張圖像中的 107 條指令。我們手動(dòng)對(duì)預(yù)測(cè)的正確性和報(bào)告準(zhǔn)確性進(jìn)行評(píng)分。請(qǐng)注意,只要生成的圖像在語(yǔ)義上正確,我們就不會(huì)懲罰使用穩(wěn)定擴(kuò)散的對(duì)象替換子任務(wù)的視覺偽影。提示。與知識(shí)標(biāo)記類似,我們?yōu)榇巳蝿?wù)創(chuàng)建了 10 個(gè)沒有關(guān)聯(lián)圖像的上下文示例。

5 實(shí)驗(yàn)與分析

我們的實(shí)驗(yàn)評(píng)估了提示數(shù)量對(duì) GQA 和 NLVR 性能的影響(第 5.1 節(jié)),比較各種提示策略的 VISPROG 在四個(gè)任務(wù)上的泛化(第 5.2 節(jié)),分析每個(gè)任務(wù)的錯(cuò)誤來(lái)源(圖 9),并研究視覺原理在診斷錯(cuò)誤和通過指令調(diào)整提高 VISPROG 性能方面的實(shí)用性(第 5.3 節(jié))。

5.1 提示大小的影響

圖 6 顯示,隨著 GQA 和 NLVR 提示中使用的上下文示例數(shù)量的增加,驗(yàn)證性能逐漸提高。每次運(yùn)行都會(huì)根據(jù)隨機(jī)種子隨機(jī)選擇帶注釋的上下文示例的子集。


我們還發(fā)現(xiàn),對(duì)隨機(jī)種子進(jìn)行多數(shù)投票所帶來(lái)的性能始終優(yōu)于運(yùn)行中的平均性能。這與數(shù)學(xué)推理問題的思想鏈推理文獻(xiàn)中的發(fā)現(xiàn)是一致的。在 NLVR 上,VISPROG 的性能在提示數(shù)少于 GQA 的情況下達(dá)到飽和。我們認(rèn)為這是因?yàn)?NLVRV2 程序比 GQA 需要更少的模塊,因此使用這些模塊的演示也更少。


57a2479a-5962-11ee-939d-92fbcf53809c.png


圖 6. GQA 和 NLVRV2 驗(yàn)證集上的上下文示例數(shù)量提高了性能。誤差線代表 5 次運(yùn)行的 95% 置信區(qū)間。來(lái)自相同運(yùn)行的預(yù)測(cè)用于多數(shù)投票。(第 5.1 節(jié))

5.2 概括

GQA。在表1中, 我們?cè)?GQA testdev集上評(píng)估不同的提示策略。對(duì)于在驗(yàn)證集上評(píng)估的最大提示大?。?4 個(gè)上下文中的示例),我們比較了由 VISPROG 在驗(yàn)證集上的 5 次運(yùn)行中選擇的最佳提示組成的隨機(jī)策略(每次運(yùn)行從 31 個(gè)帶注釋的示例中隨機(jī)采樣上下文中的示例) )以及多數(shù)投票策略,該策略在 5 次運(yùn)行中對(duì)每個(gè)問題進(jìn)行最大共識(shí)預(yù)測(cè)。雖然“隨機(jī)”提示僅略微優(yōu)于 VILT-VQA,但投票帶來(lái)了 2.7 個(gè)百分點(diǎn)的顯著收益。這是因?yàn)樵诙啻芜\(yùn)行中進(jìn)行投票,每次運(yùn)行都有一組不同的上下文示例,有效地增加了每個(gè)預(yù)測(cè)看到的上下文示例的總數(shù)。


我們還評(píng)估了一個(gè)手動(dòng)策劃的提示,其中包含 20 個(gè)示例,其中 16 個(gè)來(lái)自 31 個(gè)帶注釋的示例,以及 4 個(gè)額外的幻覺示例,旨在更好地覆蓋驗(yàn)證集中觀察到的失敗案例。精心策劃的提示的性能與投票策略一樣好,同時(shí)使用的計(jì)算量減少了 5 倍,凸顯了提示工程的前景。NLVR。表2 顯示了 VISPROG 在 NLVRV2 測(cè)試集上的性能,并比較了隨機(jī)、投票和策劃的提示策略與 GQA 的效果。雖然 VISPROG 在無(wú)需對(duì)圖像對(duì)進(jìn)行訓(xùn)練的情況下零樣本執(zhí)行 NLVR 任務(wù),但我們報(bào)告了 VILT-NLVR,這是一種在 NLVRV2 上進(jìn)行微調(diào)的 VILT 模型,作為性能上限。


雖然落后上限幾個(gè)點(diǎn),但 VISPROG 僅使用單圖像 VQA 模型進(jìn)行圖像理解和 LLM 進(jìn)行推理,顯示出強(qiáng)大的零樣本性能。請(qǐng)注意,VISPROG 使用 VILT-VQA 作為其 VQA 模塊,該模塊在 VQAV2 單圖像問答任務(wù)上進(jìn)行訓(xùn)練,而不是在 NLVRV2 上進(jìn)行訓(xùn)練。


57b3004e-5962-11ee-939d-92fbcf53809c.png


表 2. NLVRV2 測(cè)試結(jié)果。VISPROG 執(zhí)行 NLVR 零樣本,即無(wú)需在圖像對(duì)上訓(xùn)練任何模塊。VILT-NLVR 是在 NLVRV2 上微調(diào)的 VILT 模型,用作上限。Knowledge Tagging。表3 顯示了知識(shí)標(biāo)記任務(wù)的本地化和標(biāo)記性能。此任務(wù)的所有指令不僅需要開放詞匯本地化,還需要查詢知識(shí)庫(kù)以獲取類別來(lái)標(biāo)記本地化對(duì)象。

這使得僅靠物體檢測(cè)器來(lái)說(shuō)這是一項(xiàng)不可能完成的任務(wù)。使用原始指令,VISPROG 在標(biāo)記方面取得了令人印象深刻的 63.7% F1 分?jǐn)?shù),其中涉及正確本地化和命名對(duì)象,僅在本地化方面就取得了 80.6% F1 分?jǐn)?shù)。VISPROG 中的視覺原理允許通過修改指令進(jìn)一步提高性能。

57d37aae-5962-11ee-939d-92fbcf53809c.png


表 3. 知識(shí)標(biāo)記結(jié)果。該表顯示了原始指令的性能以及在檢查視覺原理以了解特定于實(shí)例的錯(cuò)誤來(lái)源后創(chuàng)建的修改指令的性能。Image Editing。


表4 顯示了語(yǔ)言引導(dǎo)圖像編輯任務(wù)的性能。圖 7 顯示了 VISPROG 中當(dāng)前模塊集可能進(jìn)行的廣泛操作,包括面部操作、通過顏色彈出和背景模糊等風(fēng)格效果突出顯示圖像中的一個(gè)或多個(gè)對(duì)象,以及通過替換關(guān)鍵元素來(lái)更改場(chǎng)景上下文 在場(chǎng)景中(例如沙漠)。


57e3b2fc-5962-11ee-939d-92fbcf53809c.png


表 4. 圖像編輯結(jié)果。我們手動(dòng)評(píng)估每個(gè)預(yù)測(cè)的語(yǔ)義正確性。


57ecbe60-5962-11ee-939d-92fbcf53809c.png


圖 7. 圖像編輯(頂部)和知識(shí)標(biāo)記任務(wù)(底部)的定性結(jié)果。

5.3. 視覺原理的實(shí)用性

誤差分析。

VISPROG 的可視化原理可以對(duì)故障模式進(jìn)行徹底分析。在圖 9 中,我們檢查每個(gè)任務(wù)約 100 個(gè)樣本的基本原理,以分解錯(cuò)誤來(lái)源。此類分析為提高 VISPROG 在各種任務(wù)上的性能提供了明確的途徑。例如,由于不正確的程序是 GQA 錯(cuò)誤的主要來(lái)源,影響了 16% 的樣本,因此可以通過提供更多類似于失敗問題的上下文示例來(lái)提高 GQA 的性能。通過將用于實(shí)現(xiàn)高錯(cuò)誤模塊的模型升級(jí)為性能更高的模塊,也可以提高性能。例如,用更好的 NLVR VQA 模型替換 VILT-VQA 模型可以將性能提高高達(dá) 24%(圖 9)。同樣,改進(jìn)用于實(shí)現(xiàn)“列表”和“選擇”模塊(知識(shí)標(biāo)記和圖像編輯任務(wù)的主要錯(cuò)誤來(lái)源)的模型可以顯著減少錯(cuò)誤。

580b7f26-5962-11ee-939d-92fbcf53809c.png

圖 9. VISPROG 中的誤差源。

指令調(diào)整。

為了有用,視覺原理最終必須允許用戶提高系統(tǒng)在其任務(wù)中的性能。對(duì)于知識(shí)標(biāo)記和圖像編輯任務(wù),我們研究視覺原理是否可以幫助用戶修改或調(diào)整指令以實(shí)現(xiàn)更好的性能。圖 8 顯示了通過視覺原理揭示的本地化錯(cuò)誤如何使用戶能夠修改指令,以便更好地查詢本地化模塊。修改指令的其他方式包括為知識(shí)檢索提供更好的查詢或?yàn)檫x擇模塊提供類別名稱以將搜索限制到屬于該類別的分段區(qū)域。表 3 和表 4 顯示,指令調(diào)整可為知識(shí)標(biāo)記和圖像編輯任務(wù)帶來(lái)顯著收益。

581ef9e8-5962-11ee-939d-92fbcf53809c.png


圖 8. 使用視覺原理調(diào)整指令。通過揭示失敗的原因,VISPROG 允許用戶修改原始指令以提高性能。

5 總結(jié)

VISPROG 提出可視化編程作為一種簡(jiǎn)單而有效的方式,將LMMs的推理能力用于復(fù)雜的視覺任務(wù)。VISPROG 展示了強(qiáng)大的性能,同時(shí)生成高度可解釋的視覺原理。我們相信,研究整合用戶反饋以提高 VISPROG 等神經(jīng)符號(hào)系統(tǒng)性能的新方法是構(gòu)建下一代通用視覺系統(tǒng)的一個(gè)令人興奮的方向。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48788

    瀏覽量

    246989
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1249

    瀏覽量

    21671
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1706

    瀏覽量

    46598

原文標(biāo)題:?基于文本提示就可自動(dòng)實(shí)現(xiàn)復(fù)雜計(jì)算機(jī)視覺任務(wù)?

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類一樣憑直覺產(chǎn)生
    的頭像 發(fā)表于 11-16 16:38 ?5443次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法

    機(jī)器視覺計(jì)算機(jī)視覺的關(guān)系簡(jiǎn)述

    ,以控制相應(yīng)的行為。因此,可以說(shuō),計(jì)算機(jī)視覺為機(jī)器視覺提供圖像和景物分析的理論及算法基礎(chǔ),機(jī)器視覺計(jì)算機(jī)
    發(fā)表于 05-13 14:57

    自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺任務(wù)?

    Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自動(dòng)駕駛
    發(fā)表于 07-30 06:49

    基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)

    基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)OpencV是用來(lái)實(shí)現(xiàn)計(jì)算機(jī)視覺相關(guān)技術(shù)的開放源碼工作庫(kù),是
    發(fā)表于 11-23 21:06 ?0次下載
    基于OpenCV的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>技術(shù)<b class='flag-5'>實(shí)現(xiàn)</b>

    自動(dòng)圖片文本辨認(rèn)是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)處理大型數(shù)據(jù)的重要案例

    計(jì)算機(jī)視覺的角度來(lái)看,雖然對(duì)人類來(lái)說(shuō),看真實(shí)的文件和影印版的沒有太大差別,但對(duì)計(jì)算機(jī)就大不一樣了:文件可以通過搜索被檢索,用戶輸入一些單詞就可以從文件中找到目標(biāo)對(duì)象。但在圖像上,檢索
    的頭像 發(fā)表于 10-13 08:54 ?3531次閱讀

    計(jì)算機(jī)視覺與機(jī)器視覺區(qū)別

     “計(jì)算機(jī)視覺”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能,對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。計(jì)算機(jī)
    的頭像 發(fā)表于 12-08 09:27 ?1.3w次閱讀

    計(jì)算機(jī)視覺中的重要研究方向

    計(jì)算機(jī)視覺是一門研究如何讓計(jì)算機(jī)達(dá)到人類那樣看的技術(shù)。使用攝像頭和電腦來(lái)代替人類完成一些復(fù)雜的工作,例如對(duì)目標(biāo)進(jìn)行分類、識(shí)別、分割、跟蹤等,計(jì)算機(jī)
    的頭像 發(fā)表于 11-19 14:32 ?1.2w次閱讀

    用于計(jì)算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)集

    ? 計(jì)算機(jī)視覺使計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容。計(jì)算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以
    的頭像 發(fā)表于 12-31 09:33 ?2587次閱讀

    用于計(jì)算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)集

    計(jì)算機(jī)視覺使計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容。計(jì)算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以
    的頭像 發(fā)表于 02-12 16:13 ?1578次閱讀

    機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的前20個(gè)圖像數(shù)據(jù)集

    計(jì)算機(jī)視覺使計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容。計(jì)算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以
    發(fā)表于 01-28 07:40 ?5次下載
    機(jī)器學(xué)習(xí)和<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的前20個(gè)圖像數(shù)據(jù)集

    計(jì)算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用

    本文將介紹計(jì)算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用,對(duì)任何聽說(shuō)過計(jì)算機(jī)視覺但不確定它是什么以及如何應(yīng)用的人,本文是了解計(jì)算機(jī)
    的頭像 發(fā)表于 11-08 10:10 ?1909次閱讀

    計(jì)算機(jī)視覺的概念和主要任務(wù)

    作為人工智能的關(guān)鍵領(lǐng)域之一的計(jì)算機(jī)視覺近期再次成為了熱點(diǎn),那么你真的了解什么是計(jì)算機(jī)視覺嗎?
    的頭像 發(fā)表于 07-17 11:20 ?1860次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別 機(jī)器視覺計(jì)算機(jī)視覺是兩個(gè)相關(guān)但不同的概念。雖然許多人使用這兩個(gè)術(shù)語(yǔ)
    的頭像 發(fā)表于 08-09 16:51 ?2420次閱讀

    計(jì)算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    ,旨在實(shí)現(xiàn)對(duì)圖像和視頻的自動(dòng)分析和理解。 機(jī)器視覺 機(jī)器視覺計(jì)算機(jī)視覺的一個(gè)分支,主要應(yīng)用于工
    的頭像 發(fā)表于 07-09 09:22 ?809次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    。機(jī)器視覺的研究目標(biāo)是讓機(jī)器具有類似人類的視覺能力,能夠自動(dòng)、準(zhǔn)確地完成各種視覺任務(wù)計(jì)算機(jī)
    的頭像 發(fā)表于 07-16 10:23 ?1031次閱讀
    主站蜘蛛池模板: 五月婷婷深爱五月 | 午夜色网站 | 在线观看永久免费视频网站 | 免费无码看av的网站 | 狠狠色丁香婷婷综合 | 三级在线网站 | 37pao强力打造免费高速高清 | 模特精品视频一区 | 黄 色 片免费观看 | 在线a免费 | 亚洲高清国产拍精品影院 | 五月婷婷在线观看视频 | 色综合天天综合网站中国 | 天天做天天爱天天爽天天综合 | 亚洲精品久久久久久久蜜桃 | 五月婷婷激情 | 日韩午夜片 | 亚洲国内精品自在线影视 | 欧美三级免费看 | 免费视频精品 | 天天摸天天碰中文字幕 | 久久综合九色综合98一99久久99久 | 日本大片免aaa费观看视频 | 深爱五月激情网 | 天天做日日爱 | 加勒比视频网站 | 国产一级做a爱免费观看 | 欧美国产在线一区 | 小泽玛利亚在线观看123 | 亚洲午夜精品久久久久久抢 | 日本黄色大片在线观看 | 日操夜干| 中文字幕色网站 | 中国又粗又大又爽的毛片 | 亚洲国产精品综合久久网络 | 在线视频黄 | 人人澡人 | 8888四色奇米在线观看不卡 | 黄网站观看 | 国产高清一区二区三区四区 | 国产成人a |