在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于VLP模型的語(yǔ)義對(duì)齊機(jī)制

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-10-28 11:09 ? 次閱讀

研究動(dòng)機(jī)

對(duì)齊不同模態(tài)的語(yǔ)義是多模態(tài)預(yù)訓(xùn)練(VLP)模型的一個(gè)重要能力。然而,VLP模型的內(nèi)部對(duì)齊機(jī)制是不可知的。許多研究已經(jīng)關(guān)注到這個(gè)問(wèn)題,其中一個(gè)主流方法是通過(guò)精心設(shè)計(jì)的分類(lèi)探針實(shí)驗(yàn)來(lái)探究模型的對(duì)齊能力[1, 2]。但是我們認(rèn)為簡(jiǎn)單的分類(lèi)任務(wù)不能準(zhǔn)確地探究的這個(gè)問(wèn)題:第一,這些分類(lèi)任務(wù)仍然將VLP模型當(dāng)作黑盒子,只能從分類(lèi)任務(wù)的指標(biāo)上分析模型在某一個(gè)方面的對(duì)齊效果;第二,很多分類(lèi)任務(wù)只需要使用圖片-文本對(duì)中的部分信息就可以完成(例如一個(gè)區(qū)域,一個(gè)詞組或者兩者都使用)。

b45ed2a6-5606-11ed-a3b6-dac502259ad0.png

圖1:給出1張圖片與6個(gè)句子,測(cè)試不同的VLP模型會(huì)選擇哪個(gè)句子與圖片最匹配

為了進(jìn)一步說(shuō)明這一點(diǎn),圖1展示了1張圖片和6個(gè)句子,其中句子(a)是對(duì)圖片的合理描述,(b)-(f)是不可讀的5個(gè)句子。令人驚訝的是,我們測(cè)試的5個(gè)預(yù)訓(xùn)練模型都沒(méi)有選擇合理的描述(a),這促使我們?nèi)ド钊胙芯縑LP模型會(huì)認(rèn)為哪一種句子是更符合圖片的,即從文本視角探究多模態(tài)預(yù)訓(xùn)練模型的語(yǔ)義對(duì)齊機(jī)制。

如果人工去生成圖1所示的不可讀的句子,然后再去測(cè)試VLP模型是否對(duì)其有偏好是非常困難的,本文則考慮利用自動(dòng)化的方式生成VLP模型偏好的句子。具體而言,我們可以把VLP模型認(rèn)為哪個(gè)句子更好(匹配分?jǐn)?shù)越大)作為一種反饋,來(lái)訓(xùn)練一個(gè)多模態(tài)生成模型,通過(guò)最大化匹配分?jǐn)?shù)來(lái)生成為圖片生成描述。通過(guò)這種方式,生成模型會(huì)放大VLP模型對(duì)句子的偏好并反映到生成的句子中。所以我們提出一個(gè)新的探針實(shí)驗(yàn):使用圖像描述(captioning)模型,通過(guò)分析生成的句子來(lái)探究VLP模型的多模態(tài)的語(yǔ)義對(duì)齊機(jī)制。

02

貢獻(xiàn)

1.我們提出了一個(gè)新的探針實(shí)驗(yàn):使用圖像描述模型,通過(guò)分析生成描述來(lái)探究VLP模型的多模態(tài)的語(yǔ)義對(duì)齊機(jī)制。

2.我們?cè)?個(gè)主流VLP模型上進(jìn)行了探針實(shí)驗(yàn),通過(guò)captioning模型生成的句子,分析了每一個(gè)VLP模型的語(yǔ)義對(duì)齊能力。

3.通過(guò)5個(gè)VLP模型反映出的對(duì)齊問(wèn)題,總結(jié)了目前VLP模型存在的3個(gè)缺陷并進(jìn)行了驗(yàn)證。

03

探針實(shí)驗(yàn)與分析

我們選擇了5個(gè)主流的VLP模型,包括UNITER[3],ROSITA[4],ViLBERT[5],CLIP[6]以及LXMERT[7]。

我們使用COCO數(shù)據(jù)集作為我們探針實(shí)驗(yàn)數(shù)據(jù)集,使用FC model[8]作為實(shí)驗(yàn)的captioning模型。由于VLP的匹配分?jǐn)?shù)不能直接反饋到圖像描述模型,所以我們使用SCST[8]的方法來(lái)優(yōu)化。

經(jīng)過(guò)VLP模型匹配分?jǐn)?shù)的優(yōu)化后,captioning模型生成的句子可以獲得很高的匹配分?jǐn)?shù)(表1左邊所示),這說(shuō)明VLP模型認(rèn)為這些句子與圖片更匹配了。直覺(jué)上,這些句子應(yīng)該更好地描述了圖像中的內(nèi)容,但是我們使用圖像描述指標(biāo)測(cè)試這些句子卻發(fā)現(xiàn),它們的指標(biāo)下降了非常多(表1右邊所示),這促使我們?nèi)z查一下生成的句子發(fā)生了哪些變化。

表1:生成句子在圖像描述指標(biāo)和VLP模型匹配分?jǐn)?shù)上的測(cè)試結(jié)果。CE表示使用cross-entropy作為loss訓(xùn)練的基礎(chǔ)模型。b476efbc-5606-11ed-a3b6-dac502259ad0.png

b48f0cdc-5606-11ed-a3b6-dac502259ad0.png圖2經(jīng)過(guò)不同VLP模型的匹配分?jǐn)?shù)優(yōu)化后生成的句子

圖2展示了經(jīng)過(guò)匹配分?jǐn)?shù)優(yōu)化后生成的的句子,我們可以發(fā)現(xiàn)幾乎所有的句子都已經(jīng)變得不可讀。我們從困惑度(perplexity),句子長(zhǎng)度,視覺(jué)詞的數(shù)量等角度對(duì)這些句子進(jìn)行定量分析,發(fā)現(xiàn)這些句子已經(jīng)與CE模型生成的句子有了非常大的變化(如表2所示)。不僅如此,我們還發(fā)現(xiàn)每一個(gè)VLP模型似乎都對(duì)某些固定的句式有偏好,如圖2中,被CLIP優(yōu)化的captioning模型,生成的句子的前綴帶(prefix)經(jīng)常含有與“a image of”相關(guān)的詞組。我們利用正則表達(dá)式,對(duì)這些句子的句式(pattern)進(jìn)行進(jìn)行總結(jié)(表3),可以發(fā)現(xiàn)每一個(gè)VLP模型都有自己偏好的句式。

表2生成句子的困惑度,長(zhǎng)度,視覺(jué)詞數(shù)量的統(tǒng)計(jì)信息b4d7d7e6-5606-11ed-a3b6-dac502259ad0.png

表3生成句子的句式統(tǒng)計(jì)b50bfe22-5606-11ed-a3b6-dac502259ad0.png

04

VLP模型的缺陷

通過(guò)上述對(duì)生成句子的定量分析,我們發(fā)現(xiàn)現(xiàn)在的預(yù)訓(xùn)練模型主要存在3個(gè)缺陷。為了驗(yàn)證這3個(gè)發(fā)現(xiàn),我們使用了COCO測(cè)試集中的5000張圖片。

(a)VLP模型在判斷一個(gè)圖片-句子對(duì)是否匹配的時(shí)候過(guò)于依賴(lài)圖片中的區(qū)域特征和句子中的視覺(jué)詞,而忽視了全局的語(yǔ)義信息是否對(duì)齊。

我們對(duì)CE生成的句子進(jìn)行兩種處理:替換視覺(jué)詞(Replacing visual words)和替換非視覺(jué)詞(Replacing other words)。從圖3中我們可以發(fā)現(xiàn)替換視覺(jué)詞會(huì)使得VLP模型的匹配分?jǐn)?shù)大幅下降,但是替換非視覺(jué)詞只會(huì)讓匹配分?jǐn)?shù)下降一點(diǎn)。需要注意的是,替換了非視覺(jué)詞后的句子是不可讀的,但是模型還是會(huì)認(rèn)為這些不可讀句子與圖片是匹配的。

b522e524-5606-11ed-a3b6-dac502259ad0.png

圖3替換視覺(jué)詞與替換非視覺(jué)詞的匹配分?jǐn)?shù)與原始分?jǐn)?shù)的對(duì)比

(b)VLP模型會(huì)對(duì)偏好某些固定的句式,因此忽視了更重要的文本信息,如流暢度,語(yǔ)法等。

我們利用表3發(fā)現(xiàn)的句式,提取出CE句子的視覺(jué)詞,把視覺(jué)詞填補(bǔ)到這些句式中。我們僅僅是改變了句子的結(jié)構(gòu),就可以使得這些句子的匹配分?jǐn)?shù)大幅提高(表4所示)。

表4重構(gòu)后句子的匹配分?jǐn)?shù)b5581758-5606-11ed-a3b6-dac502259ad0.png

(c)VLP模型認(rèn)為包含更多視覺(jué)詞的句子更匹配圖片,這會(huì)弱化圖片中關(guān)鍵物體的作用。

我們把每張圖片的ground-truth中的視覺(jué)詞先提取出來(lái),然后每次填充k (k=3,4,5,6,7)個(gè)到句式模版中。從圖4中可以看出,隨著視覺(jué)詞的增加,重構(gòu)句子的匹配分?jǐn)?shù)越來(lái)越高。

b59e4430-5606-11ed-a3b6-dac502259ad0.png

圖4含有k個(gè)視覺(jué)詞句子的匹配分?jǐn)?shù)

05

總結(jié)

在本文中,我們利用圖像描述模型提出一個(gè)新穎的探針?lè)椒āMㄟ^(guò)這個(gè)方法,我們從文本角度分析了VLP模型的語(yǔ)義對(duì)齊機(jī)制。我們發(fā)現(xiàn)現(xiàn)有的VLP模型在對(duì)齊方面有明顯的缺陷。我們希望這些發(fā)現(xiàn)可以促進(jìn)研究者設(shè)計(jì)更合理的模型結(jié)構(gòu)或預(yù)訓(xùn)練任務(wù)。同時(shí),研究者也可以使用我們的探針?lè)椒ǎ治銎湓O(shè)計(jì)的VLP模型是否存在缺陷。

審核編輯:彭靜

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3448

    瀏覽量

    49707
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1218

    瀏覽量

    25158

原文標(biāo)題:EMNLP'22 Findings | 南大提出:從文本視角探究多模態(tài)預(yù)訓(xùn)練模型的語(yǔ)義對(duì)齊能力

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    矩陣,如詞-文檔矩陣和詞-上下文矩陣,然后對(duì)共現(xiàn)矩陣進(jìn)行降維操作,得到詞的表示。其中,基于概率主題模型的方法最為流行,如潛在語(yǔ)義索引(LSI)和隱含狄利克雷分布(LDA)等。這些方法通過(guò)矩陣分解或貝葉斯
    發(fā)表于 05-05 12:17

    基于OWL屬性特征的語(yǔ)義檢索研究

    語(yǔ)義檢索模型中,設(shè)計(jì)本體內(nèi)實(shí)體間匹配度算法,度量概念的相似度,并對(duì)檢索指標(biāo)參數(shù)化。設(shè)計(jì)的原型系統(tǒng)實(shí)驗(yàn)表明,通過(guò)參數(shù)化可以有效調(diào)節(jié)檢索的性能指標(biāo),定制用戶(hù)的檢索。【關(guān)鍵詞】:本體;;Web本體語(yǔ)言
    發(fā)表于 04-24 09:48

    語(yǔ)義對(duì)等網(wǎng)覆蓋路由模型的研究

    現(xiàn)有對(duì)等網(wǎng)覆蓋路由模型只適應(yīng)精確查找,存在不支持語(yǔ)義查詢(xún)的缺點(diǎn)。該文通過(guò)建立語(yǔ)義空間,根據(jù)所存儲(chǔ)數(shù)據(jù)對(duì)象的興趣來(lái)聚集節(jié)點(diǎn),實(shí)現(xiàn)支持語(yǔ)義的對(duì)等網(wǎng)絡(luò)路由
    發(fā)表于 04-18 09:27 ?14次下載

    基于CAN協(xié)議P2P網(wǎng)絡(luò)的語(yǔ)義web服務(wù)模型

    本文提出一種基于 CAN 協(xié)議的P2P 網(wǎng)絡(luò)模型語(yǔ)義web 服務(wù)的發(fā)現(xiàn)機(jī)制,采用OWL-S對(duì)web 服務(wù)進(jìn)行描述以支持基于語(yǔ)義的搜索能力,采用基于CAN 協(xié)議的P2P 網(wǎng)絡(luò)節(jié)點(diǎn)可以直
    發(fā)表于 09-18 10:32 ?11次下載

    基于語(yǔ)義Web服務(wù)的智能電信業(yè)務(wù)模型

    該文針對(duì)電信業(yè)務(wù)領(lǐng)域用戶(hù)需求多樣化的實(shí)際情況,將互聯(lián)網(wǎng)領(lǐng)域語(yǔ)義Web 服務(wù)模型進(jìn)行完善,提出了基于語(yǔ)義Web 服務(wù)的智能電信業(yè)務(wù)模型。在模型
    發(fā)表于 11-20 16:49 ?13次下載

    基于四層樹(shù)狀語(yǔ)義模型的場(chǎng)景語(yǔ)義識(shí)別方法

    場(chǎng)景分類(lèi)的主要方法是基于底層特征的方法和基于視覺(jué)詞包模型的方法,前者缺乏語(yǔ)義描述能力并且時(shí)間復(fù)雜度大,后者識(shí)別率低。借鑒兩類(lèi)方法的優(yōu)勢(shì),提出了基于四層樹(shù)狀語(yǔ)義模型的場(chǎng)景
    發(fā)表于 12-07 11:17 ?0次下載
    基于四層樹(shù)狀<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>模型</b>的場(chǎng)景<b class='flag-5'>語(yǔ)義</b>識(shí)別方法

    基于語(yǔ)義網(wǎng)技術(shù)的SLA協(xié)商機(jī)制

    針對(duì)服務(wù)等級(jí)協(xié)議(SLA)的自動(dòng)協(xié)商中用于協(xié)商的SLA元素及協(xié)商過(guò)程缺乏語(yǔ)義描述的問(wèn)題,提出了一種基于語(yǔ)義網(wǎng)技術(shù)的SLA協(xié)商機(jī)制。首先提出一種協(xié)商本體Osn,該本體專(zhuān)門(mén)描述直接用于協(xié)商過(guò)程的SLA
    發(fā)表于 01-02 17:17 ?0次下載

    基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型

    神經(jīng)網(wǎng)絡(luò)、雙向門(mén)控循環(huán)單元和注意力機(jī)制提取 PFSHAN模型的語(yǔ)音、字形和語(yǔ)義特征。在特征融合階段,針對(duì)不同單詞對(duì)幽默語(yǔ)言學(xué)特征的貢獻(xiàn)程度不同,且不同幽默語(yǔ)言學(xué)特征和語(yǔ)句之間關(guān)聯(lián)程度不同的問(wèn)題,采用層次注意力
    發(fā)表于 03-26 15:38 ?14次下載
    基于語(yǔ)音、字形和<b class='flag-5'>語(yǔ)義</b>的層次注意力神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    意圖和語(yǔ)義槽填充聯(lián)合識(shí)別模型設(shè)計(jì)方案

    時(shí)記憶網(wǎng)絡(luò)( BLSTM),由 BLSTM得到隱藏層狀態(tài)后,對(duì)兩任務(wù)分別加入注意力機(jī)制,通過(guò)語(yǔ)義槽門(mén)控杋制將意圖識(shí)別的結(jié)果作用于語(yǔ)乂槽填充任務(wù),并在語(yǔ)乂槽填充任務(wù)中加λ尞件隨杋場(chǎng)(CRF)模型,該
    發(fā)表于 04-12 10:36 ?8次下載
    意圖和<b class='flag-5'>語(yǔ)義</b>槽填充聯(lián)合識(shí)別<b class='flag-5'>模型</b>設(shè)計(jì)方案

    基于SEGNET模型的圖像語(yǔ)義分割方法

    使用原始 SEGNET模型對(duì)圖像進(jìn)行語(yǔ)義分割時(shí),未對(duì)圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類(lèi)別預(yù)測(cè)結(jié)果不一致。通過(guò)在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    基于WordNet模型的遷移學(xué)習(xí)文本特征對(duì)齊算法

    基于WordNet模型的遷移學(xué)習(xí)文本特征對(duì)齊算法
    發(fā)表于 06-27 16:14 ?8次下載

    基于大數(shù)據(jù)和語(yǔ)義識(shí)別模型的地震救援平臺(tái)

    基于大數(shù)據(jù)和語(yǔ)義識(shí)別模型的地震救援平臺(tái)
    發(fā)表于 07-05 15:24 ?7次下載

    文本圖片編輯新范式:?jiǎn)蝹€(gè)模型實(shí)現(xiàn)多文本引導(dǎo)圖像編輯

    本文首先利用已有的編碼器將需要編輯的圖像轉(zhuǎn)換到 StyleGAN 的 語(yǔ)義空間中的潛在編碼 w,再通過(guò)提出的語(yǔ)義調(diào)制模塊對(duì)該隱編碼進(jìn)行自適應(yīng)的調(diào)制。該語(yǔ)義調(diào)制模塊包括語(yǔ)義
    的頭像 發(fā)表于 01-10 16:08 ?866次閱讀

    95VLP857A 數(shù)據(jù)表

    95VLP857A 數(shù)據(jù)表
    發(fā)表于 05-08 19:38 ?0次下載
    95<b class='flag-5'>VLP</b>857A 數(shù)據(jù)表

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語(yǔ)義分割中發(fā)揮著至關(guān)重要的
    的頭像 發(fā)表于 07-09 11:51 ?1498次閱讀
    主站蜘蛛池模板: 天天免费看片 | 狠狠草视频 | 美女被免网站在线视频 | 日韩欧美卡一卡二卡新区 | 丁香六月欧美 | 一级黄色毛片播放 | 国产美女主播一级成人毛片 | 欧美怡红院免费全部视频 | 天天综合网天天做天天受 | 日本黄色免费 | 久久艹影院 | 午夜啪啪片 | 欧美激情αv一区二区三区 欧美激情第一欧美在线 | 精品无码三级在线观看视频 | 看片在线| 亚洲成人在线免费观看 | 四虎www成人影院免费观看 | 一级做a爱片就在线看 | 国产情侣露脸 | 成人在线一区二区 | 91色蝌蚪| 欧美成人a视频 | 奇米影视777狠狠狠888不卡 | 人操人人| 亚洲丰满熟妇毛片在线播放 | 男人和女人做爽爽视频在线观看 | 色老头综合 | 欧美四色| 新版bt天堂资源在线 | 国产天天色 | 国内黄色一级片 | 黄色a站| 亚洲欧美在线精品一区二区 | 欧美成人a| 国产专区日韩精品欧美色 | 免费人成在线观看网站 | 天天干天天干天天插 | 欧美18在线 | 高清不卡毛片免费观看 | 午夜男人视频 | 亚洲最大的成人网 |