在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

融合Image-Text和Image-Label兩種數(shù)據(jù)的多模態(tài)訓(xùn)練新方式

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-07-14 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前CV領(lǐng)域中包括兩種典型的訓(xùn)練模式,第一種是傳統(tǒng)的圖像分類訓(xùn)練,以離散的label為目標(biāo),人工標(biāo)注、收集干凈、大量的訓(xùn)練數(shù)據(jù),訓(xùn)練圖像識別模型。第二種方法是最近比較火的基于對比學(xué)習(xí)的圖文匹配訓(xùn)練方法,利用圖像和其對應(yīng)的文本描述,采用對比學(xué)習(xí)的方法訓(xùn)練模型。這兩種方法各有優(yōu)劣,前者可以達(dá)到非常高的圖像識別精度、比較強的遷移能力,但是依賴人工標(biāo)注數(shù)據(jù);后者可以利用海量噪聲可能較大的圖像文本對作為訓(xùn)練數(shù)據(jù),在few-shot learning、zero-shot learning上取得很好的效果,但是判別能力相比用干凈label訓(xùn)練的方法較弱。今天給大家介紹一篇CVPR 2022微軟發(fā)表的工作,融合兩種數(shù)據(jù)的一個大一統(tǒng)對比學(xué)習(xí)框架。

78152864-033a-11ed-ba43-dac502259ad0.png

論文題目:Unified Contrastive Learning in Image-Text-Label Space

下載地址:https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微軟發(fā)表的這篇工作,希望同時利用圖像、文本、label三者的信息,構(gòu)建一個統(tǒng)一的對比學(xué)習(xí)框架,同時利用兩種訓(xùn)練模式的優(yōu)勢。下圖反映了兩種訓(xùn)練模式的差異,Image-Label以離散label為目標(biāo),將相同概念的圖像視為一組,完全忽視文本信息;而Image-Text以圖文對匹配為目標(biāo),每一對圖文可以視作一個單獨的label,文本側(cè)引入豐富的語義信息。

7828afec-033a-11ed-ba43-dac502259ad0.png

1

兩種數(shù)據(jù)的融合

上面所說的Image-Label和Image-Text兩種數(shù)據(jù),可以表示成一個統(tǒng)一的形式:(圖像,文本,label)三元組。其中,對于Image-Lable數(shù)據(jù),文本是每個label對應(yīng)的類別名稱,label對應(yīng)的每個類別的離散標(biāo)簽;對于Image-Text數(shù)據(jù),文本是每個圖像的文本描述,label對于每對匹配的圖文對都是不同的。將兩種數(shù)據(jù)融合到一起,如下圖右側(cè)所示,可以形成一個矩陣,填充部分為正樣本,其他為負(fù)樣本。Image-Label數(shù)據(jù)中,對應(yīng)類別的圖文為正樣本;Image-Text中對角線為正樣本。

785b4fba-033a-11ed-ba43-dac502259ad0.png

2

損失函數(shù)

在上述矩陣的基礎(chǔ)上,可以利用對比學(xué)習(xí)的思路構(gòu)建融合Image-Label和Image-Text兩種數(shù)據(jù)優(yōu)化函數(shù)。對于一個batch內(nèi)的所有樣本,分別使用圖像Encoder和文本Encoder得到圖像和文本的表示,并進行歸一化,然后計算圖像文本之間的相似度,和CLIP類似。其中Image-to-Text損失函數(shù)可以表示為:

7881cfb4-033a-11ed-ba43-dac502259ad0.png

以樣本i(文本)為中心,k表示當(dāng)前batch內(nèi),和樣本i的label相同的圖像,j表示batch內(nèi)所有其他樣本。也就是說,對于每個文本,損失函數(shù)的分子是和該文本匹配的圖像,分母是batch內(nèi)所有圖像。Text-to-Image損失函數(shù)也類似。最終BiC loss是二者之和:

789533f6-033a-11ed-ba43-dac502259ad0.png

3

與其他損失函數(shù)的對比

BiC loss和交叉熵、Supervised Contrast以及CLIP三種方法的損失函數(shù)差別如下圖所示,這幾種損失函數(shù)之間存在著一定的聯(lián)系。

78a56e88-033a-11ed-ba43-dac502259ad0.png

與交叉熵?fù)p失的關(guān)系:如果text encoder只是一個普通的全連接,并且batch size相比類別數(shù)量足夠大,以至于一個batch內(nèi)所有類別的樣本都出現(xiàn)過,那么BiC和交叉熵等價。因此BiC相比交叉熵更具一般性,BiC讓具有相似文本描述的圖像表示形成類簇,不具有相似文本描述的圖像被拉遠(yuǎn)。文本側(cè)也更加靈活,能夠使用任意種類的文本輸入,結(jié)合更豐富的文本Encoder聯(lián)合學(xué)習(xí)。

與SupCon的關(guān)系:SupCon是圖像對比學(xué)習(xí),訓(xùn)練數(shù)據(jù)每對pair都是圖像,共用一個Encoder;而BiC針對的是跨模態(tài)對比學(xué)習(xí),圖片和文本跨模態(tài)對齊。但是兩者的核心思路都是根據(jù)有l(wèi)abel數(shù)據(jù),將batch內(nèi)出現(xiàn)樣本更多置為正樣本。

與CLIP的關(guān)系:和CLIP的主要差別在于,利用label信息將一部分非對角線上的元素視為正樣本。如果這里不使用Image-Label數(shù)據(jù),那么就和CLIP相同。

4

實驗效果

圖像分類效果對比:相比使用交叉熵?fù)p失和有監(jiān)督對比學(xué)習(xí),文中提出的UniCL在多個模型和數(shù)據(jù)集上取得較好的效果。尤其是在小數(shù)據(jù)集上訓(xùn)練時,UniCL比交叉熵訓(xùn)練效果提升更明顯,因為引入的圖文匹配方式讓具有相似語義圖像聚集在一起,緩解了過擬合問題。

78b9b1cc-033a-11ed-ba43-dac502259ad0.png

文本Encoder和損失函數(shù)對比:文中也對比了文本Encoder是否引入的效果,如果將Transformer替換成線性層,效果有所下降,表明文本Encoder的引入能夠幫助模型學(xué)習(xí)到1000多個類別之間的關(guān)系文本語義關(guān)系,有助于提升圖像分類效果。同時,如果去掉i2t的loss只保留t2i的loss,會導(dǎo)致效果大幅下降。

78d53dde-033a-11ed-ba43-dac502259ad0.png

Image-Text引入對Image-Label效果提升:對于上面3行和下面3行,下面3行引入額外Image-Text數(shù)據(jù)的圖像分類效果要顯著優(yōu)于只使用圖像分類數(shù)據(jù)的效果。

78f8c3b2-033a-11ed-ba43-dac502259ad0.png

Image-Label引入對Image-Text效果提升:通過下面實驗對比,引入Image-Label對Image-Text效果有一定提升作用。

792c30f8-033a-11ed-ba43-dac502259ad0.png

下圖繪制了使用CLIP(左)和UniCL(右)兩種方法訓(xùn)練的圖像embedding的t-sne圖。可以看到,使用CLIP訓(xùn)練的模型,不同類別的圖像表示混在一起;而使用UniCL訓(xùn)練的模型,不同類別的圖像表示能夠比較好的區(qū)分。

7946524e-033a-11ed-ba43-dac502259ad0.png

5

總結(jié)

本文介紹了融合Image-Text和Image-Label兩種數(shù)據(jù)的的多模態(tài)訓(xùn)練新方式,充分利用了不同的圖像-文本數(shù)據(jù),信息相互補充,相比單獨使用一個數(shù)據(jù)取得非常好的效果。Label的引入也讓對比學(xué)習(xí)的正負(fù)樣本構(gòu)造更加科學(xué)。

原文標(biāo)題:圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對比學(xué)習(xí)框架

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7250

    瀏覽量

    91607
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    526

    瀏覽量

    39026
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4378

    瀏覽量

    64597

原文標(biāo)題:圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對比學(xué)習(xí)框架

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?143次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點亮城市治理<b class='flag-5'>新方式</b>

    image.Image為什么無法創(chuàng)建圖像?

    運行的測試代碼如下: import lcd import image import time img = image.Image(size=(320, 240), color=(255, 255
    發(fā)表于 04-29 06:02

    RGB888格式的image怎么保存jpg格式?

    01的K230板子 1.2.2固件 我用RGB565可以順利保存jpg,但是RGB888就不行,提示如下 提問:RGB888格式的image怎么保存jpg格式 想保存888是因為感覺圖像質(zhì)量更好,后面用這些保存的圖片來訓(xùn)練模型 試試這個
    發(fā)表于 04-25 08:18

    海康威視發(fā)布模態(tài)大模型AI融合巡檢超腦

    基于海康觀瀾大模型技術(shù)體系,海康威視推出新一代模態(tài)大模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業(yè)帶來全新的模態(tài)大模型巡
    的頭像 發(fā)表于 04-17 17:12 ?761次閱讀

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音
    的頭像 發(fā)表于 03-17 15:12 ?1928次閱讀

    DLP4500 sdk中pattern類和Image類如何使用?

    啟動投影需要pattern類型的數(shù)據(jù)。我有需要投影的圖片讀取成Image類,如何用這個Image創(chuàng)建pattern呢?pattern類似乎只有默認(rèn)構(gòu)造函數(shù),我怎么把Image
    發(fā)表于 02-21 12:59

    解決HarmonyOS應(yīng)用中Image組件白塊問題的有效方案

    在HarmonyOS應(yīng)用開發(fā)過程中,通過Image組件加載網(wǎng)絡(luò)圖片時,通常會經(jīng)歷四個關(guān)鍵階段:組件創(chuàng)建、圖片資源下載、圖片解碼和刷新。當(dāng)加載的圖片資源過大時,Image組件會等待圖片數(shù)據(jù)下載和解
    的頭像 發(fā)表于 02-17 10:08 ?1044次閱讀
    解決HarmonyOS應(yīng)用中<b class='flag-5'>Image</b>組件白塊問題的有效方案

    2025年Next Token Prediction范式會統(tǒng)一模態(tài)

    訓(xùn)練方法與推理策略 性能評測體系 現(xiàn)存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認(rèn)為模態(tài)的 Token
    的頭像 發(fā)表于 01-21 10:11 ?419次閱讀
    2025年Next Token Prediction范式會統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    基于Label CIFAR10 image on FRDM-MCXN947例程實現(xiàn)鞋和帽子的識別

    NXP FRDM-MCXN947: 物體識別 ? ? 感謝這次評測活動,收到FRDM-MCXN947的板子。NXP官方提供了很多視覺識別的例程,今天我們就基于Label CIFAR10 image
    的頭像 發(fā)表于 01-13 09:18 ?618次閱讀
    基于<b class='flag-5'>Label</b> CIFAR10 <b class='flag-5'>image</b> on FRDM-MCXN947例程實現(xiàn)鞋和帽子的識別

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?571次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造模態(tài)影像融合系統(tǒng)

    模態(tài)影像融合超聲系統(tǒng)的市場規(guī)模也在不斷擴大,國內(nèi)眾多超聲系統(tǒng)廠家也在不斷尋找合適的硬件平臺,用以承載旗下的模態(tài)影像
    的頭像 發(fā)表于 11-11 10:52 ?1166次閱讀
    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>影像<b class='flag-5'>融合</b>系統(tǒng)

    《DNK210使用指南 -CanMV版 V1.0》第三十七章 image圖像對比實驗

    提供了difference()方法,用于計算個圖像的差值絕對值,difference()方法如下所示:image.difference(image, mask)difference()方法計算
    發(fā)表于 11-07 09:33

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說
    的頭像 發(fā)表于 10-18 09:39 ?1185次閱讀

    圖片動畫控件和Video image控件的使用方法

    在UI開發(fā)過程中,序列幀基本是繞不開的,AWTK 支持多種方法實現(xiàn)序列幀顯示,本文介紹圖片動畫控件和Video image控件的使用方法。
    的頭像 發(fā)表于 08-06 16:44 ?1589次閱讀
    圖片動畫控件和Video <b class='flag-5'>image</b>控件的使用方法
    主站蜘蛛池模板: 成人特黄午夜性a一级毛片 成人网18免费下 | 日本大片免aaa费观看视频 | 91久久婷婷国产综合精品青草 | 美女视频网站免费播放视 | 色中色资源 | 毛片美女 | 国产日韩欧美综合色视频在线 | 国产剧情麻豆三级在线观看 | 日本福利小视频 | 亚洲qingse中文字幕久久 | 最新日本免费一区二区三区中文 | 爱综合网 | 色网址在线观看 | 亚洲三级毛片 | 亚洲午夜在线观看 | 亚洲综合成人网 | 久久噜国产精品拍拍拍拍 | 国产精欧美一区二区三区 | 久久久久女人精品毛片九一 | 四虎网站 | 无遮挡很爽很污很黄很色的网站 | 欧美三级欧美一级 | 午夜精品视频在线看 | jlzz日本| 色在线看| 午夜官网 | 久久国产午夜精品理论片34页 | 午夜啪| 久久久久国产一级毛片高清版 | 国产精品毛片天天看片 | 伊人亚洲综合网成人 | 性欧美大战久久久久久久久 | 狠狠干夜夜爽 | 欧美色人阁 | 三级毛片在线看 | 日本精品一在线观看视频 | 中国一级特黄真人毛片免费看 | 国产亚洲精品自在久久77 | 亚洲激情综合 | 国产精品视频色拍拍 | 久久草在线视频播放 |