在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統模型表現更好

CoOp 增加一些 prompt 會讓模型能力進一步提升

怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態模型

也包括 Stable Diffusion 多模態預訓練模型

考慮多標簽圖像分類任務——每幅圖像大于一個類別

如果已有圖文對齊模型——能否用文本特征代替圖像特征

訓練的時候使用文本組成的句子

對齊總會有 gap，選 loss 的時候使用 rank loss，對模態 gap 更穩定

拿到文本后有幾種選擇，比如 Coco 只要其中的 caption 不要圖像，或是 Google 搜句子，抑或是語言模型生成

最后選擇第一種，因為穩定性和效果更好，能夠保證同樣數據集（同分布？）

可以建一個同義詞表

兩種 prompt，global 關注句子里有沒有貓，local 關心這個詞是不是跟貓有關系

測試的時候就將句子變成圖像，global 不變，local 變成了跟圖像里的 token 做比較

如果再加上少量文本（大量句子和少量文本）性能會進一步提升

一些相關工作，提完文本特征加一些噪聲提高魯棒性，消解圖文 gap

3d 樣本較難，因為點云-文本對較少，很難獲取

投影后的 3d 點云可以被視作 2d 圖像處理，使用圖像 encoder

但投影點云依然與圖像存在 gap，于是采取另一種思路

投影的確與圖像相關，但依然有調整空間，所以轉換成某個方向的圖像和該方向點云的投影圖像做匹配

投影和圖像對齊，圖像和文本對齊，因此就可以實現零樣本學習

如果有一些少量的有標簽監督，相當于 few-shot，效果也相當好

全監督效果也很好

當時覺得圖像可以做中介，那么紅外、熱成像等其他模態都可以

ImageBind 以圖像為中介將六種模態對齊到一起，重新訓練

但大家依然可以做自己領域相關的方向，以圖像作為中介對比，還有很大的空間

用想象的方式開展學習

假設有一些類別，使用語言模型生成一些句子，再根據句子使用生成模型生成圖像

因此有了圖像和類別匹配對（弱監督目標檢測）

希望即使使用合成圖像，模型在真實圖像上也可以比較好

因為類別本身和圖像會比較簡單，但如果使用語言模型，比如貓變成趴著的貓，這樣圖像多樣性會很高

考慮 SAM 和 Stable diffusion 特定完成分割任務

通過 SAM 得到的 proposal 提取特征

責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
558

瀏覽量
10674
訓練模型

訓練模型

+關注

關注
1

文章
37

瀏覽量
3935

原文標題：VALSE 2023 | 左旺孟教授：預訓練模型和語言增強的零樣本視覺學習

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot DDFM：首個使用擴散模型進行多模態圖像融合的方法
Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！

New SegVG視覺定位方法的各個組件
New 詳解E2E-MFD多模態融合檢測端到端算法

精選推薦
更多

文章

資料

帖子

聚焦無刷吊扇技術痛點，自適應技術如何驅動行業升級？--【其利天下】

其利天下技術
1小時前

86 閱讀

基于GD32E230冰箱柜變頻驅動解決方案

GD32MCU
4小時前

180 閱讀

詳解EV中的主動放電功能

力特奧維斯Littelfuse
4小時前

125 閱讀

防反接電路與MOS管防反接深入解析

張飛實戰電子官方
23小時前

211 閱讀

10分鐘上手睿擎平臺GUI開發：第一個LVGL圖形應用

jf_12300286
1天前

232 閱讀

基于機器視覺的公路車流量檢測系統研究

Kelly Yang
230.0 KB

免費

164下載

鴻蒙第三方組件適配移植的開源圖表繪制組件

姚小熊27
3.70 MB

免費

1下載

qcadoo MES生產管理Web程序

嘆久
9.44 MB

免費

0下載

monitor-rtsp-hls視頻監控RTSP轉HLS解決方案

哼小曲
30.34 MB

2積分

4下載

LeanClub高性能C++論壇系統

云中云
0.59 MB

2積分

1下載

基于STM32的多功能數控電源設計（原理圖、PCB、程序源碼等）

liuqiangew
15天前

137 閱讀

基于STM32的數據采集+心率檢測儀（原理圖、PCB、程序源碼等）

liuqiangew
15天前

140 閱讀

《電子發燒友電子設計周報》聚焦硬科技領域核心價值第13期：2025.05.26--2025.05.30

電子人steve
8天前

1128 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-LCD硬件原理介紹

jf_13411809
19小時前

229 閱讀

新手小白求助關于mos管驅動芯片的問題！！

鋒鴻啊
19小時前

342 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

基于預訓練模型和語言增強的零樣本視覺學習

評論

大語言模型的預訓練