在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于預訓練模型和語言增強的零樣本視覺學習

CVer ? 來源:CVer ? 2023-06-15 16:36 ? 次閱讀

在一些非自然圖像中要比傳統模型表現更好

ef117f4a-0b3a-11ee-962d-dac502259ad0.jpg

CoOp 增加一些 prompt 會讓模型能力進一步提升

ef1f1b3c-0b3a-11ee-962d-dac502259ad0.jpg

怎么讓能力更好?可以引入其他知識,即其他的預訓練模型,包括大語言模型、多模態模型

也包括 Stable Diffusion 多模態預訓練模型

ef419180-0b3a-11ee-962d-dac502259ad0.jpg

考慮多標簽圖像分類任務——每幅圖像大于一個類別

如果已有圖文對齊模型——能否用文本特征代替圖像特征

ef490834-0b3a-11ee-962d-dac502259ad0.jpg

訓練的時候使用文本組成的句子

對齊總會有 gap,選 loss 的時候使用 rank loss,對模態 gap 更穩定

ef54761a-0b3a-11ee-962d-dac502259ad0.jpg

拿到文本后有幾種選擇,比如 Coco 只要其中的 caption 不要圖像,或是 Google 搜句子,抑或是語言模型生成

最后選擇第一種,因為穩定性和效果更好,能夠保證同樣數據集(同分布?)

可以建一個同義詞表

ef8c6a34-0b3a-11ee-962d-dac502259ad0.jpg

兩種 prompt,global 關注句子里有沒有貓,local 關心這個詞是不是跟貓有關系

efb3859c-0b3a-11ee-962d-dac502259ad0.jpg

測試的時候就將句子變成圖像,global 不變,local 變成了跟圖像里的 token 做比較

effee6ea-0b3a-11ee-962d-dac502259ad0.jpg

如果再加上少量文本(大量句子和少量文本)性能會進一步提升

f00755b4-0b3a-11ee-962d-dac502259ad0.jpg

一些相關工作,提完文本特征加一些噪聲提高魯棒性,消解圖文 gap

f00f4878-0b3a-11ee-962d-dac502259ad0.jpg

f0482878-0b3a-11ee-962d-dac502259ad0.jpg

3d 樣本較難,因為點云-文本對較少,很難獲取

f0769c80-0b3a-11ee-962d-dac502259ad0.jpg

投影后的 3d 點云可以被視作 2d 圖像處理,使用圖像 encoder

f0a43da2-0b3a-11ee-962d-dac502259ad0.jpg

但投影點云依然與圖像存在 gap,于是采取另一種思路

投影的確與圖像相關,但依然有調整空間,所以轉換成某個方向的圖像和該方向點云的投影圖像做匹配

投影和圖像對齊,圖像和文本對齊,因此就可以實現零樣本學習

f0aea9cc-0b3a-11ee-962d-dac502259ad0.jpg

如果有一些少量的有標簽監督,相當于 few-shot,效果也相當好

全監督效果也很好

f0b7f07c-0b3a-11ee-962d-dac502259ad0.jpg

當時覺得圖像可以做中介,那么紅外、熱成像等其他模態都可以

ImageBind 以圖像為中介將六種模態對齊到一起,重新訓練

但大家依然可以做自己領域相關的方向,以圖像作為中介對比,還有很大的空間

f0ede088-0b3a-11ee-962d-dac502259ad0.jpg

用想象的方式開展學習

f1137334-0b3a-11ee-962d-dac502259ad0.jpg

假設有一些類別,使用語言模型生成一些句子,再根據句子使用生成模型生成圖像

因此有了圖像和類別匹配對(弱監督目標檢測)

希望即使使用合成圖像,模型在真實圖像上也可以比較好

因為類別本身和圖像會比較簡單,但如果使用語言模型,比如貓變成趴著的貓,這樣圖像多樣性會很高

f13ccebe-0b3a-11ee-962d-dac502259ad0.jpg

f146f9f2-0b3a-11ee-962d-dac502259ad0.jpg

考慮 SAM 和 Stable diffusion 特定完成分割任務

通過 SAM 得到的 proposal 提取特征

f1534b76-0b3a-11ee-962d-dac502259ad0.jpg

f1744768-0b3a-11ee-962d-dac502259ad0.jpg

責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10674
  • 訓練模型
    +關注

    關注

    1

    文章

    37

    瀏覽量

    3935

原文標題:VALSE 2023 | 左旺孟教授:預訓練模型和語言增強的零樣本視覺學習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一文詳解知識增強語言訓練模型

    隨著訓練語言模型(PLMs)的不斷發展,各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識,但仍舊存在很
    的頭像 發表于 04-02 17:21 ?1w次閱讀

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的應用

    設計提示詞時,需要明確輸出需求,以便得到滿意的結果。 推理引導如前文所述,提示工程對于訓練語言模型的逐步推理能力至關重要。樣本提示大
    發表于 05-07 17:21

    基于深度學習的自然語言處理對抗樣本模型

    深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然
    發表于 04-20 14:36 ?39次下載
    基于深度<b class='flag-5'>學習</b>的自然<b class='flag-5'>語言</b>處理對抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

    融合樣本學習和小樣本學習的弱監督學習方法綜述

    融合樣本學習和小樣本學習的弱監督學習方法綜述 來源:《系統工程與電子技術》,作者潘崇煜等 摘
    發表于 02-09 11:22 ?2623次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學習</b>的弱監督<b class='flag-5'>學習</b>方法綜述

    如何更高效地使用訓練語言模型

    基本的假設:訓練模型在不同下游任務上學習的過程,可以被重新參數化(reparameterized)為在同一個低維征子空間上的優化過程。
    的頭像 發表于 07-08 11:28 ?1495次閱讀

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高
    的頭像 發表于 08-08 15:33 ?1668次閱讀

    訓練語言模型的字典描述

    今天給大家帶來一篇IJCAI2022浙大和阿里聯合出品的采用對比學習的字典描述知識增強訓練語言模型
    的頭像 發表于 08-11 10:37 ?1355次閱讀

    如何充分挖掘訓練視覺-語言基礎大模型的更好樣本學習能力

    因此,合適的prompt對于模型的效果至關重要。大量研究表明,prompt的微小差別,可能會造成效果的巨大差異。研究者們就如何設計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言
    的頭像 發表于 10-19 14:39 ?1735次閱讀

    使用BLIP-2 樣本“圖生文”

    現代計算機視覺和自然語言模型在能力越來越強大的同時,模型尺寸也隨之顯著增大。由于當前進行一次單模態模型
    的頭像 發表于 03-03 11:06 ?2267次閱讀

    訓練數據大小對于訓練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務上的良好表現主要得益于其在大量無監督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個
    的頭像 發表于 03-03 11:20 ?1807次閱讀

    形狀感知樣本語義分割

    由于大規模視覺語言訓練取得了令人矚目的進展,最近的識別模型可以以驚人的高準確度對任意對象進行
    的頭像 發表于 04-28 11:26 ?1061次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語義分割

    什么是樣本學習?為什么要搞樣本學習

    樣本分類的技術目前正處于高速發展時期, 所涉及的具體應用已經從最初的圖像分類任務擴展到了其他計算機視覺任務乃至自然語言處理等多個相關領域。 對此, 本文將其稱為廣義
    發表于 09-22 11:10 ?2803次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>?

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然
    的頭像 發表于 07-03 18:20 ?4185次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?893次閱讀
    主站蜘蛛池模板: 午夜精品久久久久久久四虎 | 最好看的2019中文字幕免费高清 | 久久精品男人的天堂 | 色噜噜成人综合网站 | 黄网站色视频大全免费观看 | 在线免费看高清视频大全 | 欧美三级视频在线播放 | 欧美一级特黄aa大片 | 精品久久成人 | 加勒比一本大道香蕉在线视频 | 91午夜在线观看 | 一级日本高清视频免费观看 | 国产男靠女免费视频网站 | 国产一级影院 | 久久久久88色偷偷免费 | 日韩亚洲人成在线综合 | 中文字幕一区二区三区四区五区人 | 影院成人区精品一区二区婷婷丽春院影视 | 午夜免费的国产片在线观看 | 人人插人人干 | 国产精品第一页在线观看 | 国产主播一区二区 | 一级特一级特色生活片 | 久久精品波多野结衣 | 久久影视免费观看网址 | www.色涩| 丁香五六月婷婷 | 国产欧美一区二区日本加勒比 | 91国在线啪精品一区 | 国产成人综合一区人人 | 国产精品免费拍拍1000部 | 在线视频一区二区三区四区 | 亚洲免费成人在线 | 天天操天天干天天拍 | 免费午夜视频在线观看 | 在线看黄的网站 | 色老头成人免费综合视频 | 午夜欧美福利视频 | 1024手机免费看 | 国产色中色 | 一区二区三区影院 |