在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從BLIP-2到SAM視覺語義金字塔+ChatGPT

CVer ? 來源:CVer ? 2023-04-17 11:03 ? 次閱讀

745653f2-dc7d-11ed-bfe3-dac502259ad0.jpg

8G GPU顯存即可以運行

746049f2-dc7d-11ed-bfe3-dac502259ad0.jpg

代碼鏈接(已開源):h

https://github.com/showlab/Image2Paragraph

動機:

怎么把圖片表示成高質量文本一直是個熱門的問題。傳統(tǒng)的思路Show,and Tell 等 Image Caption和Dense Caption 等都是依賴大量的人工標注。首先依靠諸如亞馬遜AMT( 亞非拉大兄弟們)等標注平臺給每張圖一人寫一段描述。其中添加了一系列規(guī)則,諸如名詞數目,顏色等等。通常用一句簡短的話來描述一張圖。

然而,這種樸素的標記思路造成了嚴重的One-to-many問題。如一張圖對應很多文本。由于圖片和文本之間信息的不對稱性,在這類數據上訓練的結果很容易陷入平凡解。(Pretrain中也經常遇到的問題)

而LLM(大語言模型)尤其是ChatGPT展現出來的邏輯能力讓人望塵莫及。我們驚訝發(fā)現, 把Bounding Box 和 Object信息給到GPT4, GPT4很自然的能推理出物體之間的位置關系,甚至想像出物體之間的聯系。

因此一個很自然的想法就是, 用GPT4對每張圖生成高信息量的段落,From One-to-many to one-to-one

做法:

低階語義抽取:

Image Caption, Dense Caption, Object Detection, Segement Anything 等等統(tǒng)一當成視覺理解組件。

74699304-dc7d-11ed-bfe3-dac502259ad0.jpg

如圖所示,首先用BLIP2 得到一張圖的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息,最終用Segment Anything 去得到Fine- grained Region-level Semantic.

高階推理:

把金字塔視覺語義給到ChatGPT,讓ChatGPT去推理物體之間的關系和物體的物質信息等,最終生成一個高質量Unique的文本段落。

可視化:

最后對生成的段落,放進Control Net生成一張重構的圖。

實驗:

最后是一些運行結果:

對生成的段落用ControlNet生成新圖片。

7474fdca-dc7d-11ed-bfe3-dac502259ad0.jpg

747fc548-dc7d-11ed-bfe3-dac502259ad0.jpg

748ac7e0-dc7d-11ed-bfe3-dac502259ad0.jpg


Region-level Semantic:

749b8288-dc7d-11ed-bfe3-dac502259ad0.jpg



最后有意思的是:

當我們把圖片變成文本之后。不需要訓練的情況下,檢索效果竟然好與在COCO上 Train的結果。

74a4cadc-dc7d-11ed-bfe3-dac502259ad0.jpg

一些呼之欲出的問題即將到來:

現有Vision- language Pretrain需不需要新的 Data collection 范式?

現有的Image- Text 數據集尤其是Caption數據需不需要Refine?

參考:

Show,And Tell.GRIT.ChatGPT.Segment Anything.ControlNet.Blip2.

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • SAM
    SAM
    +關注

    關注

    0

    文章

    114

    瀏覽量

    33835
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25305
  • ChatGPT
    +關注

    關注

    29

    文章

    1588

    瀏覽量

    8831

原文標題:從BLIP-2到SAM視覺語義金字塔+ChatGPT= 把圖片變文本段落, 8G顯存即可Run

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    VirtualLab Fusion案例:反射式金字塔波前傳感器的仿真

    摘要 與傳統(tǒng)的夏克-哈特曼傳感器相比,使用金字塔形棱鏡或反射器的波前傳感器(PyWFS,用于金字塔波前傳感器)具有高對比度和更好的波前靈敏度,例如用于天文學中太陽系外行星的搜索。因此,這種類型的波前
    發(fā)表于 01-17 09:51

    VirtualLab 應用:反射式金字塔波前傳感器的仿真

    摘要 與傳統(tǒng)的夏克-哈特曼傳感器相比,使用金字塔形棱鏡或反射器的波前傳感器(PyWFS,用于金字塔波前傳感器)具有高對比度和更好的波前靈敏度,例如用于天文學中太陽系外行星的搜索。因此,這種類型的波前
    發(fā)表于 04-26 10:39

    CADENAS 在 2025 年金字塔公司聯系博覽會上取得圓滿成功

    4 月 29 日,CADENAS GmbH 又一次參加了在奧格斯堡舉辦的金字塔企業(yè)聯絡展。我們與約 270 家公司一起,在奧格斯堡展廳向 3500 多名參觀者展示了自己。 CADENAS 現場直播
    發(fā)表于 06-04 14:32

    PCB工程師金字塔分級標準

    PCB工程師金字塔分級標準
    發(fā)表于 08-06 13:21

    自制for循環(huán)打印金字塔

    自制for循環(huán)打印金字塔
    發(fā)表于 09-18 08:46

    基于金字塔模型的地形網格裂縫消除算法

    本文針對基于多分辨金字塔模型繪制海量地形時的網格裂縫問題,提出了一種網格裂縫消除算法。該算法利用分裂標記表,結合金字塔模型本身分塊與多分辨率的特性,整體上
    發(fā)表于 12-30 12:02 ?8次下載

    圖像金字塔和resize綜合示例_《OpenCV3編程入門》書本配套源代碼

    《OpenCV3編程入門》書本配套源代碼:圖像金字塔和resize綜合示例
    發(fā)表于 06-06 15:52 ?3次下載

    基于壓縮金字塔核稀疏表示的人臉識別_周凱

    基于壓縮金字塔核稀疏表示的人臉識別_周凱
    發(fā)表于 01-08 11:13 ?0次下載

    繪制金字塔程序實現

    用c語言編程繪制金字塔
    發(fā)表于 11-27 16:24 ?906次閱讀

    可控特性的金字塔變換

    本文設計了一種具有平移不變性、方向和尺度聯合可控特性的金字塔變換,稱為幾何變形可控金字塔變換(DPT)。此DPT從一種數值形式表示的方向可控金字塔變換(SPT)發(fā)展而來。我們以SPT的每一個方向可控
    發(fā)表于 12-14 16:41 ?4次下載
    可控特性的<b class='flag-5'>金字塔</b>變換

    一種金字塔注意力網絡,用于處理圖像語義分割問題

    基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來自 U 型網絡 (如特征金字塔網絡 FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔
    的頭像 發(fā)表于 06-05 09:21 ?1.2w次閱讀
    一種<b class='flag-5'>金字塔</b>注意力網絡,用于處理圖像<b class='flag-5'>語義</b>分割問題

    中國集成電路封裝行業(yè)市場現狀——金字塔的尖頂與基座

    中國集成電路封裝行業(yè)技術演變路程漫漫集成電路封裝在電子學金字塔中的位置既是金字塔的尖頂又是金字塔的基座。
    的頭像 發(fā)表于 07-11 14:51 ?3576次閱讀

    基于規(guī)范化函數的深度金字塔模型算法

    時的檢測效果不理想。因此,提出一種基于規(guī)范化函欻的深度金字塔模型(Norm-DP)算法,使用規(guī)范化函數融合可變形部件模型和卷積神經網絡模型,直接金字塔特征中提取正負樣本,使用隱變量攴持向量杋進行模型訓練,結合柔性非
    發(fā)表于 03-30 14:09 ?14次下載
    基于規(guī)范化函數的深度<b class='flag-5'>金字塔</b>模型算法

    DIY自制基于51單片機的LED金字塔

    電子發(fā)燒友網站提供《DIY自制基于51單片機的LED金字塔.pdf》資料免費下載
    發(fā)表于 10-25 10:27 ?0次下載
    DIY自制基于51單片機的LED<b class='flag-5'>金字塔</b>

    談談PCB工程師金字塔分級標準

    印刷電路板(PCB)工程師是電子行業(yè)中至關重要的角色,他們的工作直接關系到電子產品的質量和性能。為了明確不同PCB工程師的技能水平和職責范圍,行業(yè)內形成了金字塔分級標準。下面將談談這個金字塔的分級標準。
    的頭像 發(fā)表于 12-25 10:02 ?795次閱讀
    主站蜘蛛池模板: 黄网站色视频免费看无下截 | 成年男人永久免费看片 | 黄色午夜剧场 | 欧美日韩亚洲国内综合网俺 | 国产一区二区三区在线影院 | 人人九九精| 日本亚洲欧美国产日韩ay高清 | 亚洲免费二区三区 | 性做久久久久久久免费看 | 亚洲人成电影 | 男人你懂的在线观看视频 | 欧美一级视频在线观看欧美 | 欧美区一区 | 亚洲人成电影院 | aaaa黄色片| 国产毛片一区二区三区精品 | 免费啪视频在线观看 | a资源在线 | 国产午夜精品片一区二区三区 | 最新在线网址 | 国产精品久久久精品三级 | 久久午夜精品 | 天天碰视频 | 国内视频一区 | 欧美成人午夜精品一区二区 | 黄色在线视频网 | 最新黄色免费网站 | 一卡二卡卡四卡无人区中文 | 爱爱小说视频永久免费网站 | 久久综合久久久久 | 国产福利不卡一区二区三区 | freesexvideo性欧美tv| 日本一区二区三区欧美在线观看 | 生活片毛片 | 天天操夜夜爱 | 国产福利资源在线 | 欧美激情亚洲精品日韩1区2区 | 黄欧美| 黄色网络在线观看 | 欧美日韩视频综合一区无弹窗 | 曰本女人色黄网站 |