小说阅读网站,我欲封天txt下载,好看的历史书籍推荐

前幾日，Meta 推出了「分割一切」AI模型Segment Anything，令網友直呼 CV 不存在了？！而在另一篇被CVPR 2023 收錄的論文中，Meta、UTAustin 聯合提出了新的開放語言風格模型（open-vocabulary segmentation, OVSeg），它能讓 Segment Anything 模型知道所要分隔的類別。

從效果上來看，OVSeg 可以與 Segment Anything 結合，完成細粒度的開放語言分割。比如下圖 1 中識別花朵的種類：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (綠石竹)。

即刻體驗：https://huggingface.co/spaces/facebook/ov-seg

項目地址：https://jeff-liangf.github.io/projects/ovseg/

研究背景

開放式詞匯語義分割旨在根據文本描述將圖像分割成語義區域，這些區域在訓練期間可能沒有被看到。最近的兩階段方法首先生成類別不可知的掩膜提案，然后利用預訓練的視覺-語言模型（例如 CLIP）對被掩膜的區域進行分類。研究者確定這種方法的性能瓶頸是預訓練的 CLIP 模型，因為它在掩膜圖像上表現不佳。

為了解決這個問題，研究者建議在一組被掩膜的圖像區域和它們對應的文本描述的收集的數據上對 CLIP 進行微調。研究者使用 CLIP 將掩膜圖像區域與圖像字幕中的名詞進行匹配，從而收集訓練數據。與具有固定類別的更精確和手動注釋的分割標簽（例如 COCO-Stuff）相比，研究者發現嘈雜但多樣的數據集可以更好地保留 CLIP 的泛化能力。

除了對整個模型進行微調之外，研究者還使用了被掩膜圖像中的「空白」區域，使用了他們稱之為掩膜提示微調的方法。

實驗表明，掩膜提示微調可以在不修改任何 CLIP 權重的情況下帶來顯著的改進，并且它可以進一步改善完全微調的模型。特別是當在 COCO 上進行訓練并在 ADE20K-150 上進行評估時，研究者的最佳模型實現了 29.6％的 mIoU，比先前的最先進技術高出 8.5％。開放式詞匯通用模型首次與 2017 年的受監督專家模型的性能匹配，而不需要特定于數據集的適應。