我吃西红柿,大主宰,有声读物

2020年歐洲計算機視覺會議（ECCV）于8月23日至28日在網上舉行，由1360篇論文組成，包括104場orals，160場spotlights以及1096篇posters，共進行有45場workshops和16場tutorials。與近年來的ML和CV會議一樣，有時大量的論文可能不勝枚舉。

半監督學習，無監督學習，遷移學習，表征學習以及小樣本學習

Big Transfer (BiT): General Visual Representation Learning (paper)

（https://arxiv.org/abs/1912.11370）在本文中，作者重新審視了遷移學習的簡單范式：首先在一個大規模標記數據集（例如JFT-300M和ImageNet-21k數據集）上進行預訓練，然后對目標任務上的每個訓練權重進行精調任務，減少目標任務所需的數據量和優化時間。作者們擬議的遷移學習框架是BiT（大轉移），由許多組件組成，包含了大量構建有效模型的必需組件，使其能夠借助于大規模數據集學習到通用的、可遷移的特征表達。在（上游）預訓練方面，BiT包括以下內容：

對于非常大的數據集，由于Batch Normalization（BN）在測試結果期間使用訓練數據中的統計信息會導致訓練/測試差異，在這種情況下，訓練損失可以正確優化和回傳，但是驗證損失非常不穩定。除了BN對批次大小的敏感性外。為了解決這個問題，BiT既使用了Group Norm，又使用了Weight Norm，而不是Batch Norm。

諸如ResNet 50之類的小型模型無法從大規模數據集中受益，因此模型的大小也需要相應地擴大規模，和數據集匹配。

對于（下游）目標任務，BiT建議以下內容：

使用標準SGD優化器，無需層凍結，dropout，L2正規化或任何適應梯度。別忘了把最后的預測層的權重初始化為0。

不用將所有輸入縮放為固定大小，例如224。在訓練過程中，輸入圖像會隨機調整大小并裁剪為具有隨機選擇大小的正方形，并隨機水平翻轉。在測試階段，圖像會被縮放為固定大小，

盡管對于數據量充足的大規模數據集預訓練來說，mixup 并沒有多大用處，但BiT發現misup正則化對于用于下游任務的中型數據集訓練非常有用。

Learning Visual Representations with Caption Annotations

（https://arxiv.org/abs/2008.01392）在大規模標注的數據集上訓練深度模型不僅可以使手頭的任務表現良好，還可以使模型學習對于下游任務的有用特征形式。但是，我們是否可以在不使用如此昂貴且細粒度的標注數據的情況下獲得類似的特征表達能力呢？本文研究了使用噪聲標注（在這種情況下為圖像標題）的弱監督預訓練。

目標是用有限對圖像與說明文字來學習視覺表達，那么，如何制定訓練目標以推動圖像及其標題之間的有效交互？基于BER模型隨機掩蓋15% 的輸入字符，讓模型根據 transformer 模型的編碼器輸出重建整個句子，該方法也隨機對圖像的文字說明進行掩碼操作。論文提出了圖像條件化的掩蔽語言建模（ICMLM），其中利用圖像信息來重構其相應說明文字的掩碼的字符。為了解決這個問題，作者提出了兩種多模架構：（1）ICMLM tfm，使用一個卷積神經網絡對原始圖像進行編碼得到圖像特征，接著，經過BERT處理的被掩碼的圖像說明、原始圖像說明以及圖像特征被級聯起來并通過一個 transformer 編碼器，最終輸出一個多模嵌入特征用于預估被掩碼的字符。（2）首先生成ICMLM att + fc，說明和圖像之間的相似度，接著經過一個成對注意力模塊來整合圖像與文字說明之間的信息。得到的特征會經過池化后再過一個全連接層來預測被掩碼的字符。

Memory-augmented Dense Predictive Coding for Video Representation Learning

（https://arxiv.org/abs/2008.01065）近期在自監督圖像表征學習領域的進步在下游任務中展現出了令人印象深刻的效果。盡管視頻的多模表征學習多有發展，然而不使用其他任何類似于文本與語音的模態信息，但使用視頻流進行自監督學習還未有所發展。即使視頻的時域信息為自監督地訓練一個根據過去幀預測未來幀的模型提供了充足的監督信號。由于確切的未來并不存在，并且在給定的時間步長內，對于未來狀態有許多可能和合理的假設（例如，當動作是“打高爾夫球”時，那么下一幀可能是手或者高爾夫俱樂部）。

本文將對比學習與存儲模塊結合使用，以解決未來幀的預測問題。為了減少不確定性，該模型會在特征級別上預測未來，并使用對比損失進行訓練以避免過度約束。為了處理多種假設，一個存儲模塊用于同時推斷多個未來狀態。給定一組連續幀，2d-3d CNN編碼器（即ff）產生上下文特征，而GRU（即g）整合所有過去的信息，然后將其用于從共享存儲模塊中選擇插槽。然后，將預測的未來狀態作為所選存儲插槽的凸組合生成。然后，使用對比損失將預測的未來狀態與未來狀態的真實特征向量進行比較。對于下游任務，將g產生的特征匯總起來，然后提供給分類器處理。

SCAN: Learning to Classify Images without Labels

（https://arxiv.org/abs/2005.12320）要將未標記的輸入圖像分組為語義上有意義的聚類，我們需要僅使用視覺相似性來找到解決方案。先前的工作之一是（1）使用自我監督的方法學習豐富的特征，然后對特征應用k均值以找到聚類，但這很容易導致性能退化。（2）端到端群集方法，這些方法可以利用CNN的功能進行深度聚類，也可以基于互信息最大化。但是，生成的聚類結果在很大程度上取決于初始化，并且很可能會陷入低級特征主導中。

為了解決先前工作中發現的問題，本文提出了采用兩步過程的SCAN（采用最鄰方法的語義聚類）。第一步，通過前置任務學習特征表示，然后生成將語義上有意義的最近鄰用作先驗，以訓練模型將每個圖像及其對應的鄰居分為一類。模型通過損失函數來優化，該函數會在 softmax 之后最大化輸出向量的點積，從而迫使網絡產生一致且有判別度的（one-hot 向量）預測。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering

（https://arxiv.org/abs/2002.11863）

聚類包括根據樣本相似性將數據分為多個聚類。傳統的方法是使用手工特征和特定于領域的距離函數來衡量相似度，但是這種手工制作的特征在表達能力上非常有限。隨后的工作將深度表示和聚類算法結合起來，但是當輸入數據很復雜時，深度聚類的性能還是會受到影響。有效的聚類在特征層面必須同時包含高層判別性特征并獲取對象語義信息。在聚類步驟上，必須避免使用將樣本分配到單個或少數幾個集群的算法，并且聚類需要高效地應用于大尺寸圖像。本文提出了GATCluster，它直接輸出語義聚類標簽而無需進一步的后處理，其中學習到的特征是一個 one-hot 編碼向量，以避免弱解。GATCluster在平移不變性、可分離性最大化、熵分析和注意力映射約束下，通過四個自學習任務以無監督的方式進行了訓練。

Associative Alignment for Few-shot Image Classification

（https://arxiv.org/abs/1912.05094）小樣本圖像分類的目標是在訓練樣本很少的情況下，生成一個能夠學習識別新的圖像類的模型?，F在流行的方法之一是元學習，它從大量包含基類的標記數據中提取公共知識，并用于訓練模型。然后訓練該模型以僅用幾個樣本就可以對來自新穎概念的圖像進行分類。元目標是找到一組良好的初始權重集合，這些初始權重在接受新概念訓練時會迅速收斂。有趣的是，最近的研究表明，不使用元學習的標準轉移學習，其中特征提取器首先在基類上進行了預訓練，然后根據新的幾個類別上在預訓練的提取器之上對分類器進行了微調。，其性能和更復雜的元學習策略不相上下。但是為了避免過擬合，特征提取器對部分層的權重凍結會阻礙性能。

本文提出了一種兩步法來解決這個問題。首先，特征提取器用于為新樣本生成特征。然后，使用嵌入空間中的相似性度量將每個樣本的特征映射到基類之一。第二步包括關聯對齊，其中對特征提取器進行微調，以便將新圖像的嵌入向量更靠近其相應基礎圖像的嵌入。這可以通過以下方法完成：在每個基類的中心與新類比之間的距離減小的質心對齊方式，也可以使用對抗性對齊，其中鑒別器迫使特征提取器在嵌入空間中對齊基礎圖像和新樣本。

三維計算機視覺以及機器人學

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

（https://arxiv.org/abs/2003.08934）從2D圖像合成3D視圖是一個具有挑戰性的問題，尤其是在稀疏地采樣了輸入2D圖像的情況下。改目標的任務是是訓練一個模型，該模型拍攝3D場景的2D圖像集合（具有可選的相機姿勢及其內參），然后，使用訓練后的模型，我們可以渲染3D場景中未找到的新2D視圖。種成功的方法是基于體素的表示法，該表示方法使用離散的網格表示3D場景。使用3D CNN可以預測3D體素中對應的RGB-alpha網格值。是，由于這種基于體素的方法復雜度與空間分辨率成三次比，難以優化并且無法平滑地對場景表面進行參數化，因此它們的存儲效率不高。計算機視覺社區的最新趨勢是使用全連接的神經網絡將給定的3D場景表示為連續函數。因此，神經網絡本身就是3D場景的壓縮表示，使用2D圖像集進行訓練，然后用于渲染新的視圖。但是，現有方法仍無法匹配現有基于voxed的方法。

NeRF（神經輻射場）使用9個層和256個通道的全連接網絡將場景表示為連續5D函數，其輸入是單個連續5D函數，即3D空間位置（xx，yy，zz）和視角方向（θθ，??），其輸出為RGB顏色和不透明度（輸出密度）。為了合成給定的視圖，渲染過程包括沿攝像機光心所在的直線查詢5D坐標，并使用經典的體素渲染技術將輸出的顏色和密度投影到圖像中。由于體素渲染是可以區分的，因此優化表示所需的唯一輸入就是具有已知攝影機姿勢參數的一組圖像。這樣，NeRF能夠有效地優化神經輻射場，以渲染具有復雜幾何形狀和外觀的場景的逼真視圖，并且在渲染的圖像和真實圖像之間具有簡單的重建損失，并證明其結果優于先前的神經渲染和視圖工作合成研究。

Towards Streaming Perception

（https://arxiv.org/abs/2005.10420）諸如自動駕駛汽車之類的實際應用需要類似于人類的快速反應時間，通常為200毫秒。在這種情況下，需要使用低延遲算法來確保安全運行。但是，即使經常研究計算機視覺算法的延遲，也僅主要在離線環境中進行了研究。在線視覺感知會帶來完全不同的延遲需求。因為到了算法完成處理特定圖像幀的時間（例如200毫秒后），周圍的世界就發生了變化，如下圖所示。這迫使感知最終預測了未來，這是人類視覺的基本屬性（例如，當棒球運動員擊中快球時，這是必需的）。

為了開發更好的基準以反映現實情況，并使現有方法的比較更加容易。本文介紹了流感知的目標，即實時在線感知，并提出了一種新的元基準，該基準將系統地將任何圖像理解任務系統地轉換為流圖像理解任務。該基準基于基于以下的幾點提出了：流感知需要在任何時刻都了解世界的狀態。因此，當新幀到達時，流算法必須報告世界的狀態，即使它們尚未處理前一幀，也迫使它們考慮在進行計算時應忽略的流數據量。具體來說，當比較模型的輸出和真實標簽時，對齊是使用時間而不是輸入索引來完成的，因此在處理相應的輸入之前，模型需要對時間步t給出正確的預測，即驗證模型需要Δt來處理輸入并處理，它只能使用t-Δt之前的數據來預測在時間t對應于輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images

（https://arxiv.org/abs/2004.14487）人類能夠在小時候就開始形成一種心理模型，該模型以對物體的感知和對應的觸覺來映射，這是基于與不同物品互動時的先前經驗。當與新對象進行交互時，尤其是當簡單的對象類別無法提供足夠的信息以準確估計觸覺物理特性時，讓具有這種心理模型的自主智能體成為非常有價值的工具。

為了更直接地模擬這種心理模型，本文提出直接估計物理特性，從而允許直接利用對象的屬性。首先，作者提出了包含400多個表面圖像序列和觸覺特性測量值的數據集。因為當估計表面特性時，人們經常不自覺地移動他們的頭部，獲取表面的多個視圖，所以所捕獲的圖像序列包括每個材料表面的多個視角。然后，他們提出了一種跨模式框架，用于學習視覺提示到觸覺特性的復雜映射。該模型的訓練目標是在給定視覺信息的情況下生成精確的觸覺特性估計。視覺和觸覺信息都通過單獨的編碼器網絡嵌入到共享的潛在空間中。然后，生成器函數根據嵌入的視覺矢量估算觸覺屬性值。鑒別器網絡學習預測觸覺-視覺對是真實的還是合成的例子。在推斷期間，如果輸入圖像，則使用編碼器-生成器對來推斷觸覺屬性。

Convolutional Occupancy Networks

（https://arxiv.org/abs/2003.04618）三維重建是計算機視覺中的一個重要問題，有著廣泛的應用。對于三維幾何圖形的理想表示，我們需要能夠達到以下幾點：a）編碼復雜的幾何圖形和任意拓撲結構，b）縮放到大型場景，c）封裝局部和全局信息，以及d）在內存和計算方面易于處理。然而，現有的三維重建表示方法并不能滿足所有這些要求。雖然最近的隱式神經表示在三維重建中表現出了令人印象深刻的性能，但是由于使用了一種簡單的全連接的網絡結構，這種結構不允許在觀測值中集成局部信息，也不允許包含諸如平移等變的歸納偏差，因此它們有著一些局限性。

Convolutional Occupancy Networks卷積占用網絡使用卷積編碼器和隱式占用解碼器結合來歸納偏差，并實現三維空間的結構化推理。從而得到單個對象進行隱式三維重建，具有擴展到大型室內場景的能力，并能很好地從合成數據推廣到真實數據。

圖像和視頻合成

Transforming and Projecting Images into Class-conditional Generative Networks

（https://arxiv.org/abs/2005.01703） GaNs能夠從不同的類別中生成不同的圖像。例如，BigGaN，一個類體哦阿健生成對抗網絡GaN，給定一個噪聲向量z和一個類嵌入向量c，該模型能夠生成對應類的新的圖像。然后，就可以通過編輯噪聲向量的隱變量和類別嵌入向量來操縱圖像。但反過來可能嗎？例如，給定一幅輸入圖像，我們能找到與該圖像最匹配的潛變量z和嵌入類向量c嗎？這個問題仍然具有挑戰性，因為許多輸入圖像不能由GaN生成。另外，由于目標函數具有多個局部極小值，搜索算法容易陷入此類局部極小值區域。

為了解決這些問題，本文提出了兩種新的思路：估計輸入圖像的尺度變換，以及使用非局部搜索算法來尋找更好的解。如上所示，給定輸入圖像，pix2potent首先找到最佳仿射變換，使得變換后的輸入可能由GaN生成，然后使用所提出的basicma優化方法將圖像投影到隱空間中。然后對獲得的隱變量進行編輯，將其投影回圖像空間，獲得編輯后的圖像，然后可以使用初始仿射變換的逆運算對其進行變換并得到圖像。

Contrastive Learning for Unpaired Image-to-Image Translation

（https://arxiv.org/abs/2007.15651）

給定兩組不同屬性和模式的圖像對訓練集，例如馬和斑馬的圖像組合，非配對圖像到圖像的轉換的目的是學習兩種模圖像式之間的變化函數，例如將馬轉換為斑馬，反之亦然，同時保留諸如姿勢或大小等敏感信息，而不必確保兩種模式之間的一對一匹配集。現有的方法，如CycleGaN迫使模型能夠將轉換后的圖像變換回原始圖像。但是這樣的方法假設一個雙射變換，這通有太多限制，因為一個給定的變換后的圖像可能有許多似是而非的源圖像。一個理想的損失應該是在不同的樣式下仍然保持不變的，不同的風格，但區分敏感信息。

Contrastive Unpaired Translation（CUT）旨在學習這樣一個嵌入空間。除了標準的GAN損失外，生成器被訓練生成夠真實的翻譯圖像，而鑒別器試圖區分轉換圖像和真實圖像。還要增加一個額外的損失，用來迫使網絡對輸入圖像與轉換圖像的對應圖像塊生成相似的嵌入向量。該損失在優化時采用對比損失，即拉近兩個對應圖像塊的嵌入向量的距離，同時拉遠給定圖像塊和隨機抽樣圖像塊嵌入之間的距離（只使用同一輸入圖像的內部區塊，其他圖像的區塊會降低性能）。

Rewriting a Deep Generative Model

（https://arxiv.org/abs/2007.15646） GAN 能夠對數據分布中豐富的語義和物理規則進行建模，但是到目前為止，這些規則是如何在網絡中編碼的，或者一個規則是如何被改變的我們還不是十分清楚。本文介紹了一種新的問題：操作由深度生成網絡模型編碼的特定規則。因此，給定一個生成模型，目標是調整其權重，使新的和修改后的模型遵循新的規則，并生成遵循新規則集的圖像，如下所示。

通過將網絡的每一層視為一個關聯存儲器，將潛在生成規則儲存為隱藏特征上的一組鍵值關系?？梢酝ㄟ^定義約束優化來編輯和修改模型，約束優化在關聯性儲存器中添加或編輯一個特定規則，同時盡可能保留模型中現有的語義關系。論文直接通過度量和操縱模型的內部結構來實現這一點，而不需要任何新的訓練數據。

Learning Stereo from Single Images

（https://arxiv.org/abs/2008.01484）給定一對對應的圖像，視差匹配的目標是估計從第一視圖到第二視圖的每個像素的對應位置之間的每像素水平位移（即視差），反之亦然。雖然全監督的方法可以給出很好的結果，但一對視察圖像之間精確的真實視差往往很難獲得。一種可能的替代方法是對合成數據進行訓練，然后對有限數量的實際標記數據進行微調。但是，如果沒有一個帶有足夠標簽的微調步驟，這樣的模型就不能很好地生成真實的圖像。

該文提出了一種新的、全自動的視差估計訓練流程，通過使用圖像深度估計網絡，該方法可以由已知深度信息的非結構化單幅圖像生成視差估計訓練數據，這樣就無需人工合成數據或真實視差圖像對即可進行訓練。。首先，通過使用深度視差的前向形變操作將給定的左輸入圖像轉換為合成的右圖像。然后，利用視差圖像對，以有監督的方式對視差估計網絡進行訓練，得到一個泛化的模型。

What makes fake images detectable? Understanding properties that generalize

（https://arxiv.org/abs/2008.10588）雖然GaN生成圖像的質量已經達到了令人印象深刻的水平，但是經過訓練的深度網絡仍然可以檢測到生成圖像中的細微偽影，并且這種訓練的網絡還可以在不同數據集和不同方法上訓練的多個模型中發現相同的偽影。本文旨在可視化和理解哪些工件在模型之間是共享的，并且容易在不同的場景中檢測和轉移。

由于全局面部結構在不同的生成器和數據集之間可能有所不同，因此生成的圖像的局部面片更加確定，并且可能產生冗余的偽影。為此，本文采用了一種基于區塊的全卷積分類器來關注局部區塊而不是全局結構。然后可以使用路徑級分類器來可視化和分類在各種測試數據集中最能指示真實或虛假圖像的區塊。另外，可以對生成的圖像進行操作以夸大假圖像的特征屬性。

視覺和語言

Connecting Vision and Language with Localized Narratives

（https://arxiv.org/abs/1912.03098）連接視覺和語言的一種流行方式是圖像標題，其中每個圖像都與人類編寫的文本標題配對，但這種鏈接僅在完整的圖像尺度范圍內，其中的文本描述了整個圖像。為了改進這種若的關聯，有人嘗試著將圖片標題的特定部分和圖像中的目標框聯系起來。但是，這種關聯仍然非常稀疏，大多數對象和單詞都沒有對應的目標框，且注釋過程可能會非常昂貴。

本文提出了一種新的有效的多模態圖像標注形式，稱之為定位敘事。定位敘述是通過要求注釋者用他們的聲音描述一個圖像，同時將鼠標懸停在他們描述的區域上而生成的。例如，如上圖所示，注釋者一邊說“woman”，一邊用鼠標指示她的空間范圍，從而為這個名詞提供了視覺基礎。后來，他們把鼠標從女人身上移到氣球上，跟著氣球的繩子，說“holding”。這為這種關系提供了直接的視覺基礎。它們還描述了“晴朗的藍天”和“淺藍色牛仔褲”等屬性。由于語音與鼠標指針同步，因此可以確定描述中每個單詞的圖像位置。這以鼠標軌跡段的形式為每個單詞提供了密集視覺基礎。這一豐富的注釋方法具有多種形式（圖像、文本、語音和位置），可用于文本到圖像生成、視覺問答和語音驅動的環境導航等不同的任務。或者，為了更精細地控制任務，可以在圖像的特定部分設置條件化字幕，視力不理想的人可以通過將手指懸停在圖像上來獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning

（https://arxiv.org/abs/1909.11740）大多數視覺與語言任務（V&L）如視覺問答（VQA）依賴于多模態聯合嵌入來彌補圖像和文本中視覺和文本線索之間的語義鴻溝。但是這種表示通常是為特定的任務定制的，并且需要特定的體系結構。為了學習可用于所有V&L下游任務的通用聯合嵌入。本文介紹了一種大規模聯合多模態嵌入預訓練模型 UNITER ，如下圖所示。在transformer模型的基礎上，對UNITER進行了4個任務的預訓練：基于圖像的蒙版語言建模（MLM），利用圖像和文本特征恢復隨機蒙版單詞。以文本為條件的蒙版區域建模（MRM），即重構給定圖像的某些區域；圖像文本匹配（ITM），即預測圖像和文本實例是否配對；以及單詞區域對齊（WRA），即學習最佳變換找到單詞和圖像之間的最佳對齊。為了在下游任務中使用UNITER，首先將其重新表示為分類問題，然后使用交叉熵損失對添加在[CLS]特征上的分類器進行訓練。

Learning to Learn Words from Visual Scenes

（https://arxiv.org/abs/1911.11237）視覺和語言任務的標準方法是學習一個共同的嵌入空間，但是這種方法效率很低，通常需要數百萬個例子來學習，對語言的自然構成結構的泛化很差，而且所學嵌入在推理時無法適應新詞。因此，本文提出讓網絡嘗試學習單詞嵌入的過程，而不是學習單詞嵌入。

該模型基于transformer模型，在每次迭代中，該模型接收一個圖像語言對，然后元學習一個策略從該集中獲取詞表示。這就使得我們能夠在推理時獲得新單詞的表示，并且能夠更魯棒地推廣到新的描述任務中。具體來說，每一個任務都是一個語言習得任務或一個小插曲，由訓練樣本和測試樣本組成，測試樣本對從訓練樣本中獲得的語言進行評價。例如，在上圖中，模型需要從訓練樣本中獲取單詞“chair”，這是它以前從未見過的單詞。元訓練是在向前傳遞中完成的，并使得模型需要指向訓練示例中正確的單詞“chair”，并使用匹配損失來訓練整個模型。經過多種事件和任務的訓練，該模型能夠很快適應推理過程中的新任務。結語讓人感到遺憾的是，論文的數量使得總結任務變得困難和耗時。所以對于其余的論文，我將簡單地列出一些我遇到的論文的標題，如果讀者對這些主題感興趣的話也方便自行查找研究（參考原文）。

責任編輯：lq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴