完美世界小说下载,已完结小说排行榜,耳根

表示學習的目的是將原始數(shù)據(jù)轉(zhuǎn)換成更好的表達，以提升下游任務的效果。在表示學習中，損失函數(shù)的設計一直是被研究的熱點。損失指導著整個表示學習的過程，直接決定了表示學習的效果。這篇文章總結(jié)了表示學習中的7大損失函數(shù)的發(fā)展歷程，以及它們演進過程中的設計思路，主要包括contrastive loss、triplet loss、n-pair loss、infoNce loss、focal loss、GHM loss、circle loss。

1. Contrastive Loss

Dimensionality Reduction by Learning an Invariant Mapping（CVPR 2006）提出contrastive loss，模型中輸入兩個樣本，經(jīng)過相同的編碼器得到兩個樣本的編碼。如果兩個樣本屬于同一類別，則優(yōu)化目標為讓兩個樣本在某個空間內(nèi)的距離小；如果兩個樣本不屬于同一類別，并且兩個樣本之間的距離小于一個超參數(shù)m，則優(yōu)化目標為讓兩個樣本距離接近m。損失函數(shù)可以表示為：

Contrastive Loss是后面很多表示學習損失函數(shù)的基礎，通過這種對比的方式，讓模型生成的表示滿足相似樣本距離近，不同樣本距離遠的條件，實現(xiàn)更高質(zhì)量的表示生成。

2. Triplet Loss

FaceNet: A unified embedding for face recognition and clustering（CVPR 2015）提出triplet loss，計算triplet loss需要比較3個樣本，這3個樣本分別為anchor、position和negtive。其目標為讓anchor和positive樣本（類別相同）的距離盡可能近，而和negtive樣本（類別不同）的距離盡可能遠。因此triplet loss設計為，讓anchor和positive樣本之間的距離比anchor和negtive樣本要小，并且要小至少一個margin的距離才不計入loss。

3. N-pair Loss

Improved Deep Metric Learning with Multi-class N-pair Loss Objective（NIPS 2016）提出N-pairLoss。在之前提出的contrastive loss和triplet loss中，每次更新只會使用一個負樣本，而無法見到多種其他類型負樣本信息，因此模型優(yōu)化過程只會保證當前樣本的embedding和被采樣的負樣本距離遠，無法保證和所有類型的負樣本都遠，會影響模型收斂速度和效果。即使多輪更新，但是這種情況仍然會導致每輪更新的不穩(wěn)定性，導致學習過程持續(xù)震蕩。

為了解決這個問題，讓模型在每輪更新中見到更多的負樣本，本文提出了N-pair loss，主要改進是每次更新的時候會使用多個負樣本的信息。N-pair loss可以看成是一種triplet loss的擴展，兩個的關系如下圖，當我們有1個正樣本和N-1個負樣本時，N-pair loss的計算方式：

擴大負樣本數(shù)量的問題在于，原來每個batch內(nèi)只需要計算N*3個樣本，現(xiàn)在需要計算N*(N+1)個樣本，運算量大幅度提高，難以實現(xiàn)。為了解決這個問題，文中提出將一個batch內(nèi)不同樣本的負樣本數(shù)據(jù)共享，這樣只需要計算3*N個樣本的embedding即可，實現(xiàn)了效率提升。

4. InfoNceLoss

Representation learning with contrastive predictive coding（2018）提出infoNce loss，是對比學習中最常用的loss之一，它和softmax的形式很相似，主要目標是給定一個query，以及k個樣本，k個樣本中有一個是和query匹配的正樣本，其他都是負樣本。當query和正樣本相似，并且和其他樣本都不相似時，loss更小。InfoNCE loss可以表示為如下形式，其中r代表temperature，采用內(nèi)積的形式度量兩個樣本生成向量的距離，InfoNCE loss也是近兩年比較火的對比學習中最常用的損失函數(shù)之一：

相比softmax，InfoNCE loss使用了temperature參數(shù)，以此將樣本的差距拉大，提升模型的收斂速度。

5. Focal Loss

Focal Loss for Dense Object Detection（2018）提出Focal Loss，最開始主要是為了解決目標檢測中的問題，但是在很多其他領域也可以適用。Focal Loss解決的核心問題是，當數(shù)據(jù)中有很多容易學習的樣本和較少的難學習樣本時，如何調(diào)和難易樣本的權重。如果數(shù)據(jù)中容易的樣本很多，難的樣本很少，容易的樣本就會對主導整體loss，對難樣本區(qū)分能力弱。

為了解決這個問題，F(xiàn)ocal Loss根據(jù)模型對每個樣本的打分結(jié)果給該樣本的loss設置一個權重，減小容易學的樣本（即模型打分置信的樣本）的loss權重。在交叉熵的基礎上，公式可以表示如下：

其中pt表示，當label為1時模型的預測值，當label為0時1-模型的預測值。通過對這個loss公式的分析可以看出，對于label為1的樣本，且模型預測值接近1，這個時候該樣本分類正確且容易預測，則第一項權重接近0，顯著減小了這種易分類樣本的loss權重。當label為0，模型預測值接近1時，屬于預測錯誤，loss的權重也是接近1的，對該樣本的loss基本沒有影響。

6. GHM Loss

在Focal Loss中強制讓模型關注難分類的樣本，但是數(shù)據(jù)中可能也存在一些異常點，過度關注這些難分類樣本，反而會讓模型效果變差。Gradient Harmonized Single-stage Detector（AAAI 2019）提出了GHM Loss，

首先分析了一個收斂的目標檢測模型中，所有樣本梯度模長的分布情況。梯度模長衡量了一個樣本對模型梯度的影響大小（不考慮方向），反映了一個樣本的難以程度，g越大模型因為此樣本需要更新的梯度越大，預測難度越大。基于交叉熵和模型輸出，梯度模長g定義如下：

一個收斂的目標檢測模型的梯度模長分布如下，簡單樣本（即g很小的樣本）占絕大多數(shù)，這部分樣本是我們希望減小其loss權重的；同時還有很多難樣本，它們的g非常大，這部分可以被視作異常點，因為它們的梯度不符合大多數(shù)樣本，對于這部分極難樣本也應該減小權重。

為了同時減小易學習樣本和異常點樣本的權重，文中引入了梯度密度的概念（GD），衡量單位梯度模長的樣本密度。這個梯度密度用來作為交叉熵loss中的樣本權重，公式如下：

上面右側(cè)的圖對比了各種loss對不同梯度模長樣本的影響情況，可以看到GHM對于簡單樣本和困難樣本都進行了一定的loss抑制，而Focal Loss只能對簡單樣本進行l(wèi)oss抑制，普通loss對這兩類樣本都沒有抑制作用。

7. Circle Loss

Circle Loss: A Unified Perspective of Pair Similarity Optimization（CVPR 2020）提出circle loss，從一個統(tǒng)一的視角融合了class-level loss和pair-wise loss。這兩種優(yōu)化目標，其實都是在最小化sn-sp，其中sn表示between-class similarity，即不同類別的樣本表示距離應該盡可能大；sp表示within-class similarity，即相同類別的樣本表示距離盡可能小。因此，兩種類型的loss都可以寫成如下統(tǒng)一形式：

基于sn-sp這種loss存在的問題是，優(yōu)化過程中對sn和sp的懲罰力度是一樣的。例如下面左圖中，A點的sn已經(jīng)很小了，滿足要求了，而sp還不夠大，sn-sp這種優(yōu)化方法讓sn和sp的更新幅度相同。而更好的方法是多更新一些sp，少更新一些sn。此外，這種loss在優(yōu)化過程中也會導致模棱兩可的情況，導致收斂狀態(tài)不明確。例如T和T'這兩個點，都滿足給定margin的情況下的優(yōu)化目標，但卻存在不同的優(yōu)化點。

為了解決這個問題，circle loss在sn和sp分別增加了權重，用來動態(tài)確定sn和sp更新的力度，實現(xiàn)sn和sp以不同步調(diào)學習，circle loss的公式如下。當sn或sp相似度結(jié)果距離各自的最優(yōu)點較遠時，會以一個更大的權重進行更新。同時，在這種情況下loss不再是對稱的，需要對sn和sp分別引入各自的margin。