斗破苍穹续集,玄幻小说排行榜完本,欢乐颂第三季

寫在前面

今天分享給大家一篇NAACL2022論文，結合句子間差異的無監督句子嵌入對比學習方法-DiffCSE，全名《DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings》。該篇論文主要是在SimCSE上進行優化，通過ELECTRA模型的生成偽造樣本和RTD（Replaced Token Detection）任務，來學習原始句子與偽造句子之間的差異，以提高句向量表征模型的效果。

paper：https://arxiv.org/pdf/2204.10298.pdf
github：https://github.com/voidism/DiffCSE

介紹

句向量表征技術目前已經通過對比學習獲取了很好的效果。而對比學習的宗旨就是拉近相似數據，推開不相似數據，有效地學習數據表征。SimCSE方法采用dropout技術，對原始文本進行數據增強，構造出正樣本，進行后續對比學習訓練，取得了較好的效果；并且在其實驗中表明”dropout masks機制來構建正樣本，比基于同義詞或掩碼語言模型的刪除或替換等更復雜的增強效果要好得多。“。這一現象也說明，「直接增強（刪除或替換）往往改變句子本身語義」。

paper：https://aclanthology.org/2021.emnlp-main.552.pdf
github：https://github.com/princeton-nlp/SimCSE
論文解讀：https://zhuanlan.zhihu.com/p/452761704

Dangovski等人發現，在圖像上，采用不變對比學習和可變對比學習相互結合的方法可以提高圖像表征的效果。而采用不敏感的圖像轉換（如，灰度變換）進行數據增強再對比損失來改善視覺表征學習，稱為「不變對比學習」。而「可變對比學習」，則是采用敏感的圖像轉換（如，旋轉變換）進行數據增強的對比學習。如下圖所示，做左側為不變對比學習，右側為可變對比學習。對于NLP來說，「dropout方法」進行數據增強為不敏感變化，采用「詞語刪除或替換等」方法進行數據增強為敏感變化。

paper：https://arxiv.org/pdf/2111.00899.pdf

作者借鑒Dangovski等人在圖像上的做法，提出來「DiffCSE方法」，通過使用基于dropout masks機制的增強作為不敏感轉換學習對比學習損失和基于MLM語言模型進行詞語替換的方法作為敏感轉換學習「原始句子與編輯句子」之間的差異，共同優化句向量表征。

模型

模型如下圖所示，

左側為一個標準的SimCSE模型，右側為一個帶條件的句子差異預測模型。給定一個句子，SimCSE模型通過dropout機制構造一個正例，使用BERT編碼器f，獲取句向量，SimCSE模型的訓練目標為：

其中，為訓練輸入batch大小，為余弦相似度，為溫度參數.

右側實際上是ELECTRA模型，包含生成器和判別器。給定一個長度為T的句子，，生成一個隨機掩碼序列，其中。使用MLM預訓練語言模型作為生成器G，通過掩碼序列來生成句子中被掩掉的token，獲取生成序列。然后使用判別器D進行替換token檢測，也就是預測哪些token是被替換的。其訓練目標為：

針對一個batch的訓練目標為。

最終將兩個loss通過動態權重將其結合，

為了使判別器D的損失可以傳播的編碼器f中，將句向量拼接到判別器D的輸入中，輔助進行RTD任務，這樣做可以鼓勵編碼器f使信息量足夠大，從而使判別器D能夠區分和之間的微小差別。

當訓練DiffCSE模型時，固定生成器G參數，只有句子編碼器f和鑒別器D得到優化。訓練結束后，丟棄鑒別器D，只使用句子編碼器f提取句子嵌入對下游任務進行評價。

結果&分析

在句子相似度任務以及分類任務上的效果，如下表1和表2所示，相比與SimCSE模型均有提高，

為了驗證DiffCSE模型具體是哪個部分有效，進行以下消融實驗。

Removing Contrastive Loss

如表3所示，當去除對比學習損失，僅采用RTD損失時，在句子相似度任務上，下降30%，在分類任務上下降2%。

Next Sentence vs. Same Sentence

如表3所示，當將同句話預測任務，變成預測下句話任務時，在句子相似度任務和分類任務上，具有不同程度的下降。

Other Conditional Pretraining Tasks

DiffCSE模型采用MLM模型和LM模型分別作為生成器時，效果如表3所示，在句子相似度任務和分類任務上，具有不同程度的下降。句子相似度任務上下降的較為明顯。

Augmentation Methods: Insert/Delete/Replace

將MLM模型生成偽造句換成隨機插入、隨機刪除或隨機替換的效果，如表示所4，MLM模型的效果綜合來說較為優秀。

Pooler Choice

在SimCSE模型中，采用pooler層（一個帶有tanh激活函數的全連接層）作為句子向量輸出。該論文實驗發現，采用帶有BN的兩層pooler效果更為突出，如表5所示；并發現，BN在SimCSE模型上依然有效。

代碼如下：

classProjectionMLP(nn.Module):
def__init__(self,config):
super().__init__()
in_dim=config.hidden_size
hidden_dim=config.hidden_size*2
out_dim=config.hidden_size
affine=False
list_layers=[nn.Linear(in_dim,hidden_dim,bias=False),
nn.BatchNorm1d(hidden_dim),
nn.ReLU(inplace=True)]
list_layers+=[nn.Linear(hidden_dim,out_dim,bias=False),
nn.BatchNorm1d(out_dim,affine=affine)]
self.net=nn.Sequential(*list_layers)

defforward(self,x):
returnself.net(x)

Size of the Generator

在DiffCSE模型中，嘗試了不同大小的生成器G，如下表所示，DistilBERTbase模型效果最優。并且發現與原始ELECTRA模型的結論不太一致。原始ELECTRA認為生成器的大小在判別器的1/4到1/2之間效果是最好的，過強的生成器會增大判別器的難度。而DiffCSE模型由于融入了句向量，導致判別器更容易判別出token是否被替換，所以生成器的生成能力需要適當提高。

Masking Ratio

對于掩碼概率，經實驗發現，在掩碼概率為30%時，模型效果最優。

Coefficient λ

針對兩個損失之間的權重值，經實驗發現，對比學習損失為RTD損失200倍時，模型效果最優。

總結

個人覺得這篇論文的主要思路還是通過加入其他任務，來增強句向量表征任務，整體來說挺好的。但是該方法如何使用到監督學習數據上，值得思考，歡迎留言討論。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7232

瀏覽量
90714
生成器

生成器

+關注

關注
7

文章
322

瀏覽量
21542
向量

向量

+關注

關注
0

文章
55

瀏覽量
11813

原文標題：DiffCSE：結合句子間差異的無監督句子嵌入對比學習方法

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

嵌入式適合自學嗎?

，學習者可能會因為缺乏專業的指導而走很多彎路。例如，在學習STM32時，可能會因為不了解正確的學習方法和順序，而花費大量時間在一些不必要的內容上。 2）難以解決實際問題：在嵌入式開發中

發表于 04-27 09:54

18個常用的強化學習算法整理：從基礎方法到高級模型的理論技術與代碼實現

本來轉自：DeepHubIMBA本文系統講解從基本強化學習方法到高級技術（如PPO、A3C、PlaNet等）的實現原理與編碼過程，旨在通過理論結合代碼的方式，構建對強化學習算法的全面理解。為確保內容

發表于 04-23 13:22 ?121次閱讀

18個常用的強化<b class='flag-5'>學習</b>算法整理：從基礎<b class='flag-5'>方法</b>到高級模型的理論技術與代碼實現

一種無刷直流電機霍耳信號與定子繞組關系自學習方法

的關系。提出了一種無刷直流電機霍耳信號與定子繞組關系自學習方法，該方法通過不同的繞組通電組合將電機轉子依次轉到6個不同的位置并記錄對應的霍耳信號，然后得出霍耳信號與定子繞組的對應關系。所提出的

發表于 03-25 15:15

AN205 GD32E51x與GD32E50x系列間的差異

電子發燒友網站提供《AN205 GD32E51x與GD32E50x系列間的差異.pdf》資料免費下載

發表于 01-17 16:24 ?0次下載

傳統機器學習方法和應用指導

用于開發生物學數據的機器學習方法。盡管深度學習（一般指神經網絡算法）是一個強大的工具，目前也非常流行，但它的應用領域仍然有限。與深度學習相比，傳統方法在給定問題上的開發和測試速度更快。

發表于 12-30 09:16 ?871次閱讀

嵌入式系統開發中的測試方法嵌入式系統開發與AI結合應用

嵌入式系統開發中的測試方法嵌入式系統開發是一個復雜的過程，涉及到硬件和軟件的緊密結合。測試是確保系統可靠性和性能的關鍵步驟。以下是一些常用的測試方

發表于 12-09 10:22 ?1003次閱讀

什么是機器學習？通過機器學習方法能解決哪些問題？

來源：Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的機器學習的定義是“利用經

發表于 11-16 01:07 ?725次閱讀

時空引導下的時間序列自監督學習框架

【導讀】最近，香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章，相比原來的TS2Vec等時間序列表示學習工作，核心在于提出了將空間信息融入到預訓練階段，即在預訓練階段

發表于 11-15 11:41 ?570次閱讀

嵌入式學習建議

對廣大渴望學習嵌入式系統的學子提出幾點基礎階段的學習建議： ①嵌入式系統軟件硬件密切相關，一定要打好軟硬件基礎。其實，只要找到正確的方法，

發表于 10-22 11:41

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習，還包括對語言的深層次理解，如文化背景、語境含義和情感色彩等。自監督學習：模型采用自監督學習策略，在大量無標簽文本數據

發表于 08-02 11:03

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

講解，包括偏置、權重、激活函數；三要素包括網絡結構、損失函數和優化方法。章節最后總結了神經網絡參數學習的關鍵步驟。 1.4章節描述了自然語言處理的相關知識點，包括什么是自然語言處理、文本的向量化和自監督學習方法

發表于 07-25 14:33

神經網絡如何用無監督算法訓練

神經網絡作為深度學習的重要組成部分，其訓練方式多樣，其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模

發表于 07-09 18:06 ?1213次閱讀

深度學習中的無監督學習方法綜述

應用中往往難以實現。因此，無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學

發表于 07-09 10:50 ?1351次閱讀

深度學習與傳統機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器學習的范疇，但深度學習和傳統機

發表于 07-01 11:40 ?1999次閱讀

谷歌提出大規模ICL方法

谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監督兩種新型的ICL（In-Context Learning）學習方法，這一創新技術能夠在多個領域顯著提升模型的性能。

發表于 05-14 14:17 ?503次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

結合句子間差異的無監督句子嵌入對比學習方法-DiffCSE

寫在前面

介紹

模型

結果&分析

Removing Contrastive Loss

Next Sentence vs. Same Sentence

Other Conditional Pretraining Tasks

Augmentation Methods: Insert/Delete/Replace

Pooler Choice

Size of the Generator

Masking Ratio

Coefficient λ

總結

評論

嵌入式適合自學嗎?

18個常用的強化學習算法整理：從基礎方法到高級模型的理論技術與代碼實現

一種無刷直流電機霍耳信號與定子繞組關系自學習方法

AN205 GD32E51x與GD32E50x系列間的差異

傳統機器學習方法和應用指導

嵌入式系統開發中的測試方法嵌入式系統開發與AI結合應用

什么是機器學習？通過機器學習方法能解決哪些問題？

時空引導下的時間序列自監督學習框架

嵌入式學習建議

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

神經網絡如何用無監督算法訓練

深度學習中的無監督學習方法綜述

深度學習與傳統機器學習的對比

谷歌提出大規模ICL方法