在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

結合句子間差異的無監督句子嵌入對比學習方法-DiffCSE

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-05 11:35 ? 次閱讀

寫在前面

今天分享給大家一篇NAACL2022論文,結合句子間差異的無監督句子嵌入對比學習方法-DiffCSE,全名《DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings》。該篇論文主要是在SimCSE上進行優化,通過ELECTRA模型的生成偽造樣本和RTD(Replaced Token Detection)任務,來學習原始句子與偽造句子之間的差異,以提高句向量表征模型的效果。

paper:https://arxiv.org/pdf/2204.10298.pdf
github:https://github.com/voidism/DiffCSE

介紹

句向量表征技術目前已經通過對比學習獲取了很好的效果。而對比學習的宗旨就是拉近相似數據,推開不相似數據,有效地學習數據表征。SimCSE方法采用dropout技術,對原始文本進行數據增強,構造出正樣本,進行后續對比學習訓練,取得了較好的效果;并且在其實驗中表明”dropout masks機制來構建正樣本,比基于同義詞或掩碼語言模型的刪除或替換等更復雜的增強效果要好得多。“。這一現象也說明,「直接增強(刪除或替換)往往改變句子本身語義」

paper:https://aclanthology.org/2021.emnlp-main.552.pdf
github:https://github.com/princeton-nlp/SimCSE
論文解讀:https://zhuanlan.zhihu.com/p/452761704

Dangovski等人發現,在圖像上,采用不變對比學習和可變對比學習相互結合的方法可以提高圖像表征的效果。而采用不敏感的圖像轉換(如,灰度變換)進行數據增強再對比損失來改善視覺表征學習,稱為「不變對比學習」。而「可變對比學習」,則是采用敏感的圖像轉換(如,旋轉變換)進行數據增強的對比學習。如下圖所示,做左側為不變對比學習,右側為可變對比學習。對于NLP來說,「dropout方法」進行數據增強為不敏感變化,采用「詞語刪除或替換等」方法進行數據增強為敏感變化。

0a73af38-cbbd-11ec-bce3-dac502259ad0.png

paper:https://arxiv.org/pdf/2111.00899.pdf

作者借鑒Dangovski等人在圖像上的做法,提出來「DiffCSE方法」,通過使用基于dropout masks機制的增強作為不敏感轉換學習對比學習損失和基于MLM語言模型進行詞語替換的方法作為敏感轉換學習「原始句子與編輯句子」之間的差異,共同優化句向量表征。

模型

模型如下圖所示,

0a944d06-cbbd-11ec-bce3-dac502259ad0.png

左側為一個標準的SimCSE模型,右側為一個帶條件的句子差異預測模型。給定一個句子,SimCSE模型通過dropout機制構造一個正例,使用BERT編碼器f,獲取句向量,SimCSE模型的訓練目標為:

其中,為訓練輸入batch大小,為余弦相似度,為溫度參數.

右側實際上是ELECTRA模型,包含生成器和判別器。給定一個長度為T的句子,,生成一個隨機掩碼序列,其中。使用MLM預訓練語言模型作為生成器G,通過掩碼序列來生成句子中被掩掉的token,獲取生成序列。然后使用判別器D進行替換token檢測,也就是預測哪些token是被替換的。其訓練目標為:

針對一個batch的訓練目標為。

最終將兩個loss通過動態權重將其結合,

為了使判別器D的損失可以傳播的編碼器f中,將句向量拼接到判別器D的輸入中,輔助進行RTD任務,這樣做可以鼓勵編碼器f使信息量足夠大,從而使判別器D能夠區分和之間的微小差別。

當訓練DiffCSE模型時,固定生成器G參數,只有句子編碼器f和鑒別器D得到優化。訓練結束后,丟棄鑒別器D,只使用句子編碼器f提取句子嵌入對下游任務進行評價。

結果&分析

在句子相似度任務以及分類任務上的效果,如下表1和表2所示,相比與SimCSE模型均有提高,

0aa24fdc-cbbd-11ec-bce3-dac502259ad0.png

0ac4e8e4-cbbd-11ec-bce3-dac502259ad0.png

為了驗證DiffCSE模型具體是哪個部分有效,進行以下消融實驗。

Removing Contrastive Loss

如表3所示,當去除對比學習損失,僅采用RTD損失時,在句子相似度任務上,下降30%,在分類任務上下降2%。

0af3bdd6-cbbd-11ec-bce3-dac502259ad0.png

Next Sentence vs. Same Sentence

如表3所示,當將同句話預測任務,變成預測下句話任務時,在句子相似度任務和分類任務上,具有不同程度的下降。

Other Conditional Pretraining Tasks

DiffCSE模型采用MLM模型和LM模型分別作為生成器時,效果如表3所示,在句子相似度任務和分類任務上,具有不同程度的下降。句子相似度任務上下降的較為明顯。

Augmentation Methods: Insert/Delete/Replace

將MLM模型生成偽造句換成隨機插入、隨機刪除或隨機替換的效果,如表示所4,MLM模型的效果綜合來說較為優秀。

0b2021e6-cbbd-11ec-bce3-dac502259ad0.png

Pooler Choice

在SimCSE模型中,采用pooler層(一個帶有tanh激活函數的全連接層)作為句子向量輸出。該論文實驗發現,采用帶有BN的兩層pooler效果更為突出,如表5所示;并發現,BN在SimCSE模型上依然有效。

0b423128-cbbd-11ec-bce3-dac502259ad0.png

代碼如下:

classProjectionMLP(nn.Module):
def__init__(self,config):
super().__init__()
in_dim=config.hidden_size
hidden_dim=config.hidden_size*2
out_dim=config.hidden_size
affine=False
list_layers=[nn.Linear(in_dim,hidden_dim,bias=False),
nn.BatchNorm1d(hidden_dim),
nn.ReLU(inplace=True)]
list_layers+=[nn.Linear(hidden_dim,out_dim,bias=False),
nn.BatchNorm1d(out_dim,affine=affine)]
self.net=nn.Sequential(*list_layers)

defforward(self,x):
returnself.net(x)

Size of the Generator

在DiffCSE模型中,嘗試了不同大小的生成器G,如下表所示,DistilBERTbase模型效果最優。并且發現與原始ELECTRA模型的結論不太一致。原始ELECTRA認為生成器的大小在判別器的1/4到1/2之間效果是最好的,過強的生成器會增大判別器的難度。而DiffCSE模型由于融入了句向量,導致判別器更容易判別出token是否被替換,所以生成器的生成能力需要適當提高。

0b4ebb78-cbbd-11ec-bce3-dac502259ad0.png

Masking Ratio

對于掩碼概率,經實驗發現,在掩碼概率為30%時,模型效果最優。

0b5df624-cbbd-11ec-bce3-dac502259ad0.png

Coefficient λ

針對兩個損失之間的權重值,經實驗發現,對比學習損失為RTD損失200倍時,模型效果最優。

0b710796-cbbd-11ec-bce3-dac502259ad0.png

總結

個人覺得這篇論文的主要思路還是通過加入其他任務,來增強句向量表征任務,整體來說挺好的。但是該方法如何使用到監督學習數據上,值得思考,歡迎留言討論。

審核編輯 :李倩
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7170

    瀏覽量

    89706
  • 生成器
    +關注

    關注

    7

    文章

    320

    瀏覽量

    21153
  • 向量
    +關注

    關注

    0

    文章

    55

    瀏覽量

    11711

原文標題:DiffCSE:結合句子間差異的無監督句子嵌入對比學習方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AN205 GD32E51x與GD32E50x系列差異

    電子發燒友網站提供《AN205 GD32E51x與GD32E50x系列差異.pdf》資料免費下載
    發表于 01-17 16:24 ?0次下載
    AN205 GD32E51x與GD32E50x系列<b class='flag-5'>間</b>的<b class='flag-5'>差異</b>

    傳統機器學習方法和應用指導

    用于開發生物學數據的機器學習方法。盡管深度學習(一般指神經網絡算法)是一個強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度學習相比,傳統方法在給定問題上的開發和測試速度更快。
    的頭像 發表于 12-30 09:16 ?418次閱讀
    傳統機器<b class='flag-5'>學習方法</b>和應用指導

    嵌入式系統開發中的測試方法 嵌入式系統開發與AI結合應用

    嵌入式系統開發中的測試方法 嵌入式系統開發是一個復雜的過程,涉及到硬件和軟件的緊密結合。測試是確保系統可靠性和性能的關鍵步驟。以下是一些常用的測試
    的頭像 發表于 12-09 10:22 ?572次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的機器學習的定義是“利用經
    的頭像 發表于 11-16 01:07 ?530次閱讀
    什么是機器<b class='flag-5'>學習</b>?通過機器<b class='flag-5'>學習方法</b>能解決哪些問題?

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?343次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    嵌入學習建議

    對廣大渴望學習嵌入式系統的學子提出幾點基礎階段的學習建議: ①嵌入式系統軟件硬件密切相關,一定要打好軟硬件基礎。其實,只要找到正確的方法
    發表于 10-22 11:41

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量標簽文本數據
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    講解,包括偏置、權重、激活函數;三要素包括網絡結構、損失函數和優化方法。章節最后總結了神經網絡參數學習的關鍵步驟。 1.4章節描述了自然語言處理的相關知識點,包括什么是自然語言處理、文本的向量化和自監督學習方法
    發表于 07-25 14:33

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的數據中發現數據內在的結構、模
    的頭像 發表于 07-09 18:06 ?919次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?984次閱讀

    深度學習與傳統機器學習對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但深度學習和傳統機
    的頭像 發表于 07-01 11:40 ?1558次閱讀

    谷歌提出大規模ICL方法

    谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和監督兩種新型的ICL(In-Context Learning)學習方法,這一創新技術能夠在多個領域顯著提升模型的性能。
    的頭像 發表于 05-14 14:17 ?411次閱讀

    QNX與Linux基礎差異對比

    對于QNX系統和Linux系統的內核差異,我們拋開宏內核、微內核之類的爭議不談。單純從開發應用的角度而言,QNX和Linux系統的差異到底有多大,在開發的時候需要注意哪些細節問題?
    發表于 04-17 10:52 ?942次閱讀

    OpenAI推出Sora:AI領域的革命性突破

    大模型的核心技術是自然語言處理(NLP)和深度學習。具體而言,它基于Transformer架構,使用了大規模監督學習方法,例如自回歸語言建模和掩碼語言建模,來訓練一個龐大的神經網絡模型。
    發表于 02-21 16:36 ?1058次閱讀
    OpenAI推出Sora:AI領域的革命性突破

    Meta發布新型監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監督視頻預測模型,名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習,提供了一種全新的視頻處理
    的頭像 發表于 02-19 11:19 ?1092次閱讀
    主站蜘蛛池模板: 色多多网站在线观看 | 免费视频一区二区性色 | 午夜免费片在线观看不卡 | 成人影院免费观看 | 永久免费人成网ww555kkk手机 | jiucao在线观看精品 | 最新色视频 | 免费在线观看黄 | 男女在线观看视频 | 看黄免费在线 | 四虎4hu影库免费永久国产 | 综合久久婷婷 | 天堂bt在线 | 日本免费黄色小视频 | 天堂福利视频在线观看 | 天天干天天操天天玩 | 影视精品网站入口 | 婷婷四房播客五月天 | 26uuu欧美日本| 色www 永久免费网站 | 亚洲人成电影在线播放 | 曰本三级香港三级人妇99视频 | 一女多夫嗯啊高h | 手机免费看大片 | 五月综合色 | 亚洲精品中文字幕乱码三区一二 | 亚洲第一在线播放 | 日本特黄特色特爽大片老鸭 | 国产高清在线播放免费观看 | 手机在线小视频 | 激情福利网站 | 手机看片神马午夜 | 丁香六月婷婷精品免费观看 | 激情福利 | 青草视频网站在线观看 | 日本三级2018亚洲视频 | 久久香蕉国产精品一区二区三 | 日本a级片免费 | 午夜看片网址 | 一卡二卡四卡无卡乱免费网页 | 三级色图|