在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種緩解負(fù)采樣偏差的對比學(xué)習(xí)句表示框架DCLR

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:張北辰 ? 2022-06-07 09:54 ? 次閱讀

本文針對句表示對比學(xué)習(xí)中的負(fù)采樣偏差進(jìn)行研究,提出了一種針對錯負(fù)例和各向異性問題的去偏句表示對比學(xué)習(xí)框架。該框架包括一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法,有效緩解了句表示任務(wù)中的負(fù)采樣偏差問題,提升了表示空間的均勻性。

論文題目:Debiased Contrastive Learning of Unsupervised Sentence Representations

論文下載地址:https://arxiv.org/abs/2205.00656

論文開源代碼:https://github.com/rucaibox/dclr

引言

作為自然語言處理(NLP)領(lǐng)域的一項(xiàng)基本任務(wù),無監(jiān)督句表示學(xué)習(xí)(unsupervised sentence representation learning)旨在得到高質(zhì)量的句表示,以用于各種下游任務(wù),特別是低資源領(lǐng)域或計(jì)算成本較高的任務(wù),如 zero-shot 文本語義匹配、大規(guī)模語義相似性計(jì)算等等。

考慮到預(yù)訓(xùn)練語言模型原始句表示的各向異性問題,對比學(xué)習(xí)被引入到句表示任務(wù)中。然而,以往工作的大多采用批次內(nèi)負(fù)采樣或訓(xùn)練數(shù)據(jù)隨機(jī)負(fù)采樣,這可能會造成采樣偏差(sampling bias),導(dǎo)致不恰當(dāng)?shù)呢?fù)例(假負(fù)例或各向異性的負(fù)例)被用來進(jìn)行對比學(xué)習(xí),最終損害表示空間的對齊度(alignment)和均勻性(uniformity)。

為了解決以上問題,我們提出了一種新的句表示學(xué)習(xí)框架 DCLR(Debiased Contrastive Learning of Unsupervised Sentence Representations)。在 DCLR 中,我們設(shè)計(jì)了一種懲罰假負(fù)例的實(shí)例加權(quán)方法以及一種基于噪聲的負(fù)例生成方法,有效緩解了句表示任務(wù)中的負(fù)采樣偏差問題,提升了表示空間的對齊度和均勻性。

背景與動機(jī)

近年來,預(yù)訓(xùn)練語言模型在各種 NLP 任務(wù)上取得了令人矚目的表現(xiàn)。然而,一些研究發(fā)現(xiàn),由預(yù)訓(xùn)練模型得出的原始句表示相似度都很高,在向量空間中并不是均勻分布的,而是構(gòu)成了一個狹窄的錐體,這在很大程度上限制了句表示的表達(dá)能力。

為了得到分布均勻的句表示,對比學(xué)習(xí)被應(yīng)用于句表示學(xué)習(xí)中。對比學(xué)習(xí)的目標(biāo)是從數(shù)據(jù)中學(xué)習(xí)到一個優(yōu)質(zhì)的語義表示空間。優(yōu)質(zhì)的語義表示空間需要正例表示分布足夠接近,同時語義表示盡量均勻地分布在超球面上,具體可以用以下兩種指標(biāo)來衡量:

1、對齊度(alignment)計(jì)算原始表示與正例表示的平均距離。

2、均勻性(uniformity)計(jì)算表示整體在超球面上分布的均勻程度。

因此,對比學(xué)習(xí)的思想為拉近語義相似的正例表示以提高對齊度,同時推開不相關(guān)的負(fù)例以提高整個表示空間的均勻性。

623771d8-e589-11ec-ba43-dac502259ad0.png

以往的基于對比學(xué)習(xí)的句表示學(xué)習(xí)工作大多使用 batch 內(nèi)數(shù)據(jù)作為負(fù)例或從訓(xùn)練數(shù)據(jù)中隨機(jī)采樣負(fù)例。然而,這類方式可能會造成抽樣偏差(sampling bias),導(dǎo)致不恰當(dāng)?shù)呢?fù)例(例如假負(fù)例或各向異性的負(fù)例)被用來學(xué)習(xí)句表示,這將損害表征空間的對齊性和統(tǒng)一性。上圖是 SimCSE 編碼的輸入句表示與批次內(nèi)其它樣本表示的余弦相似度分布。可以看到,有接近一半的相似度高于 0.7,直接在向量空間中推遠(yuǎn)這些負(fù)例很有可能損害模型的語義表示能力。

因此,本文聚焦于如何降低負(fù)采樣偏差,從而使得對比學(xué)習(xí)得到向量分布對齊、均勻的句表示。

方法簡介

DCLR 聚焦于減少句表示對比學(xué)習(xí)中負(fù)采樣偏差的影響。在這個框架中,我們設(shè)計(jì)了一種基于噪聲的負(fù)例生成策略和一種懲罰假負(fù)例的實(shí)例加權(quán)方法。

626bbf9c-e589-11ec-ba43-dac502259ad0.png

基于噪聲的負(fù)例生成

對于每個輸入句 ,我們首先基于高斯分布初始化個噪聲向量作為負(fù)例表示:

其中為標(biāo)準(zhǔn)差。因?yàn)檫@些噪聲向量是從上述高斯分布中隨機(jī)初始化的,所以它們均勻地分布在語義空間中。因此,模型可以通過學(xué)習(xí)這些負(fù)例來提高語義空間的均勻性。

為了提高生成負(fù)例的質(zhì)量,我們考慮迭代更新負(fù)例,以捕捉語義空間中的非均勻性點(diǎn)。受虛擬對抗訓(xùn)練(virtual adversarial training, VAT)的啟發(fā),我們設(shè)計(jì)了一個非均勻性(non-uniformity)損失最大化的目標(biāo)函數(shù)以產(chǎn)生梯度來改善這些負(fù)例。具體來說,目標(biāo)函數(shù)表示為基于噪聲的負(fù)例與正例表示的對比學(xué)習(xí)損失:

其中是溫度超參數(shù),是余弦相似度。對于每個負(fù)例 ,我們通過 t 步梯度上升法對其進(jìn)行優(yōu)化:

其中為學(xué)習(xí)率,是 L2 范數(shù)。表示通過最大化非均勻性目標(biāo)函數(shù)產(chǎn)生的的梯度。這樣一來,基于噪音的負(fù)例將朝著句表示空間的非均勻點(diǎn)優(yōu)化。學(xué)習(xí)與這些負(fù)例的對比可以進(jìn)一步提高表示空間的均勻性。

帶有實(shí)例加權(quán)的對比學(xué)習(xí)

除了上述基于噪音的負(fù)例,我們也遵循現(xiàn)有工作,使用其它批次內(nèi)樣本表示作為負(fù)例。然而,如前文所述,批次內(nèi)負(fù)例可能包含與正例有類似語義的例子,即假負(fù)例。為了緩解這個問題,我們提出了一種實(shí)例加權(quán)的方法來懲罰假負(fù)例。由于我們無法獲得真實(shí)的負(fù)例標(biāo)簽,我們利用補(bǔ)充模型 SimCSE 來計(jì)算每個負(fù)例的權(quán)重。給定 或 {hat{h}}中的一個負(fù)例表示 和原始句表示 ,我們使用補(bǔ)全模型來計(jì)算權(quán)重:

其中 是實(shí)例加權(quán)閾值,是余弦相似度函數(shù)。通過上式,與原句表示有較高語義相似性的負(fù)例將被視為假負(fù)例,并將被賦予 0 權(quán)重作為懲罰。基于以上權(quán)重,我們用去偏的交叉熵對比學(xué)習(xí)損失函數(shù)來優(yōu)化句表示:

我們的方法使用了 SimCSE 的 dropout 正例增廣策略,但也適用于其它多種正例增廣策略。

實(shí)驗(yàn)

數(shù)據(jù)集

遵循以往的工作,我們在 7 個標(biāo)準(zhǔn)語義文本相似度任務(wù)上進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集由成對句子樣本構(gòu)成,其相似性分?jǐn)?shù)被標(biāo)記為 0 到 5。標(biāo)簽分?jǐn)?shù)和句表示預(yù)測分?jǐn)?shù)之間的相關(guān)性由 Spearman 相關(guān)度來衡量。

主實(shí)驗(yàn)

我們在 7 個數(shù)據(jù)集上進(jìn)行了語義相似度測試,并與現(xiàn)有 baseline 進(jìn)行比較。可以看到,DCLR 的性能在絕大部分實(shí)驗(yàn)中優(yōu)于基線模型。

62aa3614-e589-11ec-ba43-dac502259ad0.png

分析與擴(kuò)展

6302ef02-e589-11ec-ba43-dac502259ad0.png

DCLR 框架包含兩個去偏負(fù)采樣策略,為了驗(yàn)證其有效性,我們對兩部分分別進(jìn)行了消融實(shí)驗(yàn)。除此之外,我們還考慮其它三種策略:

1、Random Noise 直接從高斯分布中生成負(fù)例,不進(jìn)行梯度優(yōu)化。

2、Knowledge Distillation 使用 SimCSE 作為教師模型在訓(xùn)練過程中向?qū)W生模型蒸餾知識。

3、Self Instance Weighting 將模型自己作為補(bǔ)全模型為實(shí)例計(jì)算權(quán)重。

結(jié)果顯示 DCLR 的性能優(yōu)于各類變種,表明所提策略的合理性。

6385619e-e589-11ec-ba43-dac502259ad0.png

均勻性是句表示的一個理想特征。我們比較了 DCLR 和 SimCSE 基于 BERT-base 在訓(xùn)練期間的均勻性損失曲線。遵循 SimCSE,均勻性損失函數(shù)為:

其中 是所有句表示的分布。如圖所示,隨著訓(xùn)練進(jìn)行,DCLR 的均勻性損失下降,而 SimCSE 沒有明顯的下降趨勢。這可能表明 DCLR 中基于噪聲的負(fù)例采樣方法能夠有效改善語義空間的均勻性。

63c1cd00-e589-11ec-ba43-dac502259ad0.png

為了驗(yàn)證 DCLR 在少樣本場景下的健壯性,我們在 0.3% 到 100% 的數(shù)據(jù)量設(shè)定下訓(xùn)練模型。結(jié)果表明,即使在相對極端的數(shù)據(jù)設(shè)定(0.3%)下,我們的模型性能也僅僅在兩個任務(wù)中分別下降了了 9% 和 4%,這顯示了模型在少樣本場景中的有效性。

六. 總結(jié)

本文提出了一種緩解負(fù)采樣偏差的對比學(xué)習(xí)句表示框架 DCLR。DCLR 采用一種可梯度更新的噪聲負(fù)例生成方法來提高語義空間的均勻性,同時使用實(shí)例加權(quán)的方法緩解假負(fù)例問題,提升語義空間對齊度。實(shí)驗(yàn)表明,該方法在大部分任務(wù)設(shè)定下優(yōu)于其它基線模型。

在未來,我們將探索其他減少句表示任務(wù)中對比學(xué)習(xí)偏差的方法(例如去偏預(yù)訓(xùn)練)。此外,我們還將考慮將我們的方法應(yīng)用于多語言或多模態(tài)的表示學(xué)習(xí)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17733
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    557

    瀏覽量

    10596
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22414

原文標(biāo)題:ACL2022 | 無監(jiān)督句表示的去偏對比學(xué)習(xí)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一種實(shí)時多線程VSLAM框架vS-Graphs介紹

    針對現(xiàn)有VSLAM系統(tǒng)語義表達(dá)不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實(shí)時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?160次閱讀
    <b class='flag-5'>一種</b>實(shí)時多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    FOC中的三電流采樣方式,你真的會選擇嗎?(可下載)

    的基礎(chǔ),用一句話來形容就是“基礎(chǔ)不對,努力白費(fèi)”,由此可見電流采樣在整 個 FOC 算法中的作用電流采樣的方式般分為三電阻、雙電阻、單電阻,這三
    發(fā)表于 03-12 15:04 ?0次下載

    晶振的頻率偏差與解決方法

    晶振是一種常用的頻率標(biāo)準(zhǔn)元件,在電子電路中具有重要的作用。然而,在實(shí)際使用中,晶振的頻率并不是完全準(zhǔn)確的,常常會存在定的偏差。這種偏差是由多種因素造成的,包括溫度變化、電壓變化、機(jī)械
    的頭像 發(fā)表于 02-21 14:53 ?389次閱讀
    晶振的頻率<b class='flag-5'>偏差</b>與解決方法

    xgboost與LightGBM的優(yōu)勢對比

    Gradient Boosting) 是一種基于梯度提升決策樹(GBDT)的優(yōu)化分布式梯度提升庫,由陳天奇等人于2014年提出。它通過優(yōu)化目標(biāo)函數(shù)的負(fù)梯度來構(gòu)建樹模型,并支持并行和GPU加速。 LightGBM
    的頭像 發(fā)表于 01-19 11:18 ?766次閱讀

    AN-851: 一種WiMax雙下變頻IF采樣接收機(jī)設(shè)計(jì)方案

    電子發(fā)燒友網(wǎng)站提供《AN-851: 一種WiMax雙下變頻IF采樣接收機(jī)設(shè)計(jì)方案.pdf》資料免費(fèi)下載
    發(fā)表于 01-13 14:53 ?0次下載
    AN-851: <b class='flag-5'>一種</b>WiMax雙下變頻IF<b class='flag-5'>采樣</b>接收機(jī)設(shè)計(jì)方案

    介紹一種 WiMax 雙下變頻 IF 采樣接收機(jī)設(shè)計(jì)方案

    介紹了一種 WiMax 雙下變頻 IF 采樣接收機(jī)設(shè)計(jì)方案,詳細(xì)闡述了其背景知識、架構(gòu)、實(shí)現(xiàn)方法、性能評估等內(nèi)容,為相關(guān)工程人員提供了全面的設(shè)計(jì)參考。 *附件:一種WiMax雙下變頻IF采樣
    的頭像 發(fā)表于 12-18 16:29 ?1274次閱讀
    介紹<b class='flag-5'>一種</b> WiMax 雙下變頻 IF <b class='flag-5'>采樣</b>接收機(jī)設(shè)計(jì)方案

    將ADS1294用于數(shù)據(jù)采集,偶爾出現(xiàn)實(shí)際采樣率與設(shè)定采樣率之間存在3%的固定偏差,為什么?

    )約為970Hz。設(shè)定250Hz,實(shí)際采樣率242.5Hz。 而且還發(fā)現(xiàn),讀ID的時候,理論上應(yīng)該讀到0x90,但有時候返回的是0x80,當(dāng)返回0x80的時候后面測得的采樣率就定會出現(xiàn)3%的
    發(fā)表于 12-18 11:26

    一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

    天地氣動數(shù)據(jù)致性,針對某外形飛行試驗(yàn)數(shù)據(jù)開展了典型對象的天地氣動數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架,通過引入地面風(fēng)洞試驗(yàn)氣動數(shù)據(jù),實(shí)現(xiàn)了對復(fù)雜輸入?yún)?shù)的特征
    的頭像 發(fā)表于 11-27 11:34 ?618次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗(yàn)的數(shù)據(jù)融合<b class='flag-5'>框架</b>

    用ADS8317采樣,如果基準(zhǔn)偏差,對結(jié)果的采樣精度有影響嗎?

    請問用ADS8317采樣基準(zhǔn)1.25V如果基準(zhǔn)偏差對結(jié)果的采樣精度有影響嘛
    發(fā)表于 11-27 08:06

    Dubbo源碼淺析()—RPC框架與Dubbo

    時,就像調(diào)用本地過程樣方便。 1.2 RPC與Http的關(guān)系 用一句話來總結(jié)就是: RPC是一種概念,http是一種協(xié)議,可以認(rèn)
    的頭像 發(fā)表于 08-16 15:18 ?1035次閱讀
    Dubbo源碼淺析(<b class='flag-5'>一</b>)—RPC<b class='flag-5'>框架</b>與Dubbo

    TLV9062IDR的電流采樣電路,請問運(yùn)放本身偏差大小是否正常?

    大家好,下圖是TLV9062IDR的電流采樣電路。 實(shí)際測試時發(fā)現(xiàn)運(yùn)放本身的偏差有點(diǎn)大,同塊板子用1號運(yùn)放時,軟件在電流為30A時讀取的值偏小0.35A。換上2號運(yùn)放時,讀值反而會偏大0.2A
    發(fā)表于 08-15 08:17

    INA826高端采樣電流點(diǎn)有偏差是什么原因?qū)е碌模?/a>

    我用INA826在高端給輸出電壓可調(diào)的電源采樣輸出電流。發(fā)現(xiàn)在固定同電流值時(如0,100mA等),輸出不同電壓(如500mV,1000mV,4000mV等),INA826的輸出有偏差
    發(fā)表于 08-05 07:52

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示
    的頭像 發(fā)表于 08-01 14:31 ?903次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的個重要分支,在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的過程中,深度學(xué)習(xí)框架扮演著至關(guān)重要的角色。T
    的頭像 發(fā)表于 07-02 14:04 ?1394次閱讀

    用stm32f4的以太網(wǎng)傳輸ADC采用數(shù)據(jù),ADC采樣數(shù)據(jù)會發(fā)生偏差的原因?

    我用stm32f4的以太網(wǎng)傳輸ADC采用數(shù)據(jù),在通訊的時候會造成采樣數(shù)據(jù)偏差,以太網(wǎng)采用的是lwip協(xié)議棧,ADC采樣六通道正弦波,每500ms通訊次,在通訊期間的ADC
    發(fā)表于 05-06 09:01
    主站蜘蛛池模板: a视频网站 | 亚色图| 美女视频黄a全部免费看小说 | 国产香蕉视频在线 | 国产精品毛片久久久久久久 | 宅男午夜 | 在线播放一区二区三区 | 精品三级网站 | 色操网| 爱爱小视频免费 | bt在线www天堂资源网 | 色婷婷丁香六月 | 在线色色视频 | 7777色鬼xxxx欧美色夫 | 狠狠色噜噜狠狠狠狠98 | 嫩草影院地址一地址二 | 狠狠干干| jizz免费一区二区三区 | 你懂得在线 | 日韩欧美一区二区三区视频 | 黄视频网站免费 | 赛罗奥特曼银河帝国普通话免费版 | 在线观看深夜观看网站免费 | 午夜va | se在线播放| 在线观看日本免费视频大片一区 | 亚洲精品二区中文字幕 | 四虎永久免费影院在线 | 午夜久 | 9久久精品 | 午夜片在线观看 | kkk4444免费观看 | 手机福利在线 | 夜夜艹日日干 | 亚洲一区在线视频 | 一级片视频在线观看 | 模特精品视频一区 | 国产福利99| 深夜释放自己vlog糖心旧版本 | bt天堂bt在线网 | 精品久久久久久久久久 |