在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從BERT得到最強句子Embedding的打開方式

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:夕小瑤的賣萌屋 ? 2020-12-31 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路不成?

nono,你知道這樣得到的句子表示捕捉到的語義信息其實很弱嗎?今天向大家介紹一篇來自于 CMU 和字節跳動合作,發表在 EMNLP2020 的 paper, 詳盡地分析了從預訓練模型得到 sentence embedding 的常規方式的缺陷和最佳打開方式,是一篇非常實用、輕松幫助大家用BERT刷分的文章。論文質量蠻高,分析和發現很有趣,通讀之后感覺收獲多多。

自2018年BERT驚艷眾人之后,基于預訓練模型對下游任務進行微調已成為煉丹的標配。然而近兩年的研究卻發現,沒有經過微調,直接由BERT得到的句子表示在語義文本相似性方面明顯薄弱,甚至會弱于GloVe得到的表示。此篇論文中首先從理論上探索了masked language model 跟語義相似性任務上的聯系,并通過實驗分析了BERT的句子表示,最后提出了BERT-Flow來解決上述問題。

為什么BERT的句子Embeddings表現弱?

由于Reimers等人之前已實驗證明 context embeddings 取平均要優于[CLS] token的embedding。因而在文章中,作者都以最后幾層文本嵌入向量的平均值來作為BERT句子的表示向量。

語義相似性與BERT預訓練的聯系

為了探究上述問題,作者首先將語言模型(LM)與掩蓋語言模型(MLM) 統一為: 給定context(c)預測得到 token(x) 的概率分布,即

這里 是context的embedding, 表示 的word embedding。進一步,由于將 embedding 正則化到單位超球面時,兩個向量的點積等價于它們的cosine 相似度,我們便可以將BERT句子表示的相似度簡化為文本表示的相似度,即 。

另外,考慮到在訓練中,當 c 與 w 同時出現時,它們對應的向量表示也會更接近。換句話說,context-context 的相似度可以通過 context-words 之間的相似度推出或加強。

各向異性嵌入空間

Jun Gao, Lingxiao Wang 等人在近幾年的ICLR paper中有提到語言模型中最大似然目標的訓練會產生各向異性的詞向量空間,即向量各個方向分布并不均勻,并且在向量空間中占據了一個狹窄的圓錐體,如下圖所示~

這種情況同樣也存在于預訓練好的基于Transformer的模型中,比如BERT,GPT-2。而在這篇paper中,作者通過實驗得到以下兩個發現:

詞頻率影響詞向量空間的分布:文中通過度量BERT詞向量表示與原點 l_2 距離的均值得到以下的圖表。我們可以看到高頻的詞更接近原點。由于word embedding在訓練過程中起到連接文本embedding的作用,我們所需的句子表示向量可能會相應地被單詞頻率信息誤導,且其保留的語義信息可能會被破壞。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低頻詞分布偏向稀疏:文中度量了詞向量空間中與K近鄰單詞的 l_2 距離的均值。我們可以看到高頻詞分布更集中,而低頻詞分布則偏向稀疏。然而稀疏性的分布會導致表示空間中存在很多“洞”,這些洞會破壞向量空間的“凸性”。考慮到BERT句子向量的產生保留了凸性,因而直接使用其句子embeddings會存在問題。

Flow-based 生成模型

那么,如何無監督情況下充分利用BERT表示中的語義信息?為了解決上述存在的問題,作者提出了一種將BERT embedding空間映射到一個標準高斯隱空間的方法(如下圖所示),并稱之為“BERT-flow”。而選擇 Gaussian 空間的動機也是因為其自身的特點:

標準高斯分布滿足各向同性

高斯分布區域沒有“洞”,即不存在破壞“凸性”的情況

上圖中 表示隱空間, 表示觀測到的空間,f: 是可逆的變換。根據概率密度函數中變量替換的定理,我們可以得到觀測變量的概率密度函數如下:

進一步,作者通過最大化BERT句子表示的邊緣似然函數來學習基于流的生成模型,即通過如下的公式來訓練flow的參數:

其中 表示數據集分布, 為神經網絡。需要注意的是,在訓練中,不需要任何人工標注!另外,BERT的參數保持不變,僅有流的參數進行優化更新。其次,在實驗中,作者基于Glow (Dinh et al., 2015)的設計(多個可逆變換組合)進行改動,比如將仿射耦合(affine coupling)替換為了加法耦合(additive coupling)。

實驗及結果

論文的實驗部分在7個數據集上進行衡量語義文本相似性任務的效果。

實驗步驟:

通過句子encoder得到每個句子的向量表示。

計算句子之間的cosine similarity 作為模型預測的相似度。

計算Spearman系數。

實驗結果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上圖匯報了sentence embeddings的余弦相似度同多個數據集上真實標簽之間的Spearman等級相關性得分(),其中flow-target 表示在完整的目標數據集(train+validation+test)上進行學習,flow-NLI 表示模型在NLI(natual language inference)任務的測試,綠色箭頭表示相對于BERT的baseline,模型的效果有提升,紅色反之。

我們可以注意到模型的改進對于效果的提升還是很顯著滴!文章同樣還在無監督問答任務證明模型的有效性,并將BERT-flow得到的語義相似度同詞法相似度(通過編輯距離來衡量)進行對比,結果同樣證明模型在引入流的可逆映射后減弱了語義相似性與詞法相似性之間的聯系!具體信息大家可查閱paper~

小結

總之,這篇paper探究了BERT句子表示對于語義相似性上潛在的問題,并提出了基于流的可逆映射來改進在對應任務上的表現。想多了解的童鞋可以看看原文,相信你們也會喜歡上這篇paper!

原文標題:還在用[CLS]?從BERT得到最強句子Embedding的打開方式!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7649

    瀏覽量

    90537
  • 模型
    +關注

    關注

    1

    文章

    3507

    瀏覽量

    50252

原文標題:還在用[CLS]?從BERT得到最強句子Embedding的打開方式!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    短距離不用加?加了總沒錯?終端電阻的正確“打開方式

    前言 RS-485作為一種廣泛應用于工業場景的差分信號通信標準,其通信效果的升級始終是工控領域人士不斷探索的重要課題。 在RS-485通信系統的實際應用中,一個備受關注且極具探討價值的問題是:是否需要使用終端電阻?今天,我們就圍繞這一話題展開交流。 想象一下,你在一條長長的走廊里大聲喊話,如果沒有任何緩沖,聲音會在兩端來回反射,變成一片嘈雜的回音。這就是沒有終端電阻的總線通信環境——信號反射嚴重,數據傳輸失真。這種反射
    的頭像 發表于 06-09 16:35 ?216次閱讀
    短距離不用加?加了總沒錯?終端電阻的正確“<b class='flag-5'>打開方式</b>”

    CSG船用隔離變壓器真是船舶電氣系統的“隱形守護者”?這些真相你必須知道! 開頭

    。今天,我們就用三個真實場景,揭秘CSG船用隔離變壓器的正確打開方式。核心分析場景一:抗干擾≠堆砌濾波器,接地設計才是根本某近海支援船在安裝CSG船用隔離變壓器后,
    的頭像 發表于 06-09 09:29 ?186次閱讀
    CSG船用隔離變壓器真是船舶電氣系統的“隱形守護者”?這些真相你必須知道! 開頭

    岳信儀器告訴你榨汁機氣密性檢測儀的正確打開方式

    在榨汁機生產過程中,氣密性是一項關鍵指標。而榨汁機氣密性檢測儀則是確保產品氣密性達標的重要工具。那么,該如何正確使用它呢?下面就為大家詳細介紹榨汁機氣密性檢測儀的正確打開方式。(1)檢測前的準備工作
    的頭像 發表于 05-29 15:52 ?122次閱讀
    岳信儀器告訴你榨汁機氣密性檢測儀的正確<b class='flag-5'>打開方式</b>

    選型不迷茫!PCB分板機主軸的正確打開方式

    在電子制造領域,PCB(印刷電路板)分板機是實現高效、精準切割的關鍵設備。作為分板機的"心臟",主軸系統的性能直接影響加工效率、切割精度及設備壽命。德國Sycotec,作為高速電主軸的老品牌企業,憑借其百年技術積淀與持續創新,已成為全球高端分板機主軸的首選品牌。多年來持續生產研發出多款高速、高精度、高效的PCB分板機主軸,一起了解看看。Sycotec用于PC
    的頭像 發表于 05-12 13:31 ?160次閱讀
    選型不迷茫!PCB分板機主軸的正確<b class='flag-5'>打開方式</b>

    3分鐘看懂錫膏在回流焊的正確打開方式

    本文揭秘錫膏在回流焊核心工藝:預熱區“熱身”(150-180℃)到回流區“巔峰熔融”(230-250℃),錫膏經歷四段精密溫控旅程,助焊劑活化、冶金反應、晶格定型的每一步都暗藏工藝玄機。文章以
    的頭像 發表于 04-07 18:03 ?442次閱讀
    3分鐘看懂錫膏在回流焊的正確<b class='flag-5'>打開方式</b>

    一種很新的“工廠”打開方式---智慧工廠

    ? ? ? ?隨著信息技術的不斷進步,特別是數字化、網絡化、智能化技術的快速發展,傳統的工廠管理模式已經難以滿足現代企業對于生產效率、安全管理以及決策支持等方面的需求,智能制造已成為全球制造業發展的主流趨勢。 ? ? ? ?由于工廠實時數據的多樣性、復雜性,包括數字化的傳感器讀數、機器和設備的操作狀態、溫度、濕度、壓力等環境指標,以及生產計劃、工作流程和相關人員信息等,因此需要深度結合客戶場景,對工廠各個環節的數
    的頭像 發表于 03-20 08:45 ?246次閱讀

    接入AI大模型!利爾達蜂窩模組讓設備秒變“機靈小話癆”

    各顯神通。本期我們就來分享下應用平臺對接大模型的秘籍,它具備高兼容性、低部署成本及靈活的多模態擴展能力等優勢。下期將解鎖更多"打開方式"——畢竟在AI應用生態里,通往羅
    的頭像 發表于 02-12 19:05 ?475次閱讀
    接入AI大模型!利爾達蜂窩模組讓設備秒變“機靈小話癆”

    Giada杰和科技ISE展會直擊|在巴塞羅那,遇見視聽未來的N種打開方式

    歐洲專業視聽設備與信息系統集成技術展覽會當地時間2月7日,歐洲專業視聽設備與信息系統集成技術展覽會(以下簡稱ISE)在西班牙巴塞羅那落下帷幕。ISE是歐洲舉辦最成功的、全球觀眾人數最多的專業視聽展覽會,素有視聽行業“風向標”之稱。今年,杰和科技如約而至,連續第15年參展,再次攜多款AI驅動、智能零售及工業級計算解決方案亮相,以硬核技術實力與場景化應用方案,向
    的頭像 發表于 02-10 10:33 ?334次閱讀
    Giada杰和科技ISE展會直擊|在巴塞羅那,遇見視聽未來的N種<b class='flag-5'>打開方式</b>

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+Embedding技術解讀

    理和理解這些數據。在自然語言處理中,Embedding常用于將文本數據中的單詞、句子或文檔映射為固定長度的實數向量,這些向量包含了豐富的語義信息。RAG技術是一種結合信息檢索與文本生成能力的技術,它通過
    發表于 01-17 19:53

    掌握壓鑄鋁件氣密性檢測設備的正確打開方式-岳信儀器

    氣密性檢測是保證壓鑄鋁件生產過程中產品質量的關鍵環節。壓鑄鋁件氣密性檢測設備的正確開啟和使用,不僅可以提高檢測效率,而且可以保證檢測結果的準確性。下面將詳細介紹如何正確開啟和使用壓鑄鋁件氣密性檢測設備。首先,確保設備的適當使用環境。設備應放置在避免陽光直射、無強磁場和腐蝕性物品的地方。同時,要保證電源和氣源穩定、干凈、無雜質,盡可能干燥氣源,避免與其他氣動元
    的頭像 發表于 10-14 15:10 ?390次閱讀
    掌握壓鑄鋁件氣密性檢測設備的正確<b class='flag-5'>打開方式</b>-岳信儀器

    飛凌嵌入式ElfBoard ELF 1板卡-通用文件I/O模型之open

    的文件;flags為打開文件的標志位,控制打開方式;mode為可選參數,用于指定新創建文件的權限模式。如果指定的文件不存在,則可以通過在flags中指定O_CREAT,然后open()即可創建。flags
    發表于 10-10 09:09

    換熱設備清洗的正確打開方式,不僅清洗效果好,而且安全無腐蝕

    換熱器目前常用的換熱介質多為水或蒸汽,在熱交換過程中,水或蒸汽中的鹽類和污垢容易析出導致結垢,產生的這些污垢會使設備和管道線路失效,裝置系統會發生生產下降,能耗、物耗增加等不良情況,污垢腐蝕特別嚴重時還會使流程中斷,裝置系統被迫停產,直接造成各種經濟損失,甚至還有可能發生惡性生產事故。
    的頭像 發表于 08-12 15:33 ?1000次閱讀
    換熱設備清洗的正確<b class='flag-5'>打開方式</b>,不僅清洗效果好,而且安全無腐蝕

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?1240次閱讀

    新品|酷暑的新打開方式:SXB3568主板

    開源鴻蒙硬件方案領跑者觸覺智能選主板,接口雜太多?成本太高?性能不夠?來看看觸覺智能全新推出基于RockchipRK3568處理器開發設計的SXB3568商顯行業主板,低成本、高性能、全功能模塊拓展,帶你開啟暑期狂歡!RK3568系列產品采用瑞芯微SOC芯片RK3568,集成了四核Cortex-A55CPU,主頻高達2.0G。RK3568支持PCIE2.0/
    的頭像 發表于 07-13 08:33 ?622次閱讀
    新品|酷暑的新<b class='flag-5'>打開方式</b>:SXB3568主板
    主站蜘蛛池模板: 色多多视频在线播放 | 视频网站免费看 | 天天干夜夜想 | 日本成人在线网址 | 四虎最新视频 | 美女h片 | 久久综合久久精品 | 亚洲jjzzjjzz在线观看 | 国产汉服被啪福利在线观看 | 午夜综合网 | 欧美在线你懂的 | 四虎国产精品免费观看 | 日韩美女奶水喂男人在线观看 | 天堂网av2014 | www亚洲成人| 久久天天丁香婷婷中文字幕 | 黄色日本视频 | 天天玩天天干 | 狠狠躁天天躁 | 天天狠天天天天透在线 | 精品午夜久久影视 | 在线国产你懂的 | se综合 | 日韩福利网站 | 在线观看黄色一级片 | 婷婷视频网 | 亚洲韩国在线一卡二卡 | a资源在线 | 美女脱裤子屁屁视频 | 午夜视频网站在线观看 | 亚洲情网| 草伊人| 天堂电影在线观看免费入口 | 久久国产成人精品国产成人亚洲 | 夜夜狠 | 天天摸日日碰天天看免费 | 久久骚 | 黄视频网站在线看 | 国产亚洲人成a在线v网站 | 免费在线黄色网 | 操的好爽 |