在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對預訓練模型在召回與排序部分的應用做一個總結

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:Chilia ? 2022-09-06 10:17 ? 次閱讀

本文對預訓練模型在召回(retrieval), 排序(re-ranking),以及其他部分的應用做一個總結。

1. 背景

搜索任務就是給定一個query或者QA中的question,去大規模的文檔庫中找到相似度較高的文檔,并返回一個按相關度排序的ranked list。

由于待訓練的模型參數很多(增加model capacity),而專門針對檢索任務的有標注數據集較難獲取,所以要使用預訓練模型。

2. 檢索模型的分類

檢索的核心,在于計算query和document的 相似度 。依此可以把信息檢索模型分為如下三類:

基于統計的檢索模型

使用exact-match來衡量相似度,考慮的因素有query中的詞語在document中出現的詞頻TF、document長度(懲罰長文本,例如一個詞在300頁的文章中出現過2次遠遠不如一個詞在一小段微博動態里出現過兩次)、逆文檔詞頻IDF(懲罰在所有文檔中都出現過很多次的詞,例如“的”)。

代表性的模型是BM25,用來衡量一個term在doc中的重要程度,其公式如下:

82f8f35c-2d86-11ed-ba43-dac502259ad0.png懲罰長文本、對詞頻做飽和化處理

實際上,BM25是檢索模型的強baseline。基于exact-match的檢索模型是召回中必不可少的一路。

Learning-to-Rank模型

這類模型需要手動構造特征,包括

query端特征,如query類型、query長度(還可以加入意圖slot?);

document端特征(document長度,Pagerank值);

query-document匹配特征(BM25值,相似度,編輯距離等)。

其實,在現在常用的深度檢索模型中也經常增加這種人工構造的特征。根據損失函數又可分為pointwise(簡單的分類/回歸損失)、Pairwise(triplet hinge loss,cross-entropy loss)、Listwise。

深度模型

使用query和document的embedding進行端到端學習。可以分為

representation-focused models(用雙塔建模query和document,之后計算二者相似度,雙塔之間無交互,用于召回)

interaction-focused models(金字塔模型,計算每個query token和每個document token的相似度矩陣,用于精排。精排階段還可增加更多特征,如多模態特征、用戶行為特征、知識圖譜等)

3. 預訓練模型在倒排索引中的應用

基于倒排索引的召回方法仍是在第一步召回中必不可少的,因為在第一步召回的時候我們面對的是海量的文檔庫,基于exact-match召回速度很快。但是,其模型capacity不足,所以可以用預訓練模型來對其進行模型增強。

3.1 term re-weighting

代表論文: DeepCT (Deep Contextualized Term Weighting framework: Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval).

普通的exact-match中衡量一個詞在query/document中的重要程度就是通過詞頻(TF)或者TFIDF,或者TFIDF的改進版本--BM25,例如在建立倒排索引的時候,每個term在不同document的重要程度就是用TF來衡量的。

但是,一個詞在兩個document中出現頻率相同,就說明這個詞在兩個document中同樣重要嗎?其實詞的重要程度比詞頻要復雜的多。

所以,可以使用contextualized模型,例如BERT,Elmo等獲得每個詞的 上下文 表示,然后通過簡單的線性回歸模型得到每個詞在document中的重要程度。文檔真實詞語權重的估計如下,這個值作為我們訓練的label:

其中, 是與文檔 d 相關的查詢問題的集合; 是包含詞語 t 的查詢問題集合 的子集; 是文檔 d 中詞語 t 的權重。的取值范圍為,以此為label訓練。這樣,我們就得到了一個詞在document中的重要程度,可以替換原始TF-IDF或BM25的詞頻。對于query,也可以用同樣的方法得到每個詞的重要程度,用來替換TFIDF。

830cc8e6-2d86-11ed-ba43-dac502259ad0.png

3.2 Document expansion

除了去估計不同term在document中的重要程度,還可以直接顯式地擴增document,這樣一來提升了重要詞語的權重,二來也能夠召回"詞不同意同"的文檔(解決lexical-mismatch問題)。

例如,可以對T5在query-document對上做微調,然后對每個document做文本生成,來生成對應的query,再加到document中。之后,照常對這個擴增好的document建倒排索引,用BM25做召回。代表工作:docTTTTTquery[3]

同樣地,也可以對query進行擴增。例如對于QA中的question,可以把訓練目標定為包含答案的句子、或者包含答案的文章title,然后用seq2seq模型訓練,再把模型生成的文本加到query后面,形成擴增的query。

3.3 term reweighting + document expansion

那么,我們可不可以同時做term reweighting和document expansion呢?這方面的代表工作是Sparterm[4]

此模型分為兩部分:重要度預測模塊(用來得到 整個vocab上 的重要程度)和門控模塊(得到二進制的門控信號,以此來得到最終保留的稀疏token,最終只能保留 個token)。由于重要度是針對整個vocab而言的,所以可以同時實現重要度評估+詞語擴增。

8329f038-2d86-11ed-ba43-dac502259ad0.png


重要度預測模塊采用了類似MLM的思想,即先用BERT對句子做好contextualized embedding,然后乘上vocab embedding 矩陣 E ,得到這個詞對應的重要度分布:

這句話整體的重要度分布就是所有詞對應的重要度分布取relu(重要度不能是負數),然后加起來的和:

門控模塊和重要度評估模塊的計算方法類似,只是參數不再是 E , 而是另外的變換矩陣。得到gating distribution G 之后,先將其0/1化為 G' (如果G中元素>threshold則取1,否則取0);然后得到我們需要保留的詞語(exact-match必須保留,還增加一些擴增的token)。

通過端到端的方式訓練,訓練的損失函數有兩個,其中一個就是我們常見的ranking loss,即取 三元組,然后求對比cross-entropy loss。這里的q', p'都是經過重要度評估模塊+門控模塊之后得到的句子表征,因此loss反傳可以對重要度評估模塊和門控模塊進行更新。

8342d22e-2d86-11ed-ba43-dac502259ad0.png

另一個loss專門對門控模塊做更新,訓練數據是對,對于一個document,先得到其門控向量G, 然后去和實際的query進行對比:

836164d2-2d86-11ed-ba43-dac502259ad0.jpg


T為真實query的bag of words




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 矩陣
    +關注

    關注

    1

    文章

    434

    瀏覽量

    35098
  • 機器學習算法

    關注

    2

    文章

    47

    瀏覽量

    6610

原文標題:總結!語義信息檢索中的預訓練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進
    的頭像 發表于 03-21 18:24 ?1365次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    從Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以將 FastSeg 大型模型轉換為中間表示 (IR): pyth
    發表于 03-05 07:22

    用PaddleNLP4060單卡上實踐大模型訓練技術

    作者:算力魔方創始人/英特爾創新大使劉力 之前我們分享了《從零開始訓練大語言模型需要投資多少錢》,其中高昂的
    的頭像 發表于 02-19 16:10 ?906次閱讀
    用PaddleNLP<b class='flag-5'>在</b>4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    集對模型進行進訓練的過程。 大模型微調是利用訓練模型
    發表于 01-14 16:51

    KerasHub統、全面的訓練模型

    深度學習領域正在迅速發展,處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這
    的頭像 發表于 12-20 10:32 ?468次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型簡稱,完整的叫法,應該是“人工智能訓練
    的頭像 發表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    從零開始訓練大語言模型需要投資多少錢?

    ,前言 ? AI領域,訓練大型語言模型(LLM)是
    的頭像 發表于 11-08 14:15 ?731次閱讀
    從零開始<b class='flag-5'>訓練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>大語言<b class='flag-5'>模型</b>需要投資多少錢?

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于大量樣本上的批量式訓練。本報告將探討實現
    的頭像 發表于 10-18 08:09 ?541次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    蘋果揭示AI新動向:Apple Intelligence模型谷歌云端芯片上訓練

    蘋果公司最新的技術論文中披露了項重要信息,其全新的人工智能系統Apple Intelligence所依賴的模型并非傳統上大型科技公司首選的NVIDIA GPU,而是選擇了谷歌設計
    的頭像 發表于 07-30 15:00 ?784次閱讀

    PyTorch中搭建最簡單的模型

    PyTorch中搭建最簡單的模型通常涉及幾個關鍵步驟:定義模型結構、加載數據、設置損失函數和優化器,以及進行
    的頭像 發表于 07-16 18:09 ?2749次閱讀

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩重要概念,它們提高模型性能、減少訓練時間和降低
    的頭像 發表于 07-11 10:12 ?1949次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這技術發展的關鍵步驟,它通過海量無標簽數據上進行
    的頭像 發表于 07-11 10:11 ?924次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?2940次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的重要概念,尤其是
    的頭像 發表于 07-03 18:20 ?4254次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練
    的頭像 發表于 07-01 16:13 ?2526次閱讀
    主站蜘蛛池模板: 亚洲国产欧美日韩一区二区三区 | 亚洲欧美婷婷 | 日本大片免a费观看在线 | 亚欧人成精品免费观看 | 午夜小视频免费观看 | 久久精品夜色国产 | 亚洲成综合人影院在院播放 | 午夜剧场官网 | 日本理论在线 | 美女黄18以下禁止观看的网站 | 亚州第一视频 | 精品久久久久久婷婷 | 亚洲免费黄色网 | 成人午夜啪啪免费网站 | 久久天天躁综合夜夜黑人鲁色 | 激情文学亚洲色图 | 日本xxxx色视频在线观看 | 91日本视频 | 美女视频黄a全部免费看小说 | 日本一道高清不卡免费 | 福利视频一区二区微拍堂 | 天天做.天天爱.天天综合网 | 欧美成人影院免费观 | 黄色片网站日本 | 啪啪大片 | 刺激一区 | 四虎永久免费在线观看 | 国产做a爰片久久毛片a | 亚洲成人资源 | www.亚洲.com| 日本一区二区三区欧美在线观看 | 濑亚美莉iptd619在线观看 | 久久久免费视频观看 | 久久99热国产这有精品 | 夜夜骑首页 | 欧美xxxx性高清 | 性夜黄a爽影免费看 | 日本一区二区三区四区在线观看 | 啪啪免费网站视频观看 | 久久综合亚洲 | 日本高清视频色视频kk266 |