在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

雙塔模型擴量負樣本的方法比較

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:雨下 ? 2022-07-08 10:57 ? 次閱讀

之前有一段時間做過雙塔的召回模型[1],線上各個指標有了不錯的提升。目前雙塔模型也是被各大公司鐘愛的召回模型。對主流召回模型的分享整理在:總結下自己做過的深度召回模型

雙塔模型在訓練時是對一個batch內樣本訓練。一個batch內每個樣本 (user和item對)為正樣本,該user與batch內其它item為負樣本。這樣訓練的方式可能有以下問題:

負樣本的個數不足。訓練時負樣本個數限制在了batch內樣本數減1,而線上serving時需要在所有候選集中召回用戶感興趣的樣本。模型只能從當前batch內區分出batch內正樣本,無法很好地從所有候選集中區分正樣本。

未點擊的item沒有做負樣本。由于batch內的item都是被點擊過的,因此沒有被點擊item無法成為負樣本,在線上serving容易它們被召回出來。一種解決方法是之前沒被點擊過的item不導出到候選集中,然而這樣存在的問題是召回的item很多是之前點擊的熱門item,而很多冷門的item沒有機會召回。

最近,有兩篇文章提出了雙塔模型擴量負樣本的方法。這兩種方法我也曾嘗試過,線下線上指標也有一定的提升。

一、Two Tower Model

再介紹其它方法之前,先回顧一下經典的雙塔模型建模過程。

用 表示雙塔模型計算的user 和item 的相似性:

是表示user塔,輸出user表示向量; 是item,輸出item表示向量。最后相似性是兩個向量的余弦值。batch內概率計算公式為:表示一個batch的意思。損失函數是交叉熵。

作者在計算user和item的相似度時,用了兩個優化方法:

。 可以擴大相似度范圍,擴大差距。

。 是item 在隨機樣本中被采樣的概率,也就是被點擊的概率。

關于優化2的解釋有很多。論文中說熱門item出現在batch內概率較大,因此會被大量做負樣本。另一種解釋是增加對冷門item的相似度。相比熱門item,冷門item更能反映用戶興趣。

圖1反映了雙塔模型的batch采樣過程。query也可以表示user。我們采樣一個batch的user和對應正樣本的item,計算各自的embedding后,通過點乘得到logits(B*B)的矩陣。label矩陣是一個單位矩陣。logit矩陣與label矩陣的每對行向量一起求交叉熵。

e387cbe6-f6d4-11ec-ba43-dac502259ad0.png

圖1:雙塔模型batch采樣

二、Mixed Negative Samping(MNS)

MNS[2]與雙塔模型[1]出自谷歌團隊的同一批作者。用一個batch數據訓練時,MNS還會在所有的數據集中采樣出 個item。這樣可以讓所有的item參與到訓練中,一些曝光未點擊的item也會當作負樣本。同時,雙塔模型中使用的 等于訓練樣本中的頻率加上所有數據集中的頻率分布。概率公式重新定義如下:

作者在這里只對負樣本的相似性減去了頻率的log值。

MNS的batch采樣方法見圖2。最終計算的logits和label矩陣是一個B*(B+B')維的。其實就是在圖1展示的基礎上再增加B'列。logits的最后B'列是user與B‘內的item計算的相似性,label的最后B'列是全0矩陣。

相比于每個樣本都隨機采樣出一定量的負樣本,為每個batch都采樣出B‘個負樣本的不僅有先前雙塔模型的計算效率,也緩和負樣本不足的問題,并且讓每個樣本均有機會做負樣本。

e3a3695a-f6d4-11ec-ba43-dac502259ad0.png

圖2:MNS的batch采樣

三、Cross Batch Negative Samping(CBNS)

CBNS[2]是清華大學和華為合作提出的方法。文中提到,雙塔模型的計算優勢在于利用了batch內的負樣本,減小的計算量。如果我們想擴大batch內樣本個數,加大負樣本個數,需要很多的內存。因此,作者提出一個使用之前訓練過的item作為負樣本的方法。

神經網絡訓練達到一定輪數后,會對相同的樣本產生穩定的向量。作者在論文中定義了這個想法。因此把之前訓練過的item作為當前訓練的負樣本時,模型只需要把這些item的向量拿過來使用,不需要再輸出到神經網絡中產生新的向量,畢竟這兩種向量的差距較小。

作者使用了FIFO(先進先出)隊列,item塔輸出向量時,會放進FIFO中。當warm-up training達到一定的輪數后,訓練模型時,會從FIFO拿出一批向量作為負樣本的向量。這樣做不僅減少了計算量,在擴充負樣本的時候也減少了內存的使用。計算公式與MNS差別不大:

也就是內容一中的優化2。B'在這里是從FIFO中取出的一批向量。

圖3展示了CBNS與只用batch內負樣本的不同。CBNS維持了一個memory bank。在訓練時,會從里面拿出一定量的向量。

然而,CBNS的負樣本只有點擊過的樣本,未點擊的樣本無法作為負樣本。

e3b87548-f6d4-11ec-ba43-dac502259ad0.png

圖3:CBNS采樣方法

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4798

    瀏覽量

    102439
  • fifo
    +關注

    關注

    3

    文章

    397

    瀏覽量

    44516

原文標題:雙塔模型如何選擇負樣本?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    ADHV4702壓電路和流電路是否可以同時使用嗎?

    ADHV4702壓電路和流電路是否可以同時使用嗎,芯片8腳和5腳是否可以NC
    發表于 03-21 06:25

    請問是否有任何OpenVINO?樣本可以推斷批次大小大于1的檢測模型

    是否有任何OpenVINO?樣本可以推斷批次大小大于 1 的檢測模型
    發表于 03-06 07:19

    海康威視發布多模態大模型文搜存儲系列產品

    多模態大模型為安防行業帶來重大技術革新,基于觀瀾大模型技術體系,海康威視將大參數量、大樣本的圖文多模態大模型與嵌入式智能硬件深度融合,發布
    的頭像 發表于 02-18 10:33 ?432次閱讀

    EastWave應用:折射現象實時演示

    本案例使用“自定義模式”演示折射現象。 模型示意圖 本案例為二維結構,將Y、Z 方向設置為周期邊界,即Y、Z 方向為無限大拓展的平板,X 方向設置開放邊界。本案例主要采用點光源入射到平板上來實時
    發表于 02-17 09:48

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    重復項或使用編輯距離算法比較文本相似度。數據標注:高質量的數據標注直接影響模型的性能。標注過程應遵循明確標注規則、選擇合適的標注工具、進行多輪審核和質量控制等原則。數據增強:提高模型泛化能力的有效
    發表于 01-14 16:51

    云端語言模型開發方法

    云端語言模型的開發是一個復雜而系統的過程,涉及數據準備、模型選擇、訓練優化、部署應用等多個環節。下面,AI部落小編為您分享云端語言模型的開發方法
    的頭像 發表于 12-02 10:48 ?377次閱讀

    RNN與LSTM模型比較分析

    RNN(循環神經網絡)與LSTM(長短期記憶網絡)模型在深度學習領域都具有處理序列數據的能力,但它們在結構、功能和應用上存在顯著的差異。以下是對RNN與LSTM模型比較分析: 一、基本原理與結構
    的頭像 發表于 11-15 10:05 ?1810次閱讀

    常見AI大模型比較與選擇指南

    在選擇AI大模型時,明確具體需求、了解模型的訓練數據、計算資源要求和成本,并考慮模型的可解釋性和社區支持情況等因素至關重要。以下是對常見AI大模型
    的頭像 發表于 10-23 15:36 ?2159次閱讀

    AI大模型的性能優化方法

    AI大模型的性能優化是一個復雜而關鍵的任務,涉及多個方面和策略。以下是一些主要的性能優化方法: 一、模型壓縮與優化 模型蒸餾(Model Distillation) 原理:通過訓練一個
    的頭像 發表于 10-23 15:01 ?1921次閱讀

    氣密性檢測:為什么在壓測試中泄漏是正值,什么時候出現負值

    本文介紹了氣密性檢測的基本原理,解釋了為什么在正壓和壓測試中泄漏都顯示為正值,還揭示了差壓氣密性檢測結果出現負值的有趣現象。通視頻案例,幫助讀者輕松理解氣密性檢測中的各種情況,提高實際工作中解決問題的能力。
    的頭像 發表于 08-22 16:59 ?1087次閱讀
    氣密性檢測:為什么在<b class='flag-5'>負</b>壓測試中泄漏<b class='flag-5'>量</b>是正值,什么時候出現負值

    OPA564能否補償寬增益帶寬積?

    OPA564有無方法寬增益帶寬積,若無,是否有能滿足2Mhz正弦偏置電流輸出能力的方法
    發表于 07-30 07:16

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉
    的頭像 發表于 07-16 10:11 ?2769次閱讀

    BP神經網絡樣本的獲取方法

    的訓練樣本是至關重要的。 數據收集 數據收集是構建BP神經網絡模型的第一步。根據研究領域和應用場景的不同,數據來源可以分為以下幾種: 1.1 實驗數據:通過實驗或觀察獲得的數據,如生物實驗、化學實驗等。 1.2 傳感器數據:通過傳感器收集的數據,如溫度、濕度、壓力等。
    的頭像 發表于 07-11 10:50 ?873次閱讀

    人臉識別模型訓練失敗原因有哪些

    : 1.1 數據不足 人臉識別模型需要大量的數據進行訓練,以提高模型的泛化能力。如果數據不足,模型可能無法學習到足夠的特征,導致訓練失敗
    的頭像 發表于 07-04 09:17 ?1107次閱讀

    助聽器降噪神經網絡模型

    用提前停止。該模型以 32 的批量大小進行訓練,每個樣本的長度為 15 秒。 Nvidia RTX 2080 TI 上一個訓練周期的平均時間約為 21 分鐘。使用尺度敏感的 SNR [20] 作為
    發表于 05-11 17:15
    主站蜘蛛池模板: 放荡的俄罗斯美女bd | 人人干免费 | 四虎一区二区三区精品 | 日韩欧美色图 | 免费啪视频 | 久久成人网18网站 | 天堂网资源www | 老师喂我吃她的奶水脱她胸罩 | 国产精品影视 | 中文字幕一区二区三区四区 | 亚洲午夜精品一区二区 | 久草视频资源在线 | 国产色妞妞在线观看 | 爱逼色| 欧美3d成人动画在线 | 69日本xxⅹxxxxx18| 人人舔人人爱 | 黑人边吃奶边扎下面激情视频 | 91精品啪在线观看国产日本 | 校园春色亚洲欧美 | 久久午夜免费视频 | 中文天堂在线最新2022更新 | 国产午夜三级 | 国产色产综合色产在线观看视频 | 国产美女视频爽爽爽 | 日本三级中文字幕 | 久久中出 | 性free3d| 在线天堂中文在线资源网 | 农村苗族一级特黄a大片 | www.毛片网站 | 成人性视频网站 | 亚洲资源最新版在线观看 | 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | 一区二区3区免费视频 | 黄色免费在线视频 | 午夜国产福利 | 久久草在线视频国产一 | 国产大片黄在线观看 | 激情网址在线观看 | 精品一区二区视频 |