在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

愛奇藝個性化推薦系統排序實踐

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 21:24 ? 次閱讀

1.背景

在當前這個移動互聯網時代,除了專業內容的豐富,UGC內容更是爆發式發展,每個用戶既是內容的消費者,也成為了內容的創造者。這些海量的內容在滿足了我們需求的同時,也使我們尋找所需內容更加困難,在這種情況下個性化推薦應運而生。

個性化推薦是在大數據分析和人工智能技術的基礎上,通過研究用戶的興趣偏好,進行個性化計算,從而給用戶提供高質量的個性化內容,解決信息過載的問題,更好的滿足用戶的需求。

2.愛奇藝推薦系統介紹

我們的推薦系統主要分為兩個階段,召回階段和排序階段。召回階段根據用戶的興趣和歷史行為,同千萬級的視頻庫中挑選出一個小的候選集(幾百到幾千個視頻)。這些候選都是用戶感興趣的內容,排序階段在此基礎上進行更精準的計算,能夠給每一個視頻進行精確打分,進而從成千上萬的候選中選出用戶最感興趣的少量高質量內容(十幾個視頻)。

推薦系統的整體結構如圖所示,各個模塊的作用如下:

(1)用戶畫像:包含用戶的人群屬性、歷史行為、興趣內容和偏好傾向等多維度的分析,是個性化的基石

(2)特征工程:包含了了視頻的類別屬性,內容分析,人群偏好和統計特征等全方位的描繪和度量,是視頻內容和質量分析的基礎

(3)召回算法:包含了多個通道的召回模型,比如協同過濾,主題模型,內容召回和SNS等通道,能夠從視頻庫中選出多樣性的偏好內容

(4)排序模型:對多個召回通道的內容進行同一個打分排序,選出最優的少量結果除了這些之外推薦系統還兼顧了推薦結果的多樣性,新鮮度,逼格和驚喜度等多個維度,更能夠滿足用戶多樣性的需求。

3.推薦排序系統架構

在召回階段,多個通道的召回的內容是不具有可比性的,并且因為數據量太大也難以進行更加精確的偏好和質量評估,因此需要在排序階段對召回結果進行統一的準確的打分排序。

用戶對視頻的滿意度是有很多維度因子來決定的,這些因子在用戶滿意度中的重要性也各不相同,甚至各個因子之間還有多層依賴關系,人為制定復雜的規則既難以達到好的效果,又不具有可維護性,這就需要借助機器學習的方法,使用機器學習模型來綜合多方面的因子進行排序。

排序系統的架構如圖所示,主要由用戶行為收集,特征填充,訓練樣本篩選,模型訓練,在線預測排序等多個模塊組成。機器學習的主體流程是比較通用的,設計架構并不需要復雜的理論,更多的是需要對細節,數據流和架構邏輯的仔細推敲

這個架構設計吸取了以前的經驗和教訓,在通用機器學習的架構基礎上解決了兩個問題:

(1)訓練預測的一致性:

機器學習模型在訓練和預測之間的差異會對模型的準確性產生很大的影響,尤其是模型訓練與在線服務時特征不一致,比如用戶對推薦結果的反饋會實時影響到用戶的偏好特征,在訓練的時候用戶特征的狀態已經發生了變化,模型如果依據這個時候的用戶特征就會產生非常大的誤差。我們的解決辦法是,將在線服務時的特征保存下來,然后填充到收集的用戶行為樣本中,這樣就保證了訓練和預測特征的一致性。

(2)持續迭代:

互聯網產品持續迭代上線是常態,在架構設計的時候,數據準備,模型訓練和在線服務都必須能夠對持續迭代有良好的支持。我們的解決方案是,數據準備和模型訓練各階段解耦,并且策略配置化,這種架構使模型測試變得非常簡單,可以快速并行多個迭代測試。

4.推薦機器學習排序算法演進

4.1上古時期

我們第一次上線機器學習排序模型時,選用了比較簡單的LogisticRegression,將重點放到架構設計上,盡量保證架構的正確性。除此之外,LR模型的解釋性強,方便debug,并且通過特征權重可以解釋推薦的內容,找到模型的不足之處。

在模型訓練之前,我們首先解決的是評測指標和優化目標的問題。

(1)評測指標(metrics)

線上效果的評測指標需要與長遠目標相匹配,比如使用用戶的投入程度和活躍度等。在我們的實驗中,業界流行的CTR并不是一個好的評測指標,它會更偏向于較短的視頻,標題黨和低俗內容。

離線評測指標是按照業務來定制的,以便與在線評測指標匹配,這樣在離線階段就能夠淘汰掉無效策略,避免浪費線上流量。

(2)優化目標(objective)

機器學習會按照優化目標求解最優解,如果優化目標有偏差,得到的模型也存在偏差,并且在迭代中模型會不斷地向這個偏差的方向學習,偏差會更加嚴重。我們的方法是給樣本添加權重,并且將樣本權重加到lossfunction中,使得優化目標與評測指標盡可能的一致,達到控制模型的目的。

LR是個線性分類模型,要求輸入是線性獨立特征。我們使用的稠密的特征(維度在幾十到幾百之間)往往都是非線性的,并且具有依賴性,因此需要對特征進行轉換。特征轉換需要對特征的分布,特征與label的關系進行分析,然后采用合適的轉換方法,我們用到的有以下幾種:PolynomialTransformation,LogarithmicorExponentialTransformation,InteractionTransformation和CumulativeDistributionFunction等。

雖然LR模型簡單,解釋性強,不過在特征逐漸增多的情況下,劣勢也是顯而易見的。

(1)特征都需要人工進行轉換為線性特征,十分消耗人力,并且質量不能保證

(2)特征兩兩作Interaction的情況下,模型預測復雜度是O(n^2)。在100維稠密特征的情況下,就會有組合出10000維的特征,復雜度高,增加特征困難

(3)三個以上的特征進行Interaction幾乎是不可行的

4.2中古時期

為了解決LR存在的上述問題,我們把模型升級為Facebook的GBDT+LR模型,模型結構如圖所示。

GBDT是基于Boosting思想的ensemble模型,由多顆決策樹組成,具有以下優點:

(1)對輸入特征的分布沒有要求

(2)根據熵增益自動進行特征轉換、特征組合、特征選擇和離散化,得到高維的組合特征,省去了人工轉換的過程,并且支持了多個特征的Interaction

(3)預測復雜度與特征個數無關

假設特征個數n=160決策數個數k=50,樹的深度d=6,兩代模型的預測復雜度對比如下,升級之后模型復雜度降低到原來的2.72%

GBDT與LR的stacking模型相對于只用GBDT會有略微的提升,更大的好處是防止GBDT過擬合。升級為GBDT+LR后,線上效果提升了約5%,并且因為省去了對新特征進行人工轉換的步驟,增加特征的迭代測試也更容易了。

4.3近代歷史

GBDT+LR排序模型中輸入特征維度為幾百維,都是稠密的通用特征。這種特征的泛化能力良好,但是記憶能力比較差,所以需要增加高維的(百萬維以上)內容特征來增強推薦的記憶能力,包括視頻ID,標簽,主題等特征。GBDT是不支持高維稀疏特征的,如果將高維特征加到LR中,一方面需要人工組合高維特征,另一方面模型維度和計算復雜度會是O(N^2)級別的增長。所以設計了GBDT+FM的模型如圖所示,采用FactorizationMachines模型替換LR。

FactorizationMachines(FM)模型如下所示,具有以下幾個優點:

i.模型公式

ii.前兩項為一個線性模型,相當于LR模型的作用

iii.第三項為一個二次交叉項,能夠自動對特征進行交叉組合

iv.通過增加隱向量,模型訓練和預測的計算復雜度降為了O(N)

v.支持稀疏特征

這幾個優點,使的GBDT+FM具有了良好的稀疏特征支持,FM使用GBDT的葉子結點和稀疏特征(內容特征)作為輸入,模型結構示意圖如下,GBDT+FM模型上線后相比GBDT+LR在各項指標的效果提升在4%~6%之間。

典型的FM模型中使用userid作為用戶特征,這會導致模型維度迅速增大,并且只能覆蓋部分熱門用戶,泛化能力比較差。在此我們使用用戶的觀看歷史以及興趣標簽代替userid,降低了特征維度,并且因為用戶興趣是可以復用的,同時也提高了對應特征的泛化能力。

我們主要嘗試使用了L-BFGS、SGD和FTRL(Follow-the-regularized-Leader)三種優化算法進行求解:

(1)SGD和L-BFGS效果相差不大,L-BFGS的效果與參數初始化關系緊密

(2)FTRL,較SGD有以下優勢:

[1]帶有L1正則,學習的特征更加稀疏

[2]使用累計的梯度,加速收斂

[3]根據特征在樣本的出現頻率確定該特征學習率,保證每個特征有充分的學習

FM模型中的特征出現的頻次相差很大,FTRL能夠保證每個特征都能得到充分的學習,更適合稀疏特征。線上測試表明,在稀疏特征下FTRL比SGD有4.5%的效果提升。

4.4當代模型

GBDT+FM模型,對embedding等具有結構信息的深度特征利用不充分,而深度學習(DeepNeuralNetwork)能夠對嵌入式(embedding)特征和普通稠密特征進行學習,抽取出深層信息,提高模型的準確性,并已經成功應用到眾多機器學習領域。因此我們將DNN引入到排序模型中,提高排序整體質量。

DNN+GBDT+FM的ensemble模型架構如圖所示,FM層作為模型的最后一層,即融合層,其輸入由三部分組成:DNN的最后一層隱藏層、GBDT的輸出葉子節點、高維稀疏特征。DNN+GBDT+FM的ensemble模型架構介紹如下所示,該模型上線后相對于GBDT+FM有4%的效果提升。

i.DNN模型

a)使用全連接網絡,共三個隱藏層

b)隱藏節點數目分別為1024,512和256

c)預訓練好的用戶和視頻的Embedding向量,包含基于用戶行為以及基于語義內容的兩種Embedding

d)DNN能從具有良好數學分布的特征中抽取深層信息,比如embedding特征,歸一化后統計特征等等

e)雖然DNN并不要求特征必須歸一化,不過測試發現有些特征因為outlier的波動范圍過大,會導致DNN效果下降

ii.GBDT模型

a)單獨進行訓練,輸入包含歸一化和未歸一化的稠密特征

b)能處理未歸一化的連續和離散特征

c)能根據熵增益自動對輸入特征進行離散和組合

iii.FM融合層

a)FM模型與DNN模型作為同一個網絡同時訓練

b)將DNN特征,GBDT輸出和稀疏特征進行融合并交叉

iv.使用分布式的TensorFlow進行訓練

v.使用基于TensorFlowServing的微服務進行在線預測

DNN+GBDT+FM的ensemble模型使用的是Adam優化器。Adam結合了TheAdaptiveGradientAlgorithm(AdaGrad)和RootMeanSquarePropagation(RMSProp)算法,具有更優的收斂速率,每個變量有獨自的下降步長,整體下降步長會根據當前梯度進行調節,能夠適應帶噪音的數據。實驗測試了多種優化器,Adam的效果是最優的。

4.5工業界DNNranking現狀

(1)Youtube于2016年推出DNN排序算法

(2)上海交通大學和UCL于2016年推出Product-basedNeuralNetwork(PNN)網絡進行用戶點擊預測。PNN相當于在DNN層做了特征交叉,我們的做法是把特征交叉交給FM去做,DNN專注于深層信息的提取

(3)Google于2016年推出WideAndDeepModel,這個也是我們當前模型的基礎,在此基礎上使用FM替換了CrossFeatureLR,簡化了計算復雜度,提高交叉的泛化能力

(4)阿里今年使用attention機制推出了DeepInterestNetwork(DIN)進行商品點擊率預估,優化embedding向量的準確性,值得借鑒

5.總結

推薦系統的排序是一個經典的機器學習場景,對于推薦結果影響也十分重大,除了對模型算法的精益求精之外,更需要對業務的特征,工程的架構,數據處理的細節和pipeline的流程進行仔細推敲和深入的優化。Ranking引入DNN僅僅是個開始,后續還需要在模型架構、Embedding特征、多樣性、冷啟動和多目標學習中做更多的嘗試,提供更準確,更人性化的推薦,優化用戶體驗。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47789

    瀏覽量

    240548
  • 推薦系統
    +關注

    關注

    1

    文章

    43

    瀏覽量

    10094
  • 大數據
    +關注

    關注

    64

    文章

    8910

    瀏覽量

    137842
收藏 人收藏

    評論

    相關推薦

    ComplexHeatmap包:個性化熱圖繪制利器

    雕琢。 官方介紹網站: https://jokergoo.github.io/ComplexHeatmap-reference/book/ 下面來介紹幾個簡單又實用的個性化調整: 可指定分群數,對熱圖
    的頭像 發表于 12-31 11:17 ?115次閱讀
    ComplexHeatmap包:<b class='flag-5'>個性化</b>熱圖繪制利器

    語音芯片賦能可穿戴設備:開啟個性化音頻新體驗

    語音芯片與可穿戴設備合作,帶來定制音效、智能降噪、個性化推薦、語音交互及跨設備共享等,引領個性化音頻時代,提升用戶聽覺體驗。
    的頭像 發表于 12-14 15:44 ?525次閱讀

    4G模組PWM調光入門:打造個性化呼吸燈

    一直有朋友問我怎么打造個性化呼吸燈,本文我將以合宙低功耗4G模組經典型號——Air780E為例,展示PWM輸出呼吸燈的實現方法,幫助大家深入理解如何在項目中應用PWM技術。
    的頭像 發表于 11-17 09:56 ?309次閱讀
    4G模組PWM調光入門:打造<b class='flag-5'>個性化</b>呼吸燈

    智慧路燈照明管理系統,呈現個性化城市照明效果

    【智慧城市】智慧路燈照明管理系統,呈現個性化城市照明效果
    的頭像 發表于 10-28 14:39 ?440次閱讀
    智慧路燈照明管理<b class='flag-5'>系統</b>,呈現<b class='flag-5'>個性化</b>城市照明效果

    以AI破解個性化客服難題

    一文匯集多個行業借助 AI 實現的個性化客服實踐
    的頭像 發表于 10-25 09:06 ?1952次閱讀
    以AI破解<b class='flag-5'>個性化</b>客服難題

    iPadOS 18悄然升級Apple Music體驗,個性化標簽欄成亮點

    在8月29日揭曉的iPadOS 18更新中,盡管并未涌現大量專為iPad設計的獨家功能,但一項針對Apple Music的細致優化——自定義標簽欄功能,卻極大地提升了iPad用戶的個性化體驗。這一改動雖看似細微,實則蘊含了巨大的用戶體驗革新。
    的頭像 發表于 08-29 16:10 ?430次閱讀

    Meta發布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領域邁出了重要一步,隆重推出了其創新之作——“Imagine Yourself”AI模型,這一突破性技術為個性化圖像生成領域帶來了前所未有的變革。在社交媒體與虛擬現實技術
    的頭像 發表于 08-26 10:59 ?639次閱讀

    VA段碼COG液晶屏可個性化靈活設計UI,實現創意UI的高對比高亮多色彩炫酷顯示。

    VA段碼COG液晶屏可個性化靈活設計UI,實現創意UI的高對比高亮多色彩炫酷顯示。
    的頭像 發表于 07-11 10:50 ?674次閱讀
    VA段碼COG液晶屏可<b class='flag-5'>個性化</b>靈活設計UI,實現創意UI的高對比高亮多色彩炫酷顯示。

    宏集Panorama SCADA:個性化定制,滿足多元角色需求

    企業中不同崗位的人員對于SCADA系統的功能需求可能有所差異,宏集Panorama SCADA平臺支持針對不同人員角色進行個性化定制,滿足多元角色需求,幫助更高效地利用SCADA系統進行生產管理。
    的頭像 發表于 06-05 11:34 ?377次閱讀
    宏集Panorama SCADA:<b class='flag-5'>個性化</b>定制,滿足多元角色需求

    亞馬遜推出個性化AI歌單功能Maestro,進軍音樂市場

    據亞馬遜公司透露,其音樂應用程序 Amazon Music 已開始向少量美國用戶推出 AI 生成歌單功能 Maestro 的測試版服務。這項服務允許用戶利用多樣的提示信息(如文本、表情符號及其組合等),迅速生成個性化的歌單。
    的頭像 發表于 04-17 16:48 ?673次閱讀

    激光打標機:精準定位,實現個性化標識需求

    激光打標機:精準定位,實現個性化標識需求激光打標機,以其精準定位的特性,成為實現個性化標識需求的得力工具。在現代制造業中,個性化標識已成為產品差異化、品牌塑造和提升附加值的重要手段。激光打標機通過其
    的頭像 發表于 03-19 19:43 ?595次閱讀
    激光打標機:精準定位,實現<b class='flag-5'>個性化</b>標識需求

    燧原科技與共同探索生成式AI在泛娛樂行業的技術變革

    2024年3月13日,中國上?!菰萍冀袢招寂c領先的流媒體平臺簽署戰略合作協議,共同探索AIGC在影視內容制作領域的應用,以期打造AIGC技術在泛娛樂領域的卓越標桿。
    的頭像 發表于 03-13 10:25 ?560次閱讀

    玩轉個性,HUAWEI Pocket 2首發小智能頭像

    的小折疊在設計、性能、體驗等方面的全新升級。其中,HUAWEI Pocket 2首發支持小智能頭像,讓用戶可以一鍵設置個性化外屏頭像,為設備增添一抹獨特的色彩。 智能頭像 玩轉個性 在快節奏的都市生活中,
    的頭像 發表于 02-22 17:19 ?684次閱讀

    打造專屬高清視頻轉換器:滿足個性化視頻轉換需求

    隨著視頻技術的不斷進步和多樣,用戶對視頻格式轉換的需求也日益增長。標準的視頻轉換器雖然能夠滿足大部分用戶的需求,但對于那些有特定需求或希望實現更高效、更個性化轉換的用戶來說,打造專屬的高清視頻
    的頭像 發表于 02-22 14:29 ?366次閱讀

    個性化定制,提升運營效率:SAP二次開發引領企業數字轉型

    的解決方案,助力其實現數字轉型,提高運營效率,迎接不斷變化的業務需求。 提升企業運營效率,打造個性化管理工具 SAP二次開發服務可以根據企業的特定需求,深入定制現有的SAP系統,為企業提供
    的頭像 發表于 02-18 13:29 ?468次閱讀
    主站蜘蛛池模板: 你懂的免费在线 | 欧美二级黄色片 | 午夜欧美性视频在线播放 | 一级毛片日韩a欧美 | 校园激情综合网 | 欧美123区| 九九热精品在线观看 | 欧美日本一区二区 | 欧美色视频日本片高清在线观看 | 在线视频一区二区三区 | 美女视频黄a全部免费看小说 | 免费视频观看 | 美日韩一级 | 呦交小u女国产秘密入口 | 成人淫片 | 狠狠尻 | 国产精品久久精品牛牛影视 | 色多多在线观看播放 | 狠狠去 | 天天射色综合 | 性free中国美女hd | 国产精品一区在线播放 | www网站在线观看 | 激情五月激情综合网 | 日本69xxx18hd| 欧美色老头 | 日本视频不卡 | 六月婷婷网 | www.嫩草影院 | 国产资源在线播放 | 久久美女精品国产精品亚洲 | 国产日韩精品一区二区三区 | 欧美成人久久 | 成人99国产精品一级毛片 | 加勒比一到三区 | 成年大片免费视频播放手机不卡 | 天天干天天操天天插 | 天堂在线国产 | 色噜噜噜噜噜在线观看网站 | 欧美三级第一页 | 在线精品一区二区三区 |