在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

流媒體巨頭Netflix的“獨門線上評估秘笈”——Interleaving

nlfO_thejiangme ? 來源:lq ? 2019-08-02 14:58 ? 次閱讀

有經驗的算法工程師肯定非常清楚,在一個模型的開發周期中,占工作量大頭的其實是特征工程和模型評估及上線的過程。在機器學習平臺已經非常成熟的現在,模型結構的實現和調整反而僅僅是幾行代碼的事情。所以如果能夠將模型評估和線上AB Test的效率提高,那一定是大大解放算法工程師效率的事情。

今天這篇文章我們就介紹一下流媒體巨頭Netflix的“獨門線上評估秘笈”——Interleaving。

眾所周知,Netflix是美國的流媒體巨頭,其廣為人知的原因不僅是因為其多部知名的原創劇,高昂的市值,在推薦技術領域,Netflix也一直走在業界的最前沿。那么驅動Netflix實現推薦系統快速迭代創新的重要技術,就是我們今天要介紹的快速線上評估方法——Interleaving。

Netflix推薦系統問題背景

Netflix幾乎所有頁面都是推薦算法驅動的,每種算法針對不同的推薦場景進行優化。

如下圖所示,主頁上的“Top Picks行”根據視頻的個性化排名提供推薦,而“Trending Now行”包含了最近的流行趨勢。這些個性化的行共同構成了Netflix將近1億會員“千人千面“的個性化主頁。

圖1:個性化Netflix主頁示例。每一行是一個推薦類別,對于給定的行,從左到右的視頻排序由特定的排序算法確定。

對于強算法驅動的Netflix來說,算法的迭代創新當然是必不可少的。為了通過算法最大化Netflix的商業目標(這些商業指標包括每月用戶訂閱數、觀看總時長等等),需要進行大量的AB Test來驗證新算法能否有效提升這些關鍵的產品指標。

這就帶來一個矛盾,就是算法工程師們日益增長的AB Test需求和線上AB Test資源嚴重不足之間的矛盾。

因為線上AB Test必然要占用寶貴的線上流量資源,還有可能會對用戶體驗造成損害,但線上流量資源顯然是有限的,而且只有小部分能夠用于AB Test;而算法研發這側,算法驅動的使用場景不斷增加,大量候選算法需要逐一進行AB Test。這二者之間的矛盾必然愈演愈烈。這就迫切需要設計一個快速的線上評估方法。

為此,Netflix設計了一個兩階段的線上測試過程:

圖2:使用Interleaving進行快速線上測試。用燈泡代表候選算法。其中,最優的獲勝算法用紅色表示。Interleaving能夠快速地將最初的候選算法集合進行縮減,相比傳統的AB Test更快地確定最優算法。

1. 第一階段利用被稱為Interleaving的測試方法進行候選算法的快速篩選,從大量初始想法中篩選出少量“優秀的”Ranking算法。

2. 第二階段是對縮小的算法集合進行傳統的AB Test,以測量它們對用戶行為的長期影響。

大家一定已經對傳統的AB Test方法駕輕就熟,所以這篇文章專注于介紹Netflix是怎樣通過Interleaving方法進行線上快速測試的。

傳統AB Test存在的問題

傳統的AB Test除了存在效率問題,還存在一些統計學上的顯著性差異問題。下面用一個很典型的AB Test問題來進行說明。

這里設計一個AB Test來驗證用戶群體是否對“可口可樂”和“百事可樂”存在口味傾向。那么按照傳統的做法,我們會將測試人群隨機分成兩組然后進行“盲測”,即在不告知可樂品牌的情況下進行測試。第一組只提供可口可樂,第二組只提供百事可樂,然后根據大家一定時間內的可樂消耗量來觀察人們是更喜歡“可口可樂”還是“百事可樂”。

這個實驗一般意義上確實是有效的,很多時候我們也是這么做的。但也確實存在一些潛在的問題:

1. 總的測試人群中,對于可樂的消費習慣肯定各不相同,從幾乎不喝可樂到每天喝大量可樂的人都有。

2. 可樂的重消費人群肯定只占總測試人群的一小部分,但他們可能占整體汽水消費的較大比例。

這兩個問題導致——即使AB兩組之間重度可樂消費者的微小不平衡也可能對結論產生不成比例的影響。

在互聯網場景下,這樣的問題同樣存在。比如Netflix場景下,非常活躍用戶的數量是少數,但其貢獻的觀看時長卻占較大的比例,因此Netflix AB Test中活躍用戶被分在A組的多還是被分在B組的多,將對結果產生較大影響,從而掩蓋模型的真實效果。

那么如何解決這個問題呢?一個方法是不對測試人群進行分組,而是讓所有測試者都可以自由選擇百事可樂和可口可樂(測試過程中仍沒有品牌標簽,但能區分是兩種不同的可樂)。在實驗結束時,統計每個人可口可樂和百事可樂的消費比例,然后進行平均后得到整體的消費比例。

這個測試方案的優點在于:

1. 消除了AB組測試者自身屬性分布不均的問題;

2. 通過給予每個人相同的權重,降低了重度消費者對結果的過多影響。

這個測試思路應用于Netflix的場景,就是Interleaving。

Netflix的快速線上評估方法——Interleaving

AB Test和Interleaving之間存在如下差異。

在傳統的AB Test中,Netflix會選擇兩組訂閱用戶:一組接受Ranking算法A的推薦結果,另一組接受Ranking算法B的推薦結果。

在Interleaving測試中,只有一組訂閱用戶,這些訂閱用戶會接受到通過混合算法A和B的排名生成的交替排名。

這就使得用戶同時可以在一行里同時看到算法A和B的推薦結果(用戶無法區分一個item是由算法A推薦的還是算法B推薦的),進而可以通過計算觀看時長等指標來衡量到底是算法A好還是算法B好。

解讀圖3:傳統AB Test和Interleaving 在傳統AB Test中,測試用戶分為兩組,一組暴露于排名算法A ,另一組暴露于算法B,在兩組之間進行比較觀看時長等核心評估指標。另一方面,Interleaving將所有測試用戶暴露于算法A和B的混合排名,再比較算法相對應的item的指標。

當然,在用Interleaving方法進行測試的時候,必須要考慮位置偏差的存在,避免來自算法A的視頻總排在第一位。因此需要以相等的概率讓算法A和算法B交替領先。這類似于在野球場打球時,兩個隊長先通過扔硬幣的方式決定誰先選人,然后在交替選隊員的過程。

圖4:使用“隊長選人”的方式來混合兩個排名算法的視頻。ranking算法A和B分別產生了推薦視頻列表。通過隨機拋硬幣確定是ranking算法A還是B貢獻第一個視頻。然后,輪流從算法A和B中從高到底選擇視頻。

在清楚了Interleaving方法之后,還需要驗證這個評估方法到底能不能替代傳統的AB Test,會不會得出錯誤的結論。Netflix從兩個方面進行了驗證,一是Interleaving的“靈敏度”,二是Interleaving的“正確性”。

Interleaving與傳統AB Test的靈敏度比較

Netflix的這組實驗希望驗證的是Interleaving方法相比傳統AB Test,需要多少樣本就能夠驗證出算法A和算法B的優劣。我們之前一再強調線上測試資源的緊張,因此這里自然希望Interleaving能夠利用較少的線上資源,較少的測試用戶就解決評估問題。這就是所謂的“靈敏度比較”。

圖5是實驗結果,橫軸是參與實驗的樣本數量,縱軸Netflix沒有給出非常精準的解釋,但我們可以理解為是判定算法A是否比算法B好的“錯誤”概率。可以看出的是interleaving的方法利用10^3個樣本就能夠判定算法A是否比B好,而AB test則需要10^5個樣本才能夠將錯誤率降到5%以下。這就意味著利用一組AB Test的資源,我們可以做100組Interleaving實驗。這無疑大大加強了線上測試的能力。

圖5:對Interleaving與傳統AB Test指標的靈敏度。與最敏感的AB Test指標相比,Interleaving也只需要1/100的訂閱用戶樣本就能夠確定用戶更偏愛哪個算法

Interleaving指標與AB Test指標的相關性

除了能夠利用小樣本快速進行算法評估外,Interleaving的判斷結果是否與AB Test一致,也是檢驗Interleaving能否在線上評估第一階段取代AB Test的關鍵。

圖6顯示了Interleaving中的實驗指標與AB Test指標之間的相關性。每個數據點代表一個Ranking算法。我們發現Interleaving指標與AB Test評估指標之間存在非常強的相關性,這就驗證了在Interleaving實驗中勝出的算法也極有可能在之后的AB Test中勝出。

圖6:Interleaving指標與AB Test指標的相關性。每個點表示一個Ranking算法的實驗結果。Interleaving指標與AB Test指標存在很強的相關性。

結論

通過實驗我們已經知道Interleaving是一種強大快捷的算法驗證方法,它加速了Netflix各類Ranking算法的迭代創新。

但我們也要清楚的是Interleaving方法也存在一定的局限性,主要是下面兩點:

1. 工程實現的框架較傳統AB Test復雜。由于Interleaving實驗的邏輯和業務邏輯糾纏在一起,因此業務邏輯可能會被干擾。而且為了實現Interleaving,需要將大量輔助性的數據標示添加到整個數據pipeline中,這都是工程實現的難點;

2. Interleaving畢竟只是對用戶對算法推薦結果偏好程度的相對測量,不能得出一個算法完整的表現。比如我們想知道算法A能夠將用戶整體的觀看時長提高多少,使用Interleaving是無法得出這樣的結論的。為此Netflix才設計了Interleaving+AB Test兩級實驗結構,完善整個線上測試的框架。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8481

    瀏覽量

    133874
  • 推薦系統
    +關注

    關注

    1

    文章

    44

    瀏覽量

    10173

原文標題:Netflix推薦系統模型的快速線上評估方法——Interleaving

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    USB MP4流媒體帶來的好處

    USB MP4流媒體帶來的好處什么是流媒體呢?從硬件角度講是指一些便攜的,播放時不占用播放設備內存,可即時播放的數碼設備,例如U盤、MP3、移動硬盤、DC、DV里的SD、MMC卡等,具體說就是擁有
    發表于 05-24 18:19

    基于流媒體技術的手機視頻播放系統的研究與實現

    【作者】:李露一【來源】:《華南理工大學》2009年【摘要】:隨著無線通信網絡從2.5G向3G進化以及手機硬件技術不斷的升級換代,多媒體應用和寬帶網絡服務成為可能,它們的結合體就是無線流媒體
    發表于 04-24 09:24

    流媒體后視鏡 柔光夜視清盲區實用性強

    `目前最火的智能后視鏡無疑就是凌度A900流媒體后視鏡,凌度A900流媒體后視鏡是以駕駛員視野角度提供了一種擴展能力更強更智能的產品,這種技術可以解決后視方的盲區問題。流媒體后視鏡不僅僅可以清除盲區
    發表于 12-13 16:33

    【HarmonyOS HiSpark AI Camera】流媒體后視鏡

    項目名稱:流媒體后視鏡試用計劃:申請理由本人在車機應用開發領域有五年多的學習和開發經驗,曾設計過車機端中控和儀表應用層的開發,對想借助發燒友論壇學習華為海思Hi3516DV300芯片實現流媒體后視鏡
    發表于 11-19 20:50

    探討無線流媒體監控系統的相關知識

    無線流媒體監控系統的相關技術有哪些?無線流媒體監控系統組網特點是什么?無線流媒體監控系統是有哪些部分組成的?無線流媒體監控系統主要應用于哪些領域?
    發表于 05-25 06:52

    什么是流媒體服務器?

    介紹一下什么是流媒體服務器。  其實流媒體服務器從廣義上來說,是屬于視頻服務器的一種。它主要是將視頻或者音頻文件進行數據壓縮,然后存儲等,在遠程監控及視頻應用方面,流媒體服務器都有廣泛的應用。而視頻
    發表于 06-30 09:28

    嵌入式Linux音頻流媒體終端系統的設計資料分享

    《一種嵌入式Linux音頻流媒體終端系統的設計與實現》由會員分享,可在線閱讀,更多相關《一種嵌入式Linux音頻流媒體終端系統的設計與實現(2頁珍藏版)》請在人人文庫網上搜索。1、一種嵌入式
    發表于 12-16 06:06

    TD-SCDMA 移動流媒體業務

    TD-SCDMA 移動流媒體業務:移動流媒體業務及分類網絡模型和系統結構移動流媒體的主要業務流程移動流媒體的編解碼與文件格式移動流媒體相關協
    發表于 07-30 23:52 ?25次下載

    中國電信流媒體

    中國電信流媒體一、業務簡介 流媒體業務是基于CDMA 1X精品網絡,采用先進的流媒體技術,為用戶提供高質量的視、音頻服務的手機增值業務。用戶使用流媒
    發表于 05-21 09:47 ?2959次閱讀

    流媒體是什么?

    流媒體是什么?  流媒體又叫流式媒體,它是指商家用一個視頻傳送服務器把節目當成數據包發出,傳送到網絡上。用戶通過解
    發表于 01-28 10:28 ?2491次閱讀

    區塊鏈會對Netflix和其他流媒體競爭對手造成威脅嗎?

    許多人沒有意識到Netflix并不僅僅是一個流媒體平臺。除了每天為數百萬用戶提供他們想看的視頻,該公司還用自己的很大一部分收益投資了節目制作、前沿存儲解決方案開發及市場調查。這種模式到目前為止一直很
    發表于 09-28 14:41 ?837次閱讀

    蘋果發力 流媒體大戰一觸即發,多方爭霸,各顯其能

    蘋果近一年來一直在瘋狂購買內容,它已經準備好在流媒體領域拿回硬件市場的“虧空”。盡管主要競爭對手Netflix占據了市場主導地位,但在流媒體和付費電視仍有價格空間的情況下,用戶現在有了越來越大的選擇余地。
    的頭像 發表于 08-29 10:24 ?2447次閱讀

    電視流媒體平臺和設備將成為視頻流媒體的主導力量

    Strategy Analytics電視流媒體平臺服務最新發布的研究報告指出,全球電視流媒體和視頻流媒體設備的數量現已超過11億。該研究追蹤了27個主要國家/地區電視和視頻流媒體設備的
    的頭像 發表于 09-03 17:01 ?2343次閱讀
    電視<b class='flag-5'>流媒體</b>平臺和設備將成為視頻<b class='flag-5'>流媒體</b>的主導力量

    云計算是如何推動流媒體服務的?云是流媒體的完美選擇

    流媒體服務的迅速崛起是不可否認的。如今,Netflix、Amazon Prime Video和Disney Plus擁有數百萬用戶。其他流媒體服務,如Hulu Plus、HBO Max和CBS
    的頭像 發表于 11-17 18:19 ?2533次閱讀

    Netflix或將推出Downloads For You功能

    作為世界流媒體巨頭Netflix,在全球擁有2.036億的訂閱用戶。相信大家在出差或者旅途中,都喜歡緩存一些電影或劇集用來打發時間。但是如果有時候不知道該看什么、或者忘記緩存,那么這趟旅途就會萬分無聊。
    的頭像 發表于 02-23 15:13 ?1993次閱讀
    主站蜘蛛池模板: 五月婷婷免费视频 | 丁香花在线视频观看免费 | 黄色香蕉网 | 国语对白老女人8av 孩交精品xxxx视频视频 | 亚洲 另类色区 欧美日韩 | gogo亚洲肉体艺术100 | 亚洲 欧美 自拍 另类 欧美 | 资源种子在线观看 | 一级毛片aaaaaa视频免费看 | 新版天堂8在线天堂 | 黄色小毛片 | 双性受粗大撑开白浊 | 宅男午夜视频在线观看 | 综合激情在线 | 性猛交xxxx乱大交孕妇 | 69xxxⅹxxxxxx日本 | 亚洲插插插 | 天堂bt资源新版在线 | 色视频网站人成免费 | 欧美天堂在线观看 | 四虎影院永久网站 | 四虎海外在线永久免费看 | 男人透女人超爽视频免费 | 一区二区三区中文字幕 | 日本精高清区一 | 亚洲小视频在线播放 | 欧美美女一区二区三区 | 视频一区视频二区在线观看 | 欧美色图日韩色图 | 欧美高清一级 | 午夜网站在线 | 国产片91人成在线观看 | www.黄网站| 无人码一区二区三区视频 | 黄色一级片视频 | 精品乱码一区二区三区四区 | 欧美在线视频一区二区三区 | 欧美人与z0zoxxxx| 青草网址 | 操操操操网 | 中文字幕卡二和卡三的视频 |