Netflix數(shù)據(jù)管道的演進(jìn)歷程
大?。?/span>0.3 MB 人氣: 2017-10-11 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
標(biāo)簽:Netflix(10954)
去年12月我們的Keystone數(shù)據(jù)管道正式投入使用,本文我們就來講講這些年Netflix數(shù)據(jù)管道的變化歷程。數(shù)據(jù)是Netflix的中心,很多的商業(yè)決策和產(chǎn)品設(shè)計(jì)都是依據(jù)數(shù)據(jù)分析而做出的決定。在Netflix,數(shù)據(jù)管道的目的是對(duì)數(shù)據(jù)進(jìn)行收集歸納和處理,幾乎我們所有的應(yīng)用都會(huì)用到數(shù)據(jù)管道。下面我們先來看看有關(guān)Netflix數(shù)據(jù)管道的一些統(tǒng)計(jì)數(shù)據(jù):
每天約5000億個(gè)事件,1.3PB的數(shù)據(jù)高峰時(shí)段約每秒800萬個(gè)事件,24GB數(shù)據(jù)
我們用另外的Atlas系統(tǒng)來管理運(yùn)營(yíng)相關(guān)的數(shù)據(jù)所以它并沒有出現(xiàn)在上面的列表中。
由于需求的變化和技術(shù)的進(jìn)步,過去幾年我們的數(shù)據(jù)管道發(fā)生了很大的改變。下面我們就來介紹一下。
V1.0 Chukwa數(shù)據(jù)管道
最初數(shù)據(jù)管道唯一的目的就是把事件信息上傳到Hadoop/Hive。如下圖中所示,整個(gè)架構(gòu)是比較簡(jiǎn)單的。Chukwa收集事件信息并將sequencefile寫入亞馬遜S3,之后大數(shù)據(jù)平臺(tái)部門會(huì)進(jìn)一步處理并寫入Hive。從事件發(fā)生到以Parquet格式寫入Hive整個(gè)過程不超過十分鐘,對(duì)于每小時(shí)甚至每天才運(yùn)行一次的batch job來說已經(jīng)足夠了。
V1.5 能夠進(jìn)行實(shí)時(shí)處理的Chukwa數(shù)據(jù)管道
隨著Kafka和Elasticsearch等技術(shù)的發(fā)展,公司內(nèi)部對(duì)于實(shí)時(shí)分析的需求愈加強(qiáng)烈,我們必須保證處理所需時(shí)間在一分鐘之內(nèi)。
除了將數(shù)據(jù)寫入S3,Chukwa還可以將數(shù)據(jù)發(fā)送到Kafka,新的實(shí)時(shí)分支(虛線框住的部分)處理的事件大約占到總事件的30%。處于實(shí)時(shí)處理分支中心位置的是事件路由模塊,它負(fù)責(zé)將數(shù)據(jù)從Kafka傳遞到Elasticsearch和下一級(jí)Kafka(進(jìn)行數(shù)據(jù)的篩選)。終端用戶可以自由選擇趁手的工具進(jìn)行分析,比如Mantis、Spark或其他定制工具。
Elasticsearch在Netflix的應(yīng)用過去兩年經(jīng)歷了爆炸式的發(fā)展,現(xiàn)在共有約150個(gè)集群和約3500個(gè)節(jié)點(diǎn),總數(shù)據(jù)量約1.3PB,而這其中大部分?jǐn)?shù)據(jù)都是通過我們的數(shù)據(jù)管道采集處理的。
數(shù)據(jù)路由的部分是由我所在的小組管理的,下面是一些我們碰到過的問題:
Kafka high level consumer會(huì)喪失消息分區(qū)的所有權(quán)并停止讀取一些分區(qū),唯一的解決辦法是重啟。有時(shí)部署代碼之后high level consumer在rebalance時(shí)會(huì)出錯(cuò)。我們有幾十個(gè)集群用于事件路由,運(yùn)營(yíng)上的開銷正持續(xù)增長(zhǎng),所以對(duì)于路由job的管理還要想個(gè)更好的辦法。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
Netflix數(shù)據(jù)管道的演進(jìn)歷程下載
相關(guān)電子資料下載
- 如何利用神經(jīng)網(wǎng)絡(luò)改善Netflix視頻質(zhì)量 260
- 智能制造——現(xiàn)代工廠如何打造“會(huì)思考的機(jī)器”? 727
- 亞馬遜開源視效工具,Netflix、HBO都在使用 456
- 在哪里可以找到Netflix代碼 756
- Netflix 宣布將投資 1 億美元來提高其螢?zāi)蝗瞬诺亩鄻有?/a> 1489
- 分析師:蘋果公司最大的戰(zhàn)略錯(cuò)誤在于沒有收購(gòu)Netflix 1350
- 蘋果最大的戰(zhàn)略錯(cuò)誤或是沒有收購(gòu)Netflix 1098
- Netflix或?qū)⑼瞥鯠ownloads For You功能 1514
- Netflix 表示:目前沒有測(cè)試 AirPods Pro 和 AirPods Max 的空間音頻支持 2362
- 谷歌 YouTube 和 Netflix 未來將支持 AV1 硬件解碼 1911