在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Flink在2020年蟬聯(lián)Apache社區(qū)最活躍的項(xiàng)目

算法與數(shù)據(jù)結(jié)構(gòu) ? 來源:算法與數(shù)據(jù)結(jié)構(gòu) ? 作者:王峰(莫問)、梅 ? 2021-01-04 13:52 ? 次閱讀

剩喜漫天飛玉蝶,不嫌幽谷阻黃鶯。2020 年是不尋常的一年,F(xiàn)link 也在這一年迎來了新紀(jì)元。 12 月13 – 15 號(hào),2020 Flink Forward Asia(FFA)在春雪的召喚下順利拉開帷幕。Flink Forward Asia 是由 Apache 官方授權(quán),Apache Flink Community China 支持舉辦的會(huì)議。經(jīng)過兩年的不斷升級(jí)和完善,F(xiàn)link Forward Asia 已成為國內(nèi)最大的 Apache 頂級(jí)項(xiàng)目會(huì)議,是 Flink 開發(fā)者和使用者的年度盛會(huì)!

今年由于疫情的原因,F(xiàn)link Forward Asia 首次采用線上線下雙線同步會(huì)議的形式,吸引了更多的參會(huì)者觀看討論,三天實(shí)際總參與人數(shù)(UV)超過 9.2 萬,單日最高觀看人數(shù)(UV)超過 4 萬。

e15c8912-48d2-11eb-8b86-12bb97331649.png

FFA 大會(huì)從社區(qū)發(fā)展,業(yè)內(nèi)影響力和 Flink 引擎生態(tài)這三方面總結(jié)了 Flink 過去一年內(nèi)的成績。 社區(qū)方面,如上圖所示,根據(jù) Apache 基金會(huì)財(cái)年報(bào)告公布的各項(xiàng)核心指標(biāo)顯示,F(xiàn)link 在 2020 年蟬聯(lián) Apache 社區(qū)最活躍的項(xiàng)目。不僅如此,F(xiàn)link Github 的星數(shù)(代表項(xiàng)目受歡迎程度)和 Flink 的社區(qū)代碼貢獻(xiàn)者(contributor)數(shù)量在過去數(shù)年中一直保持年均 30%+ 的增長。

尤其值得一提的是 Flink 中文社區(qū)的繁榮發(fā)展:Flink 是當(dāng)前 Apache 頂級(jí)項(xiàng)目中唯一一個(gè)開通了中文郵件列表(user-zh@flink.apache.org)的項(xiàng)目,且中文郵件列表的活躍度已超過英文郵件列表;Flink 的官方公眾號(hào)訂閱數(shù)超過 3 萬人,全年推送超過 200 篇和 Flink 技術(shù),生態(tài)以及實(shí)踐相關(guān)的最新資訊。此外,F(xiàn)link 官方中文學(xué)習(xí)網(wǎng)站也已經(jīng)正式開通:https://flink-learning.org.cn/,收納了和 Flink 相關(guān)的學(xué)習(xí)資料,場(chǎng)景案例以及活動(dòng)信息,希望能對(duì) Flink 感興趣的同學(xué)有所助益。

e192a2fe-48d2-11eb-8b86-12bb97331649.png

在業(yè)界影響力方面,經(jīng)過幾年的發(fā)展,F(xiàn)link 已經(jīng)成為事實(shí)上的國內(nèi)外實(shí)時(shí)計(jì)算行業(yè)標(biāo)準(zhǔn),大部分主流科技公司均已采用 Flink 作為實(shí)時(shí)計(jì)算的技術(shù)方案。本屆 Flink Forward Asia 邀請(qǐng)到 40 多家一線國內(nèi)外公司參與分享 Flink 的技術(shù)探索和實(shí)踐經(jīng)驗(yàn),上圖列出了其中部分公司的 Logo。從圖中的 Logo 來看,F(xiàn)link 技術(shù)已經(jīng)應(yīng)用到各行各業(yè),深入到我們的日常點(diǎn)滴生活中,從知識(shí)分享到在線教育;從金融服務(wù)到理財(cái)投資;從長短視頻到在線直播;從實(shí)時(shí)推薦搜索到電商服務(wù)等等。

從 Flink 引擎生態(tài)來看,2020 年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,擁抱 AI,云原生這四個(gè)主打方向上都取得了不錯(cuò)的成績。特別對(duì)于流批一體,今年發(fā)布的三個(gè)大版本(Flink-1.10 & 1.11 & 1.12)對(duì)流批一體進(jìn)一步作了升級(jí)和完善,并首次在阿里巴巴雙十一最核心的天貓營銷活動(dòng)分析大屏場(chǎng)景中落地 [1]。經(jīng)歷過雙十一洗禮的流批一體將成為在業(yè)界大規(guī)模推廣的起點(diǎn),開創(chuàng)流批一體新紀(jì)元! 本文將對(duì) Keynote 議題作一些簡單的歸納總結(jié),拋磚引玉,感興趣的小伙伴們可以在官網(wǎng)找到相關(guān)主題視頻觀看直播回放。

主會(huì)場(chǎng)議題

在主議題之前有兩個(gè)環(huán)節(jié)值得提一提。一是阿里巴巴集團(tuán)副總裁,阿里云智能計(jì)算平臺(tái)負(fù)責(zé)人,人工智能計(jì)算框架 Caffe 之父賈揚(yáng)清老師作為開場(chǎng)嘉賓,分享了他對(duì)開源與云的思考。他指出,開源讓云更標(biāo)準(zhǔn)化,而大數(shù)據(jù)和人工智能一體化則是必然趨勢(shì)。顯而易見地,作為頂級(jí)開源項(xiàng)目和實(shí)時(shí)計(jì)算標(biāo)準(zhǔn)的 Flink 在這個(gè)過程中承擔(dān)極其重要的角色。

同時(shí)他也對(duì) Flink 如何在未來做到計(jì)算普惠化和數(shù)據(jù)智能化提出更多期待,讓 Flink 的小松果在各行各業(yè)的數(shù)據(jù)和智能融合中生根發(fā)芽!二是由阿里云天池平臺(tái)和 Intel 聯(lián)合舉辦的第二屆 Apache Flink 極客挑戰(zhàn)賽頒獎(jiǎng)典禮。此次挑戰(zhàn)賽聚焦防疫主題,在 Apache Flink 平臺(tái)上支持深度學(xué)習(xí)應(yīng)用,吸引了來自 14 個(gè)國家和地區(qū),705 所高校,1327 家企業(yè)的 3840 位選手,由揚(yáng)清,李文和湘雯頒獎(jiǎng)。

言歸正傳,下面聊聊幾個(gè)主議題。

Flink as a Unified Engine

–– Now and Next

主議題由 Apache Flink 中文社區(qū)發(fā)起人,阿里云智能實(shí)時(shí)計(jì)算和開放平臺(tái)負(fù)責(zé)人莫問老師開啟,主要介紹 Flink 社區(qū)在 2020 年取得的成果以及未來的發(fā)展方向,主要包括:流計(jì)算引擎內(nèi)核,流批一體,F(xiàn)link + AI 融合,云原生這四個(gè)方向。值得一題的是,他還特別分享了阿里巴巴作為 Flink 最大的使用者和推動(dòng)者,在流批一體雙十一核心業(yè)務(wù)場(chǎng)景落地的過程中的經(jīng)驗(yàn)和心得,相信對(duì)很多有類似需求的小伙伴們會(huì)有啟示。

技術(shù)創(chuàng)新是開源項(xiàng)目持續(xù)發(fā)展的核心,所以首先第一個(gè)部分是 Flink 社區(qū)在流計(jì)算引擎內(nèi)核方面的創(chuàng)新分享:

1)Unaligned Checkpoint 我們知道 Flink 的一個(gè)最核心的部分是通過分布式全局輕量快照算法 [2, vldb17] 做 checkpoint 來保證強(qiáng)一致性 exactly once 語義。這個(gè)算法通過 task 之間 barrier 的傳遞使得每一個(gè) task 只需要對(duì)自己的狀態(tài)進(jìn)行快照;當(dāng) barrier 最終達(dá)到 sink 的時(shí)候,我們就會(huì)得到一個(gè)完整的全局快照(checkpoint)。但在數(shù)據(jù)反壓的情況下,barrier 無法流到 sink,會(huì)造成 checkpoint 始終無法完成。

Unaligned Checkpoint 解決了反壓狀態(tài)下,checkpoint 無法完成的問題。在 unaligned checkpoint 的模式下,F(xiàn)link 可以對(duì)每個(gè) task 的 channel state 和 output buffer 也進(jìn)行快照,這樣 barrier 可以快速傳遞到 sink,使得 checkpoint 不受反壓影響。Unaligned checkpoint 和 aligned checkpoint(現(xiàn)有的 checkpoint 模式)可以通過 alignment timeout 自動(dòng)智能的切換,下圖給出了示意圖。

e2dce96c-48d2-11eb-8b86-12bb97331649.png

2)Approximate Failover –– 更加靈活的容錯(cuò)模式 流計(jì)算內(nèi)核引擎部分的另一個(gè)提升是 Approximate 單點(diǎn) Failover。在強(qiáng)一致性 exactly once 語義下,單個(gè)節(jié)點(diǎn)的失敗會(huì)導(dǎo)致全部節(jié)點(diǎn)的重新啟動(dòng)和回滾。但對(duì)某些場(chǎng)景,特別是 AI 訓(xùn)練的場(chǎng)景,其實(shí)對(duì)語義一致性的要求并沒有那么高,反而對(duì)于可用性要求更高,所以社區(qū)引入了 Approximate Failover 的模式:單個(gè)節(jié)點(diǎn)的失敗只會(huì)引起該失敗節(jié)點(diǎn)的重啟和恢復(fù),而整個(gè)數(shù)據(jù)流程是沒有中斷的。Approximate Failover 在 AI 訓(xùn)練和推薦場(chǎng)景下是強(qiáng)需求,快手和字節(jié)跳動(dòng)的分享中都有提到。

3)Nexmark –– Streaming Benchmark 目前的實(shí)時(shí)流計(jì)算并沒有行業(yè)內(nèi)公認(rèn)的 benchmark,為了填補(bǔ)這項(xiàng)空白,基于 NEXMark[3],F(xiàn)link 推出了第一版包含 16 個(gè) SQL Query 的 benchmark 工具 Nexmark。Nexmark 一大特點(diǎn)是方便易用,沒有外部系統(tǒng)依賴, 同時(shí)支持標(biāo)準(zhǔn)的 ANSI SQL。Nexmark 目前業(yè)已開源:https://github.com/nexmark/nexmark,可以用來比對(duì)不同流計(jì)算引擎之間的差異。

第二個(gè)重要的部分是流批一體,開頭提到 2020 年是流批一體的新紀(jì)元,為什么這么說呢,莫問老師從流批一體架構(gòu)演進(jìn),F(xiàn)link 批處理性能,以及業(yè)界流批一體數(shù)據(jù)生態(tài)這三個(gè)方面給出了答案。

1)流批一體架構(gòu)演進(jìn) Flink-1.10 & 1.11 兩個(gè)大版本實(shí)現(xiàn)了 SQL & Table 層的流批一體化和解決生產(chǎn)可用性問題;剛剛發(fā)版的 Flink-1.12 解決了 DataStream 層的流批一體化;從 1.13 版本開始,F(xiàn)link 將逐步淘汰 DataSet 這套 API。在全新的流批一體架構(gòu)中,F(xiàn)link 完成了統(tǒng)一的流批表達(dá),統(tǒng)一的流批執(zhí)行,以及統(tǒng)一可插拔的 runtime 支持。分會(huì)場(chǎng)中的《基于 Flink DataStream API 的流批一體處理》有對(duì)這個(gè)部分更為詳細(xì)的介紹。

e319eccc-48d2-11eb-8b86-12bb97331649.png

2)Batch 性能 大家比較關(guān)心的批的性能:經(jīng)過三個(gè)版本的迭代,以 TPC-DS 為基準(zhǔn),F(xiàn)link-1.12 比 Flink-1.9(去年的版本)提速 3 倍!數(shù)據(jù)量 10TB,20臺(tái) 64Core 機(jī)器的配置下,TPC-DS 運(yùn)行時(shí)間收斂到萬秒以內(nèi)。這意味著 Flink Batch 的性能已經(jīng)不亞于任何一個(gè)業(yè)界主流的 Batch 引擎了。

3)流批一體數(shù)據(jù)生態(tài) 莫問老師指出,流批一體不僅僅只是一個(gè)技術(shù)問題,它也對(duì)業(yè)界數(shù)據(jù)生態(tài)的演化也起到了深遠(yuǎn)的作用,比較典型的場(chǎng)景包括數(shù)據(jù)同步集成(數(shù)據(jù)庫里的數(shù)據(jù)同步到數(shù)倉中)和基于 Flink 流批一體的數(shù)倉架構(gòu)/數(shù)據(jù)湖架構(gòu)。傳統(tǒng)的數(shù)據(jù)同步集成采用全量增量定時(shí)合并的模式,而 Flink 流批一體混合 connector 可以實(shí)現(xiàn)全量增量一體化數(shù)據(jù)集成(讀取數(shù)據(jù)庫全量數(shù)據(jù)后,可以自動(dòng)切換到增量模式,通過 CDC 讀取 binlog 進(jìn)行增量同步),全量和增量之間無縫自動(dòng)切換,如下圖所示。

e3685d12-48d2-11eb-8b86-12bb97331649.png

傳統(tǒng)的數(shù)倉架構(gòu)分別維護(hù)一套實(shí)時(shí)數(shù)倉和離線數(shù)倉鏈路,這樣會(huì)造成開發(fā)流程冗余(實(shí)時(shí)離線兩套開發(fā)流程),數(shù)據(jù)鏈路冗余(兩遍對(duì)數(shù)據(jù)的清洗補(bǔ)齊過濾),數(shù)據(jù)口徑不一致(實(shí)時(shí)和離線計(jì)算結(jié)果不一致)等問題。而 Flink 的流批一體數(shù)倉架構(gòu)將實(shí)時(shí)離線鏈路合二為一,可以完全的解決上述這三個(gè)問題。不僅于此,F(xiàn)link 的流批一體架構(gòu)和數(shù)據(jù)湖所要解決的問題(流批一體存儲(chǔ)問題)也完美契合?,F(xiàn)在比較主流的數(shù)據(jù)湖解決方案 Iceberg,Hudi 和 Flink 都有集成。

其中,F(xiàn)link + Iceberg 已有完整的集成方案;而 Flink + Hudi 的整合也在積極對(duì)接中。 第三個(gè)大的方向是與 AI 的融合。莫問老師從語言層,算法層和大數(shù)據(jù)與 AI 一體化流程管理這三個(gè)方面總結(jié)了 2020 年 Flink 在 AI 融合方面的進(jìn)展。

從語言層來講,F(xiàn)link 對(duì) AI 的主流開發(fā)語言 Python 的支持 PyFlink 逐步走向成熟:Flink 的 DataStream API 和 Table API 都已 Python 化,用戶可以用純 Python 語言開發(fā) Flink 程序;Flink SQL 中支持 Python UDF/UDTF;PyFlink 集成了常用的 Python 類庫如 Pandas,在 PyFlink 中可以直接調(diào)用 Pandas UDF/UDAF。

從算法層面來看,去年開源的:Alink https://github.com/alibaba/alink(基于 Flink 的流批一體的傳統(tǒng)機(jī)器學(xué)習(xí)算法庫)新增了數(shù)十個(gè)開源算法,提供基于參數(shù)服務(wù)器的大規(guī)模分布式訓(xùn)練,訓(xùn)練過程與預(yù)測(cè)服務(wù)的銜接更加順暢。

e398cc68-48d2-11eb-8b86-12bb97331649.png

大數(shù)據(jù)與 AI 一體化流程管理也是一個(gè)很值得深入探討的問題,其背后的本質(zhì)問題是在離線學(xué)習(xí)實(shí)時(shí)化的大背景下,如何設(shè)計(jì)離線在線機(jī)器學(xué)習(xí)一體化的流程管理架構(gòu),以及該架構(gòu)如何與大數(shù)據(jù)工作流程相結(jié)合,實(shí)現(xiàn)大數(shù)據(jù)與機(jī)器學(xué)習(xí)全鏈路一體化的問題。這套完整的解決方案 Flink AI Extended 不僅支持深度學(xué)習(xí)引擎和 Flink 計(jì)算引擎的集成(TensorFlow / PyTorch on Flink),它的工作流(Flink AI Flow)也應(yīng)用了上述的一體化設(shè)計(jì)思想。

目前 Flink AI Extended 也已經(jīng)開源:https://github.com/alibaba/flink-ai-extended。此外,在分會(huì)場(chǎng)議題中有對(duì) Flink AI Extended 更詳細(xì)的討論和全流程 demo《基于 Flink 的在線機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)探討》,感興趣的同學(xué)可以找來看看并試用一下。 此外還有一個(gè)重要的方向是Flink 與云原生生態(tài) Kubernetes 的深度融合。Kubernetes 目前廣泛應(yīng)用在各種在線業(yè)務(wù)上,其生態(tài)本身發(fā)展也很快,可以給 Flink 在生產(chǎn)中提供更好的運(yùn)維能力。

從 Flink-1.10 版本開始,F(xiàn)link 經(jīng)過三個(gè)版本的迭代,到 Flink-1.12,F(xiàn)link 已經(jīng)可以原生地運(yùn)行在 Kubernetes 之上,對(duì)接 K8S 的 HA 方案,并不再依賴 ZooKeeper,達(dá)到生產(chǎn)可用級(jí)別。同時(shí),F(xiàn)link 的 JobManager 可以和 K8S Master 直接通信,實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)縮容,并支持對(duì) GPU 的資源調(diào)度。

e4032bbc-48d2-11eb-8b86-12bb97331649.png

接下來,莫問老師分享了 Flink 在阿里巴巴(Flink 最大的使用者和推動(dòng)者)的前世,今生和未來。2016 年,F(xiàn)link 在雙十一搜索推薦場(chǎng)景中首次亮相,并用 Flink 實(shí)現(xiàn)搜索推薦和在線學(xué)習(xí)全鏈路實(shí)時(shí)化。2017 年,F(xiàn)link 成為阿里巴巴集團(tuán)內(nèi)實(shí)時(shí)計(jì)算的標(biāo)準(zhǔn)解決方案。2018 年,F(xiàn)link 正式上云,使用 Flink 的實(shí)時(shí)數(shù)據(jù)解決方案更好的為中小企業(yè)服務(wù)。2019 年,阿里巴巴收購了 Flink 的初創(chuàng)公司 Ververica,并將 Blink 回饋給社區(qū),向國際化邁進(jìn)一步。

到 2020 年,F(xiàn)link 已經(jīng)成為事實(shí)上的全球?qū)崟r(shí)計(jì)算標(biāo)準(zhǔn)。目前各大云廠商(阿里云,AWS)和大數(shù)據(jù)廠商(Cloudera)等均已將 Flink 內(nèi)置作為標(biāo)準(zhǔn)的云產(chǎn)品。到今年雙十一,F(xiàn)link 已包攬阿里內(nèi)部所有集團(tuán)(包括螞蟻,釘釘,菜鳥等)的全鏈路實(shí)時(shí)化解決方案,規(guī)模達(dá)到百萬級(jí) CPU Core。并且在資源沒有增長的情況下,提高了一倍業(yè)務(wù)能力。今年雙十一的實(shí)時(shí)數(shù)據(jù)處理峰值更是達(dá)到40 億條記錄/秒的新高。

e45193ce-48d2-11eb-8b86-12bb97331649.png

莫問老師強(qiáng)調(diào),“全數(shù)據(jù)鏈路實(shí)時(shí)化”并不是終點(diǎn),阿里巴巴的目標(biāo)是“實(shí)時(shí)離線一體化”。2020 年,F(xiàn)link 迎來了實(shí)時(shí)離線流批一體的新紀(jì)元 –– 首次在雙十一最核心場(chǎng)景天貓營銷活動(dòng)分析大屏場(chǎng)景中落地,并帶來了巨大的收益:實(shí)時(shí)和離線邏輯業(yè)務(wù)的一體化使得數(shù)據(jù)結(jié)果天然保持一致;同時(shí)使得業(yè)務(wù)開發(fā)效率提升了 4-10 倍;流批任務(wù)的錯(cuò)峰調(diào)度使得資源成本節(jié)省了 1 倍,如上圖所示。在行業(yè)實(shí)踐分會(huì)場(chǎng)中的《流批一體技術(shù)在天貓雙 11 的應(yīng)用》對(duì)此有更詳盡的介紹,感興趣的同學(xué)可以參考一下。在行業(yè)內(nèi),字節(jié)跳動(dòng),美團(tuán),快手,知乎,小米,網(wǎng)易等都在探索 Flink 流批一體的落地。

Flink 助力美團(tuán)數(shù)倉增量生產(chǎn)

第二場(chǎng)議題由美團(tuán)實(shí)時(shí)計(jì)算負(fù)責(zé)人鞠大升老師帶來,主要分享了 Flink 在美團(tuán)內(nèi)部的應(yīng)用。鞠大升老師首先分享了美團(tuán)數(shù)倉的整體架構(gòu)。如下圖所示。美團(tuán)數(shù)據(jù)架構(gòu)包括數(shù)據(jù)集成系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)消費(fèi)和數(shù)據(jù)應(yīng)用四部分。Flink 主要應(yīng)用在 Kafka2Hive、實(shí)時(shí)數(shù)據(jù)處理、Datalink 等(圖中紅圈的部分),而他本次分享也主要集中在這幾個(gè)部分。Flink 在美團(tuán)的主要應(yīng)用場(chǎng)景包括實(shí)時(shí)數(shù)倉,實(shí)時(shí)分析;推薦搜索;風(fēng)控監(jiān)控;安全審計(jì)。這幾個(gè)應(yīng)用場(chǎng)景其實(shí)也是 Flink 現(xiàn)在的幾個(gè)最主流的應(yīng)用場(chǎng)景。在美團(tuán)的應(yīng)用場(chǎng)景中,F(xiàn)link 每天的峰值數(shù)據(jù)達(dá)到 1.8 億條記錄/s。

e496f662-48d2-11eb-8b86-12bb97331649.png

美團(tuán)的分享有兩個(gè)比較有趣的部分,一是提出了“增量生產(chǎn)”這個(gè)概念。這其實(shí)和莫問老師提到的全量增量一體化數(shù)據(jù)集成異曲同工。但在這個(gè)概念里,增加了數(shù)據(jù)時(shí)效性,數(shù)據(jù)質(zhì)量和生產(chǎn)成本之間的權(quán)衡考量,也即如何在一個(gè)數(shù)倉業(yè)務(wù)中在滿足時(shí)效性的情況下能更有效的控制成本和提升數(shù)據(jù)質(zhì)量。

二是美團(tuán)基于 Flink 架構(gòu)解決了分布式異構(gòu)數(shù)據(jù)源同步(Datalink)的問題。他們基于 Flink 的同步系統(tǒng)可以將同步任務(wù)通過 Task Manager 分散到集群中,使得整體架構(gòu)有很好的擴(kuò)展性;另一方面,離線和實(shí)時(shí)的同步任務(wù)可以都統(tǒng)一到 Flink 框架中,所以離線和實(shí)時(shí)所有同步的組件都可以共用。 目前,美團(tuán)在數(shù)據(jù)處理這一層還沒有實(shí)現(xiàn)完全的流批統(tǒng)一,所以鞠大升老師表示,未來的目標(biāo)希望在數(shù)據(jù)處理以及數(shù)據(jù)存儲(chǔ)本身都能達(dá)到流批統(tǒng)一。

Apache Flink在快手的過去、現(xiàn)在和未來

第三場(chǎng)議題由快手大數(shù)據(jù)架構(gòu)團(tuán)隊(duì)負(fù)責(zé)人趙健博老師帶來,主要分享了快手實(shí)時(shí)計(jì)算選型 Flink 的原因和 Flink 在快手內(nèi)部應(yīng)用的場(chǎng)景,以及快手在這些應(yīng)用場(chǎng)景內(nèi)的相關(guān)技術(shù)改進(jìn)??焓诌x型 Flink 的原因其實(shí)回答了為什么 Flink 能成為業(yè)界實(shí)時(shí)計(jì)算的標(biāo)準(zhǔn):1)亞秒級(jí)的處理延遲,這對(duì)快手內(nèi)部的實(shí)時(shí)應(yīng)用是個(gè)硬性強(qiáng)需求;2)豐富的窗口計(jì)算模式,自帶的標(biāo)準(zhǔn)化狀態(tài)存儲(chǔ)以及 Exactly Once 的強(qiáng)一致性保證能夠極大的簡化業(yè)務(wù)開發(fā)和調(diào)試的復(fù)雜度;3)流批一體架構(gòu)的演進(jìn)進(jìn)一步簡化數(shù)據(jù)和業(yè)務(wù)架構(gòu)的復(fù)雜性??焓直硎痉浅?春?Flink 流批一體在數(shù)據(jù)全場(chǎng)景落地。

e4c6f254-48d2-11eb-8b86-12bb97331649.png

快手使用 Flink 從 2017 年開始,從 0 到 1 今年已是第四個(gè)年頭,發(fā)展過程如上圖所示??焓质褂?Flink 主要場(chǎng)景包括實(shí)時(shí) ETL 數(shù)據(jù)集成,實(shí)時(shí)報(bào)表,實(shí)時(shí)監(jiān)控,實(shí)時(shí)特征處理(AI),目前每天的峰值可以達(dá)到 6 億條記錄 /s。針對(duì)上述每一個(gè)場(chǎng)景快手都分享了很詳細(xì)的實(shí)例,特別是特征處理(Feature Processing/Engineering),在很多 AI 場(chǎng)景中還是很有代表性的。 快手還分享了自研的狀態(tài)存儲(chǔ)(SlimBase)在其內(nèi)部的應(yīng)用。

SlimBase 主要分為三層,State Interface 層,KV Cache 層和 File System(Distributed)層;其中 KV Cache 是讀操作能加速的關(guān)鍵。當(dāng) SlimBase KV Cache 層都被命中時(shí),SlimBase 相對(duì)于 RocksDB 有 3-9 倍的讀寫效率提升;而 Cache 層不能都被命中的情況下(需要訪問文件系統(tǒng)),讀性能有一些下降。除了 SlimBase,快手對(duì) Flink 的穩(wěn)定性(包括硬件故障,依賴服務(wù)異常,任務(wù)過載)和負(fù)載均衡方面都提出一些改進(jìn)的解決方案。

分會(huì)場(chǎng)議題《快手基于 Apache Flink 的持續(xù)優(yōu)化實(shí)踐》對(duì)此有更詳細(xì)的介紹。 對(duì)于未來的規(guī)劃,趙健博老師老師表示會(huì)推動(dòng) Flink 的流批一體在快手內(nèi)部落地,并結(jié)合 Flink 的流批一體推動(dòng) AI 數(shù)據(jù)流實(shí)時(shí)化以提升訓(xùn)練模型的迭代速度。隨著越來越多業(yè)務(wù)使用 Flink,快手對(duì) Flink 的穩(wěn)定性也提出更多的要求(比如快速 Failover 的能力),所以快手在這方面也會(huì)有更多的投入。

Stream is the New File

主議題的最后一場(chǎng)是由戴爾科技集團(tuán)軟件開發(fā)總監(jiān)滕昱老師帶來的流式存儲(chǔ)議題:Pravega。這個(gè)議題比較有趣的是討論了流式存儲(chǔ)的抽象 Stream Abstraction。傳統(tǒng)的文件系統(tǒng)對(duì)于流式存儲(chǔ)來說并不是一個(gè)好的抽象,原因 1)文件的大小有限制,但是流式數(shù)據(jù)是持續(xù)注入的;

2)在持續(xù)的數(shù)據(jù)注入中對(duì)存儲(chǔ)的并發(fā)度也需要?jiǎng)討B(tài)調(diào)整,這就涉及到多個(gè)文件的維護(hù)和操作;3)有序的流式數(shù)據(jù)的定位尋址問題在文件系統(tǒng)接口中也無法很好的被支持;4)現(xiàn)在業(yè)界慣用的聯(lián)合使用消息隊(duì)列(Kafka)+ 文件系統(tǒng)的混合抽象也仍然沒有減輕應(yīng)用程序開發(fā)和維護(hù)的難度。

e51a2adc-48d2-11eb-8b86-12bb97331649.png

根據(jù)上述需求,Dell 科技集團(tuán)設(shè)計(jì)了基于 Stream Abstraction 的流式存儲(chǔ)系統(tǒng) Pravega。Pravega 將流存儲(chǔ)動(dòng)態(tài) scaling,動(dòng)態(tài) scaling 以后如何保證流數(shù)據(jù)邏輯上有序,流數(shù)據(jù)定位和尋址以及 checkpointing 等等一系列問題都封裝在 Stream abstraction 之下。在這種抽象之下,流式存儲(chǔ)可以和流式計(jì)算引擎無縫銜接,也給流式計(jì)算屏蔽了很多流存儲(chǔ)端的復(fù)雜性,從而使整個(gè)端到端僅一次性處理(exactly once)的 pipeline 被極大的簡化(如上圖所示)。

目前 Pravega 已經(jīng)是一個(gè) CNCF 開源項(xiàng)目,在 Pravega 最新一期官方 blog(https://blog.pravega.io/)中,Pravega 發(fā)布了基于 OpenMessaging Benchmark 對(duì)比 Kafka 和 Pulsar 的各項(xiàng)性能指標(biāo)。此外,Pravega 在分會(huì)場(chǎng)中有一場(chǎng)關(guān)于 Pravega Flink connector 的分享,《Pravega Flink connector 的過去,現(xiàn)在和未來》,感興趣的同學(xué)可以看一下。

除了主會(huì)場(chǎng)阿里巴巴,美團(tuán),快手,Dell 科技集團(tuán)的分享,分會(huì)場(chǎng)由行業(yè)實(shí)踐,核心技術(shù),開源生態(tài),金融行業(yè),機(jī)器學(xué)習(xí)和實(shí)時(shí)數(shù)倉六個(gè)子議題超過 40 家企業(yè)機(jī)構(gòu)參與分享,包括天貓,字節(jié)跳動(dòng),亞馬遜,LinkedIn,愛奇藝,螞蟻,好未來,小米,微博,騰訊,知乎,京東,PingCAP,網(wǎng)易,360 等,后續(xù)會(huì)有更多的對(duì)分會(huì)場(chǎng)議題的專場(chǎng)分享文章,敬請(qǐng)期待!

總結(jié)和感想

沒有一個(gè)冬天不能逾越,沒有一個(gè)春天不會(huì)來臨。2020 年是不尋常的一年,雖然疫情肆虐,但是 Flink 社區(qū)在 2020 年持續(xù)繁榮,蟬聯(lián)最活躍的 Apache 項(xiàng)目;Flink 也成為了事實(shí)上的國內(nèi)外實(shí)時(shí)計(jì)算標(biāo)準(zhǔn)。過去一年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,AI融合,云原生這四個(gè)方向上都取得了不錯(cuò)的成績,未來也會(huì)在這四個(gè)方向上繼續(xù)耕進(jìn)。

2020 年是 Flink 的新紀(jì)元,流批一體首次在阿里巴巴雙十一最核心的業(yè)務(wù)場(chǎng)景中落地,這將是流批一體在業(yè)界大規(guī)模推廣的起點(diǎn)。未來可期,讓我們攜手共進(jìn),一起努力,把握好機(jī)遇共同迎接挑戰(zhàn),共創(chuàng)美好的 Flink 2021!

[1] 40億條/秒!Flink流批一體在阿里雙11首次落地的背后

[2, vldb17] [State Management in Apache Flink] {https://pdfs.semanticscholar.org/6fa0/917417d3c213b0e130ae01b7b440b1868dde.pdf}

[3] [NEXMark – A Benchmark for Queries over Data] {http://datalab.cs.pdx.edu/niagara/pstream/nexmark.pdf}

責(zé)任編輯:xj

原文標(biāo)題:Flink 火了,網(wǎng)友炸了。。

文章出處:【微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算
    +關(guān)注

    關(guān)注

    2

    文章

    451

    瀏覽量

    38878
  • 實(shí)時(shí)
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    15106
  • Apache
    +關(guān)注

    關(guān)注

    0

    文章

    64

    瀏覽量

    12502

原文標(biāo)題:Flink 火了,網(wǎng)友炸了。。

文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如意玲瓏社區(qū)2024度工作總結(jié)

    2024,如意玲瓏社區(qū)社區(qū)發(fā)展及軟件生態(tài)建設(shè)領(lǐng)域邁出了堅(jiān)實(shí)的步伐。作為開放原子開源基金會(huì)的孵化項(xiàng)目,在這一
    的頭像 發(fā)表于 02-05 11:45 ?256次閱讀
    如意玲瓏<b class='flag-5'>社區(qū)</b>2024<b class='flag-5'>年</b>度工作總結(jié)

    電子發(fā)燒友榮獲人民郵電出版社-異步社區(qū)“2024度最佳合作伙伴獎(jiǎng)”

    近日,電子發(fā)燒友平臺(tái)憑借其卓越的貢獻(xiàn)和深度的合作,榮獲人民郵電出版社-異步社區(qū)頒發(fā)的“2024度最佳合作伙伴獎(jiǎng)”。以表彰電子發(fā)燒友在過去一中為人民郵電出版社提供的優(yōu)質(zhì)書籍推廣服務(wù),以及對(duì)推動(dòng)
    發(fā)表于 01-20 15:16

    回顧OpenHarmony社區(qū)2024度精彩瞬間

    ”或“開源鴻蒙”)社區(qū)2024度工作會(huì)議于深圳盛大啟幕,這場(chǎng)備受矚目的盛會(huì)匯聚了開源鴻蒙社區(qū)眾多成員單位,共同回顧過去一OpenHarmony
    的頭像 發(fā)表于 01-17 12:34 ?344次閱讀

    榜樣力量,智領(lǐng)未來——2024度電子發(fā)燒友社區(qū)表彰

    2024,電子發(fā)燒友社區(qū)的發(fā)展離不開眾多生態(tài)企業(yè)及活躍工程師的鼎力支持,我們精選了一批專家、講師、優(yōu)秀版主、社區(qū)之星、評(píng)測(cè)達(dá)人、優(yōu)秀創(chuàng)作者及企業(yè)進(jìn)行表彰,感謝他們
    的頭像 發(fā)表于 01-16 14:03 ?272次閱讀
    榜樣力量,智領(lǐng)未來——2024<b class='flag-5'>年</b>度電子發(fā)燒友<b class='flag-5'>社區(qū)</b>表彰

    榜樣力量,智領(lǐng)未來——2024度電子發(fā)燒友社區(qū)表彰

    、開源硬件系列直播等,還有 36場(chǎng)開發(fā)板測(cè)評(píng)活動(dòng),累計(jì)31061人參與申請(qǐng),9011篇試用報(bào)告、5009個(gè)開發(fā)板試用作品; 2024,電子發(fā)燒友社區(qū)的發(fā)展離不開眾多生態(tài)企業(yè)及活躍工程師的鼎力支持
    發(fā)表于 01-16 13:36

    共建繁榮生態(tài)|開鴻智谷榮獲“2024度開源鴻蒙社區(qū)卓越單位”

    近日,開放原子開源基金會(huì)OpenHarmony社區(qū)2024度工作會(huì)議深圳隆重召開,作為開放原子開源基金會(huì)黃金捐贈(zèng)人、OpenHarmony項(xiàng)目群A類捐贈(zèng)人,同時(shí)也是開源鴻蒙生態(tài)共建
    的頭像 發(fā)表于 01-14 21:18 ?155次閱讀
    共建繁榮生態(tài)|開鴻智谷榮獲“2024<b class='flag-5'>年</b>度開源鴻蒙<b class='flag-5'>社區(qū)</b>卓越單位”

    云服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 Flink

    Apache Flink 是一個(gè)分布式大數(shù)據(jù)計(jì)算引擎,專為處理無界和有界數(shù)據(jù)流上的有狀態(tài)計(jì)算而設(shè)計(jì),以其高吞吐量、低延遲和高性能在實(shí)時(shí)流處理和批量計(jì)算領(lǐng)域脫穎而出,Flink 支持批流一體化,即能
    的頭像 發(fā)表于 01-13 18:17 ?173次閱讀
    云服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 <b class='flag-5'>Flink</b>

    開源鴻蒙榮獲開放原子“2024度操作系統(tǒng)領(lǐng)域國內(nèi)活躍開源項(xiàng)目

    近日,2024開放原子開發(fā)者大會(huì)暨首屆開源技術(shù)學(xué)術(shù)大會(huì)在武漢圓滿召開。大會(huì)開幕式“2024度國內(nèi)活躍開源項(xiàng)目&開發(fā)者致謝儀式”上,開放原子開源鴻蒙(OpenAtom OpenHar
    的頭像 發(fā)表于 12-28 15:39 ?490次閱讀

    2024度國內(nèi)活躍開源項(xiàng)目和開發(fā)者武漢揭曉

    近日,2024度國內(nèi)活躍開源項(xiàng)目&開發(fā)者致謝儀式,亮相2024開放原子開發(fā)者大會(huì)暨首屆開源技術(shù)學(xué)術(shù)大會(huì)開幕式。
    的頭像 發(fā)表于 12-23 11:25 ?290次閱讀

    OpenHarmony人才生態(tài)大會(huì)南向生態(tài)社區(qū)發(fā)展論壇武漢圓滿舉辦

    專家介紹OpenHarmony社區(qū)開發(fā)者手機(jī)、Watch和大屏生態(tài)共建進(jìn)展。Laval社區(qū)開發(fā)者手機(jī)共建項(xiàng)目自2023啟動(dòng),隨OpenH
    發(fā)表于 11-29 09:54

    基于圖遍歷的Flink任務(wù)畫布模式下零代碼開發(fā)實(shí)現(xiàn)方案

    的過程。以下是利用Flink的 StreamGraph 通過低代碼的方式,來實(shí)現(xiàn)StreamGraph的生成,并最終實(shí)現(xiàn) Flink 程序零代碼開發(fā)的解決方案。 一、Flink 相關(guān)概念
    的頭像 發(fā)表于 11-05 10:35 ?783次閱讀
    基于圖遍歷的<b class='flag-5'>Flink</b>任務(wù)畫布模式下零代碼開發(fā)實(shí)現(xiàn)方案

    傅煒先生獲RISC-V國際基金會(huì)頒發(fā)2024社區(qū)領(lǐng)導(dǎo)力獎(jiǎng)

    剛剛結(jié)束的2024RISC-V北美峰會(huì)上,RISC-V大使傅煒先生獲得了由RISC-V國際基金會(huì)頒發(fā)的2024度RISC-V社區(qū)影響力獎(jiǎng)(每年僅1名)。今年的獎(jiǎng)項(xiàng)由RISC-V國際基金會(huì)的數(shù)千名
    的頭像 發(fā)表于 10-26 08:05 ?333次閱讀
    傅煒先生獲RISC-V國際基金會(huì)頒發(fā)2024<b class='flag-5'>年</b>度<b class='flag-5'>社區(qū)</b>領(lǐng)導(dǎo)力獎(jiǎng)

    什么是 Flink SQL 解決不了的問題?

    簡介 實(shí)時(shí)數(shù)據(jù)開發(fā)過程中,大家經(jīng)常會(huì)用 Flink SQL 或者 Flink DataStream API 來做數(shù)據(jù)加工。通常情況下選用2者都能加工出想要的數(shù)據(jù),但是總會(huì)有 Flink
    的頭像 發(fā)表于 07-09 20:50 ?389次閱讀

    云服務(wù)器apache如何配置解析php文件?

    云服務(wù)器上配置Apache以解析PHP文件通常需要以下步驟: 1、安裝PHP:首先確保服務(wù)器上安裝了PHP。你可以使用包管理工具(如apt、yum等)來安裝PHP。例如,Ubun
    的頭像 發(fā)表于 04-22 17:27 ?1073次閱讀

    RDMA技術(shù)Apache Spark中的應(yīng)用

    背景介紹 在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個(gè)開源的分布式計(jì)算系統(tǒng),Spark因其高效的大數(shù)據(jù)處理能力而在各行各業(yè)中廣受歡迎。無論是金融服務(wù)
    的頭像 發(fā)表于 03-25 18:13 ?1612次閱讀
    RDMA技術(shù)<b class='flag-5'>在</b><b class='flag-5'>Apache</b> Spark中的應(yīng)用
    主站蜘蛛池模板: 中文字幕二区 | 看日本黄大片在线观看 | 久久sp| 国产小视频免费看 | 欧美一级视频免费 | 欧美精品影院 | 四虎中文 | 久久久噜噜噜久久网 | 午夜三级国产精品理论三级 | 亚洲一区二区三区中文字幕 | 日韩一级欧美一级一级国产 | 久操福利视频 | 女人张腿让男桶免费视频观看 | 天天拍夜夜操 | 黄色福利站 | 色久优优| 午夜国产理论 | 农村三级毛片 | 免费特黄 | 亚洲第一视频在线 | 欧美性猛交aa一级 | 国产va免费精品高清在线 | 一级午夜免费视频 | 国产激情视频一区二区三区 | caopon在线| 手机在线精品视频 | 天天躁狠狠躁狠狠躁夜夜躁 | h网站亚洲 | 国产综合色在线视频区色吧图片 | 在线观看日本亚洲一区 | 天天干天天综合 | 亚洲免费在线看 | 国产好深好硬好爽我还要视频 | 日本高清免费一本视频在线观看 | 色噜噜亚洲男人的天堂 | 91免费网站在线看入口黄 | 干干干操操操 | 免费深夜视频 | 久久夜色精品国产亚洲噜噜 | 四虎国产精品永久免费网址 | 黄网站色视频 |