在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Lambda數據架構和Kappa數據架構——構建現代數據架構

虹科網絡可視化技術 ? 2023-11-26 08:04 ? 次閱讀

如何更好地構建我們的數據處理架構,如何對IT系統中的遺留問題進行現代化改造并將其轉變為現代數據架構?該怎么為你的需求匹配最適合的架構設計呢,本文將分析兩種最流行的基于速度的數據架構,為你提供一些思路。

文章速覽:

什么是數據架構?

基于速度的數據架構

Lambda數據架構

Kappa數據架構

探索數據流模型

結語

一、什么是數據架構?

數據架構是企業架構中的一個元素,繼承了企業架構的主要屬性:流程、策略、變更管理和評估權衡。根據Open Group架構框架,數據架構是對“企業主要數據類型、來源、邏輯數據資產、物理數據資產和數據管理資源的結構和交互” 的描述。

根據數據管理知識體系,數據架構是“識別企業的數據需求(無論結構如何)并設計和維護核心藍圖以滿足這些需求”的過程。它使用核心藍圖來指導數據集成、控制數據資產并使數據投資與業務戰略保持一致。

然而,糟糕的數據架構是僵化且過度集中的。它使用了錯誤的工具來完成工作,這阻礙了開發和變更管理。

二、基于速度的數據架構

數據速度是指數據生成的速度、數據移動的速度以及將其處理為可用指導的速度。

根據處理數據的速度,數據架構通常分為兩類:Lambda和Kappa。

Lambda數據架構?

1.什么是Lambda

Lambda數據架構由Apache Storm的創建者Nathan Marz于 2011 年開發,旨在解決大規模實時數據處理的挑戰。術語 Lambda 源自lambda演算 (λ),描述了在多個節點上并行運行分布式計算的函數。Lambda數據架構提供了一個可擴展、容錯且靈活的系統來處理大量數據。它允許以混合方式訪問批處理和流處理方法。

2.Lambda架構的使用場景

1)當您有各種工作負載和速度要求時,Lambda架構是理想的選擇。由于它可以處理大量數據并提供低延遲查詢結果,因此適合儀表板和報告等實時分析應用程序。Lambda架構對于批處理(清理、轉換、數據聚合)、流處理任務(事件處理、開發機器學習模型、異常檢測、欺詐預防)以及構建集中存儲庫(稱為“數據湖”)非常有用。

2)Lambda架構的關鍵區別在于,它使用兩個獨立的處理系統來處理不同類型的數據處理工作負載。第一個是批處理系統,它將結果存儲在集中式數據存儲(例如數據倉庫或數據湖)中。第二個系統是流處理系統,它在數據到達時實時處理數據并將結果存儲在分布式數據存儲中。

3.Lambda架構的組成

Lambda架構由攝取層、批處理層、速度層(或流層)和服務層組成。

·批處理層:批處理層處理大量歷史數據并將結果存儲在集中式數據存儲中,例如數據倉庫或分布式文件系統。該層使用Hadoop或Spark等框架進行高效的數據處理,使其能夠提供所有可用數據的總體視圖。

·速度層:速度層處理高速數據流,并使用Apache Flink或Apache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實時數據并將結果存儲在分布式數據存儲中,例如消息隊列或NoSQL數據庫。

·服務層:無論底層處理系統如何,Lambda架構服務層對于為用戶提供一致的數據訪問體驗至關重要。它在支持需要快速訪問當前信息(例如儀表板和分析)的實時應用程序方面發揮著重要作用。

4.Lambda架構的使用場景

Lambda架構解決了計算任意函數的問題,系統必須評估任何給定輸入的數據處理函數(無論是慢動作還是實時)。此外,它還提供容錯功能,確保在一個系統出現故障或不可用時,任一系統的結果都可以用作另一個系統的輸入。在高吞吐量、低延遲和近實時應用程序中,這種架構的效率是很明顯的。

69ded9a4-8bef-11ee-9788-92fbcf53809c.png

Lambda架構示意圖

5、Lambda架構的缺點

Lambda架構提供了許多優勢,例如可擴展性、容錯性以及處理各種數據處理工作負載(批處理和流)的靈活性。但它也有缺點:

·Lambda架構很復雜,它使用多種技術堆棧來處理和存儲數據。

·設置和維護可能具有挑戰性,尤其是在資源有限的組織中。

·每個階段的批處理和速度層中都會重復底層邏輯。這種重復有一個代價:數據差異。因為盡管具有相同的邏輯,但一層與另一層的實現不同。因此,錯誤/錯誤的概率較高,并且您可能會遇到批處理層和速度層的不同結果。

Kappa數據架構?

2014年,Jay Kreps指出了Lambda架構的一些缺點。這次討論使大數據社區找到了一種使用更少代碼資源的替代方案——Kappa數據架構。

1、什么是Kappa數據架構

Kappa(以希臘字母 ? 命名,在數學中用于表示循環)背后的主要思想是單個技術堆棧可用于實時和批量數據處理。該名稱反映了該體系結構對連續數據處理或再處理的重視,而不是基于批處理的方法。

Kappa 的核心依賴于流式架構。傳入數據首先存儲在事件流日志中。然后,它由流處理引擎(例如 Kafka)連續實時處理或攝取到另一個分析數據庫或業務應用程序中。這樣做需要使用各種通信范例,例如實時、近實時、批處理、微批處理和請求響應等。

2、Kappa數據架構的組成

數據重新處理是 Kappa的一項關鍵要求,使源端的任何更改對結果的影響可見。因此,Kappa 架構僅由兩層組成:流處理層和服務層。

在Kappa架構中,只有一層處理層:流處理層。該層負責采集、處理和存儲直播數據。這種方法消除了對批處理系統的需要。相反,它使用先進的流處理引擎(例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis)來處理大量數據流并提供對查詢結果的快速、可靠的訪問。

流處理層有兩個組件:

·攝取組件:該層從各種來源收集傳入數據,例如日志、數據庫事務、傳感器和 API。數據被實時攝取并存儲在分布式數據存儲中,例如消息隊列或NoSQL數據庫。

·處理組件:該組件處理大量數據流并提供對查詢結果的快速可靠的訪問。它使用事件處理引擎(例如 Apache Flink 或 Apache Storm)來實時處理傳入數據和歷史數據(來自存儲區域),然后將信息存儲到分布式數據存儲中。

對于幾乎所有用例,實時數據都勝過非實時數據。盡管如此,Kappa架構不應該被視為 Lambda 架構的替代品。反之,在不需要批處理層的高性能來滿足標準服務質量的情況下,您應該考慮 Kappa架構。

3、Kappa架構的優勢

Kappa架構旨在提供可擴展、容錯且靈活的系統,用于實時處理大量數據。它使用單一技術堆棧來處理實時和歷史工作負載,并將所有內容視為流。Kappa 架構的主要動機是避免為批處理層和速度層維護兩個獨立的代碼庫(管道)。這使得它能夠提供更加精簡的數據處理管道,同時仍然提供對查詢結果的快速可靠訪問。

69ff2240-8bef-11ee-9788-92fbcf53809c.png

Kappa架構示意圖

4、Kappa架構的缺點

Kappa架構承諾可擴展性、容錯性和簡化的管理。然而,它也有缺點。

· Kappa架構理論上比 Lambda更簡單,但對于不熟悉流處理框架的企業來說,技術上仍然可能很復雜。

· 擴展事件流平臺時的基礎設施成本。在事件流平臺中存儲大量數據可能成本高昂,并會引發其他可擴展性問題,尤其是當數據量達到TB或PB級時。

· 事件時間和處理時間之間的滯后不可避免地會產生數據延遲。因此,Kappa 架構需要一套機制來解決這個問題,例如水印、狀態管理、重新處理或回填。

探索數據流模型?

1、為什么會出現數據流模型

Lambda和Kappa試圖通過集成本質上不兼容的復雜工具來克服2010年代Hadoop生態系統的缺點。這兩種方法都難以解決協調批處理和流數據的根本挑戰。然而,Lambda和Kappa 為進一步的改進提供了靈感和基礎。

統一多個代碼路徑是管理批處理和流處理的一項重大挑戰。即使有了Kappa架構的統一隊列和存儲層,開發人員也需要使用不同的工具來收集實時統計數據并運行批量聚合作業。今天,他們正在努力應對這一挑戰。

2、什么是數據流模型

數據流模型的基本前提是將所有數據視為事件并在不同類型的窗口上執行聚合。實時事件流是無界數據,而批量數據是具有自然窗口的有界事件流。

6a148bf8-8bef-11ee-9788-92fbcf53809c.png

窗口模式示意圖

數據工程師可以選擇不同的窗口,例如滑動窗口或會話窗口,以進行實時聚合。數據流模型允許使用幾乎相同的代碼在同一系統內進行實時和批處理。

“批處理作為流處理的一個特例”的想法已經變得越來越普遍,Flink和Spark等框架也采用了類似的方法。

結語

當然,關于速度模型的數據架構討論還有另一個用處:適合物聯網 (IoT) 的設計選擇,在本篇文章中,我們就不再贅述。如何最好地構建我們處理數據的架構,如何對僵化且緩慢的IT遺留系統,進行現代化改造并將其轉變為現代數據架構,顯然,關于這個問題還尚未有定論。歡迎與我們共同探討。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7233

    瀏覽量

    90735
  • 架構
    +關注

    關注

    1

    文章

    525

    瀏覽量

    25802
  • 虹科電子
    +關注

    關注

    0

    文章

    645

    瀏覽量

    14663
收藏 人收藏

    評論

    相關推薦

    汽車電氣架構中的電源架構

    隨著汽車電子化、智能化的快速發展,汽車電氣架構(E/E架構)已成為現代汽車的核心技術之一。
    的頭像 發表于 03-29 11:25 ?228次閱讀

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell 架構技術解析
    的頭像 發表于 03-20 17:19 ?335次閱讀

    數據采集系統架構的發展演化-全套 DAQ?解決方案,盡在度緯科技

    采系統(數據采集系統)在現代測試與測量中扮演著非常重要的角色,承載著對高精度數據的采集、處理與分析的關鍵任務。隨著計算機技術、總線技術以及通信技術的飛速發展,數據采集系統的硬件
    的頭像 發表于 02-19 13:18 ?290次閱讀
    <b class='flag-5'>數據</b>采集系統<b class='flag-5'>架構</b>的發展演化-全套 DAQ?解決方案,盡在度緯科技

    構建數據庫解決方案,基于華為云 Flexus X 實例容器化 MySQL 主從同步架構

    前言**** 華為云 Flexus X 實例,融合柔性算力與智能調度,為數據庫解決方案帶來全新突破。采用容器化 MySQL 主從同步架構,實現數據高效備份與讀寫分離,保障業務連續性與數據
    的頭像 發表于 01-07 17:22 ?416次閱讀
    <b class='flag-5'>構建</b><b class='flag-5'>數據</b>庫解決方案,基于華為云 Flexus X 實例容器化 MySQL 主從同步<b class='flag-5'>架構</b>

    dotConnect:基于ADO.NET架構的增強型數據連接解決方案

    dotConnect是一個基于ADO.NET架構的增強型數據連接解決方案,是一個采用了大量創新技術的開發框架。dotConnect是一款適用于主要數據庫和流行云應用程序的高性能數據提供
    的頭像 發表于 01-07 11:07 ?300次閱讀
    dotConnect:基于ADO.NET<b class='flag-5'>架構</b>的增強型<b class='flag-5'>數據</b>連接解決方案

    寶藏級微服務架構工具合集

    大量數據流。這些工具各有特色,可根據具體需求和場景選擇合適的來構建和管理微服務架構。以下是UU云小編整理的幾個熱門的微服務架構工具及其概括性介紹:
    的頭像 發表于 12-21 16:33 ?488次閱讀

    NVIDIA推出企業參考架構,助力打造AI工廠

    全球各地的企業現在可以利用這一全新參考架構構建高性能、可擴展、安全的數據中心。
    的頭像 發表于 11-01 15:35 ?528次閱讀

    簡述數據中心網絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數據中心作為AI計算的重要基礎設施,其網絡架構與連接技術的發展變得尤為關鍵。
    的頭像 發表于 10-22 16:23 ?606次閱讀

    架構與設計 常見微服務分層架構的區別和落地實踐

    前言 從強調內外隔離的六邊形架構,逐漸發展衍生出的層層遞進、注重領域模型的洋蔥架構,再到和DDD完美契合的整潔架構架構風格的不斷演進,其實就是為了適應軟件需求越來越復雜的特點。 可以
    的頭像 發表于 10-22 15:34 ?514次閱讀
    <b class='flag-5'>架構</b>與設計 常見微服務分層<b class='flag-5'>架構</b>的區別和落地實踐

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    再到大模型云平臺的構建,此書都有提及和講解,循序漸進,讓讀者可以由點及面,由面到體的來認識大數據模型的體系架構。 前言中,作者通過提出幾個問題來引導讀者閱讀思考——分布式AI計算依賴哪些硬件特性
    發表于 10-08 10:40

    就服務器而言,ARM架構與X86架構有什么區別?各自的優勢在哪里?

    一、服務器架構概述 在數字化時代,服務器架構至關重要。服務器是網絡核心節點,存儲、處理和提供數據與服務,是企業和組織信息化、數字化的關鍵基礎設施。ARM 和 x86 架構為服務器領域兩
    的頭像 發表于 09-09 14:05 ?2563次閱讀

    RISC--V架構的目標和特點

    RISC--V架構的目標 RISC--V架構的目標如下 成為一種完全開放的指令集,可以被任何學術機構或商業組織所自由使用 成為一種真正適合硬件實現且穩定的標準指令集 RISC--V架構的特點 特 性
    發表于 08-23 00:42

    SDN全景:架構創新與網絡功能的未來

    軟件定義網絡(SDN)代表了一種前沿的網絡體系架構,其核心在于實現數據平面與控制平面的分離,并確保網絡的軟件可編程性。SDN的設計理念著重于技術架構的革新,推動網絡硬件與軟件的解耦,分離控制功能
    的頭像 發表于 07-26 14:26 ?612次閱讀

    RISC--V架構的特點

    RISC--V架構的特點 RISC-V架構RISC-V 架構是基于 精簡指令集計算(RISC)原理建立的開放 指令集架構(ISA),RISC-V是在指令集不斷發展和成熟的基礎上建立的全
    發表于 05-24 08:01

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    模型的無縫高速通信設定新標準。 英偉達BlueField 實現數據中心轉型 NVIDIA BlueField 網絡平臺為現代數據中心和超級計算集群帶來了前所未有的創新。憑借強大的計算能力以及用于網絡
    發表于 05-13 17:16
    主站蜘蛛池模板: 在线人成精品免费视频 | 在线激情网 | 日本wwwwww| 人人艹在线视频 | 欧美在线视频播放 | 免费四虎永久在线精品 | 511韩国理论片在线观看 | 视频福利网 | 午夜老湿影院 | 天天躁日日2018躁狠狠躁 | 综合aⅴ| 成人伊人青草久久综合网 | 亚洲啪啪网站 | 日本大黄在线观看 | 欧美久操 | 午夜剧j| 91视频污污版 | 69自拍视频 | 天天操天天弄 | 亚洲激情 | free性日韩| 三级毛片免费观看 | 5252色欧美在线激情 | 黄蓉吕文德欲乱系列小说 | 美女扒开腿让男生桶爽网站 | 狼人综合色 | 国产逼逼视频 | 四虎永久免费在线 | 欧洲性开放大片免费观看视频 | a级黄色毛片三个搞一 | 色精品一区二区三区 | 国产小视频你懂的 | 欧美精品一级 | 天天爽夜夜爽天天做夜夜做 | 奇米精品 | 午夜影皖普通区 | 看黄免费在线 | 在线h网站 | 天天摸天天舔天天操 | 一级毛片在线播放 | 国产裸露片段精华合集链接 |