在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對于大數據的處理,主要有幾個工具引擎

姚小熊27 ? 來源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀

提到大數據,我們就離不開數據的收集整理,其中ETL是我們經常使用的用于構建數據倉庫, 構建大數據的方法。

大數據處理階段

此階段的目標是使用單個模式來清理,規范化,處理和保存數據。最終結果是具有定義良好的架構的可信數據集。例如Spark之類的處理框架用于在機器集群中并行處理數據。在這里我們需要進行數據的驗證,隔離掉不合法的數據,我們需要對不良數據進行篩選過濾。對于不規范的數據,我們需要有整理和清潔功能,我們要能夠將一些低效的格式入json進行轉換。同時我們可能還需要一些標準化的操作,比如對一些數值進行小數點位的精度轉化。

大數據處理的最終目的就是創建一個可信數據集,然后下游系統可以依賴此數據源進行業務分析和數據計算。

對于大數據的處理,主要有下面的幾個工具引擎。

Apache Hive

它是將SQL請求轉換為MapReduce任務鏈的引擎。它主要實現的功能是對傳入的SQL進行排序然后優化排序結果,最終得到高效率的請求結果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機器學習功能,并且在和其他流行的大數據框架進行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態系統的一部分,是一個托管集群,可提供強大的并性,有著精準的監控和出色的UI。它還支持流處理(結構化流)?;旧希琒park在內存中運行MapReduce作業,其性能是常規MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創建Hive表,視圖或查詢數據。它具有很多集成,支持多種格式,并且擁有龐大的社區。所有云提供商都支持它。它可以在YARN上運行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺中使用。它具有許多的第三方庫可以使用。

Apache Flink

第一個統一批處理和流傳輸的引擎,它可以用作像Kafka這樣的微服務的主干。它可以作為Hadoop集群的一部分在YARN上運行,它還針對其他平臺(如Kubernetes或Mesos)進行了優化。它非???,并且提供實時流傳輸,使其成為針對低延遲流處理(尤其是有狀態流)的一個比Spark更好的選擇。它還具有用于SQL,機器學習等的庫。它比Spark更快,是數據流的更好選擇。

Apache Storm

是一個免費和開源的分布式實時計算系統,它專注于流傳輸,是Hadoop生態系統的托管解決方案部分。它具有可擴展性,容錯性,可確保您的數據將得到處理,并且易于設置和操作。

Apache Samza

一個出色的有狀態流處理引擎。Samza允許您構建有狀態的應用程序,它可以從多個來源實時處理數據。它不僅可以在YARN集群上運行,也可以作為獨立庫單獨運行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結合在一起的統一編程模型的規范。它提供了可以與不同語言一起使用的編程模型,因此開發人員在處理大數據管道時不必學習新的語言。然后,它為可以在云或本地運行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺上運行它們:云,YARN,Mesos,Kubernetes。如果您要開始一個新項目,那么建議您從Beam開始,因為Beam是面向未來的。

Presto

Presto是一個開放源代碼的分布式SQL查詢引擎,適合于對各種大小,各種數據源進行交互式分析查詢。

Presto是專為交互式分析而設計和編寫的,當它的規模擴展到一定的規模的時候,它也可以實現商業數據倉庫的處理速度。

Presto允許查詢數據存在多個地方,包括Hive,Cassandra,關系數據庫甚至專有數據存儲。一個Presto查詢可以合并來自多個來源的數據,從而可以在整個組織中進行分析。

Presto適用于期望響應時間從亞秒到數分鐘不等的分析師。Presto打破了使用昂貴的商業解決方案進行快速分析或使用需要大量硬件的慢速“免費”解決方案之間的錯誤選擇。

總結

處理引擎是當前在大數據詞中使用的很著名的工具。作為大數據工程師,您將經常使用這些引擎。了解這些引擎的分布式特性并知道如何優化它們,保護它們并監視它們至關重要。

請記住,還有一些OLAP引擎提供了一種查詢大量數據的單一解決方案,而無需編寫復雜的轉換,而是通過以一種特定的格式加載數據來提高查詢的性能。

對于一個新項目,建議您研究Apache Beam,因為它在所有其他引擎的基礎上提供了一個抽象,使您無需更改代碼即可更改處理引擎。

對于流處理,特別是有狀態流處理,請考慮Flink或Samza。對于批處理,請使用Spark。
責任編輯:YYX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8910

    瀏覽量

    137844
收藏 人收藏

    評論

    相關推薦

    緩存對大數據處理的影響分析

    緩存對大數據處理的影響顯著且重要,主要體現在以下幾個方面: 一、提高數據訪問速度 在大數據環境中,數據
    的頭像 發表于 12-18 09:45 ?260次閱讀

    linux驅動程序主要有哪些功能

    Linux驅動程序是操作系統與硬件設備之間進行通信的橋梁,負責實現硬件設備與操作系統之間的數據交換和控制。Linux驅動程序的主要功能包括以下幾個方面: 設備識別與初始化 Linux驅動程序需要
    的頭像 發表于 08-30 14:47 ?477次閱讀

    SMT錫膏鋼網的清洗工藝主要有哪些?

    成本,就需要選擇合適的清洗工藝及清洗劑。下面佳金源錫膏廠家來講解一下SMT錫膏鋼網的清洗工藝主要有哪些?一、手工浸泡擦洗方式:手工浸泡擦洗就是把SMT鋼網浸泡入清
    的頭像 發表于 08-26 16:22 ?706次閱讀
    SMT錫膏鋼網的清洗工藝<b class='flag-5'>主要有</b>哪些?

    工業控制設備間主要有哪些有線通信技術?

    信技術的詳細介紹。 ? ? ??1.串行通信技術 ? ? ??串行通信技術是一種最基本的有線通信技術,廣泛應用于工業控制領域。它通過一條數據線(TX)和一條接收線(RX)實現數據的發送和接收。串行通信技術主要有以下幾種: ? ?
    的頭像 發表于 06-23 16:38 ?1002次閱讀

    NFC功能是什么?主要有哪些應用?

    NFC是一種新興的技術,即近距離無線通訊技術,使用了NFC技術的設備可以在彼此靠近的情況下進行數據交換,是由非接觸式射頻識別(RFID)及互連互通技術整合演變而來的。 NFC在單一芯片上結合感應式讀卡器、感應式卡片和點對點的功能,能在短距離內與兼容設備進行識別和數據
    的頭像 發表于 06-20 16:57 ?2233次閱讀
    NFC功能是什么?<b class='flag-5'>主要有</b>哪些應用?

    工業網關主要有哪些功能?

    和智能化水平。本文將詳細解析工業網關的主要功能,以便讀者更好地理解和應用。 一、數據采集與上傳 工業網關的首要功能之一是數據采集與上傳。它能夠連接工業現場的各種設備,如PLC、傳感器、儀表等,并通過串口/網口(如RS4
    的頭像 發表于 06-17 15:19 ?500次閱讀
    工業網關<b class='flag-5'>主要有</b>哪些功能?

    工業控制設備間主要有哪些有線通信技術

    介紹。 串行通信技術 串行通信技術是一種最基本的有線通信技術,廣泛應用于工業控制領域。它通過一條數據線(TX)和一條接收線(RX)實現數據的發送和接收。串行通信技術主要有以下幾種: 1.1 RS-232:RS-232是一種標準的
    的頭像 發表于 06-11 10:51 ?819次閱讀

    無損檢測的目的主要有哪些內容

    、電力、機械制造、建筑、醫療等。無損檢測的目的主要包括以下幾個方面: 保證產品質量 無損檢測技術可以有效地檢測出材料或產品中的缺陷,如裂紋、孔洞、夾雜、變形等,從而確保產品質量。通過對產品進行無損檢測,可以及時發現問題并采取相應的措施進行整改
    的頭像 發表于 05-24 15:12 ?940次閱讀

    雙絞線連接方式主要有哪幾種

    雙絞線的連接方式主要有以下幾種: 直插式連接(RJ45):這是最常見的連接方法,通過插入RJ45接頭(也叫網線頭)將雙絞線連接到設備端口,如計算機、交換機、路由器等。這種方式使兩端的線序相同,適用于
    的頭像 發表于 05-10 10:49 ?1996次閱讀

    邊緣計算網關主要有哪些功能?

    數據處理效率以及減輕云數據中心壓力等方面發揮了重要作用。接下來,我們將詳細探討邊緣計算網關的主要功能。 一、數據采集與處理 邊緣計算網關具備
    的頭像 發表于 04-16 15:24 ?975次閱讀

    在PCB板上加入晶振的原因主要有哪些?

    一定的時序和頻率要求。這就需要晶振這一重要的電子元件來提供穩定的時鐘信號。 在PCB板上加入晶振的原因主要有以下幾點: 1.提供穩定的時鐘信號:晶振可以產生穩定、準確的振蕩信號,為電子設備提供穩定
    發表于 04-09 17:06

    X安規電容和CBB電容主要有哪些區別呢?

    X安規電容主要指X1和X2安規電容器,而CBB電容的種類就更多了,主要有CBB21/CBB22、MPB盒裝電容、CBB81諧振電容、MMKP82雙面金屬化電容等。
    的頭像 發表于 04-08 11:18 ?1747次閱讀

    多路復用技術主要有幾種類型?它們各有什么特點?

    多路復用技術主要有幾種類型?它們各有什么特點? 多路復用技術主要有以下幾種類型:進程多路復用、I/O多路復用、信號驅動I/O和異步I/O。每種類型都有其特點和應用場景。 1. 進程多路復用:進程
    的頭像 發表于 03-28 15:36 ?3189次閱讀

    編碼器的類型主要有哪幾種?

    編碼器類型主要有兩種:絕對編碼器和增量編碼器。
    的頭像 發表于 02-20 18:14 ?2165次閱讀

    請問TC234和TC275主要有哪些區別?

    TC234 和TC275主要有哪些區別?
    發表于 02-20 06:30
    主站蜘蛛池模板: 男女性接交无遮挡免费看视频 | 午夜美女写真福利写视频 | 操久久| 四虎国产成人亚洲精品 | 天天干夜夜躁 | 怡红院日本 | 可以免费看黄的网站 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 狠狠综合欧美综合欧美色 | 天堂资源 | 在线视频免费视频网站 | 欧美性受视频 | 九九热精品在线视频 | 亚洲国产人久久久成人精品网站 | 色香色香欲天天天影视综合网 | 国产精品毛片在线大全 | 欧美一级精品 | 久久天天躁狠狠躁夜夜爽蜜月 | 五月天免费在线播放 | 成人毛片一区二区三区 | 163黄页网又粗又长又舒服 | 三级视频在线播放线观看 | 欧美一区二区视频 | 丁香花在线影院观看在线播放 | 亚洲成人网在线 | 你懂的欧美 | 视频一区 中文字幕 | 特黄特色大片免费播放路01 | 免费爱爱网址 | 免费高清视频在线观看 | 色一欲一性一乱一区二区三区 | 午夜高清在线 | 色视频线观看在线播放 | 免费观看一级成人毛片 | 国产98在线传媒在线视频 | 日本免费不卡视频 | 天天看爽片 | 欧美高清a | 久久免费视频2 | 成人黄网大全在线观看 | 国产成人黄网址在线视频 |