在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MapReduce和Spark概要介紹

RG15206629988 ? 來源:行業(yè)學習與研究 ? 2023-03-20 09:24 ? 次閱讀

一、MapReduce

(1)MapReduce概要介紹

MapReduce是一種編程模型,可用于大規(guī)模數(shù)據(jù)集(數(shù)據(jù)量大于1TB的數(shù)據(jù)集)的并行運算(根據(jù)百度百科:并行運算是一種一次可執(zhí)行多個指令的算法,可提高計算速度)。MapReduce可使程序的并行運算更加簡單。

Map(映射)是于各個節(jié)點對本地數(shù)據(jù)的預處理操作。 Reduce(歸約)是將Map預處理操作后的數(shù)據(jù)匯總。Reduce可使編程人員不必關心如何實現(xiàn)分布式并行程序,基于Reduce,編程人員可只關注業(yè)務數(shù)據(jù)處理。

(2)處理模型

MapReduce框架負責處理并行計算中的復雜問題,包括:分布式存儲、作業(yè)調度、負載均衡、容錯處理、網(wǎng)絡通信等。

MapReduce的處理流程如圖一所示。

首先,數(shù)據(jù)在數(shù)據(jù)節(jié)點被劃分為數(shù)據(jù)塊(個人理解:數(shù)據(jù)塊即圖一中的split),MapReduce確定待處理的數(shù)據(jù)塊數(shù)量并確定每個記錄(個人理解:此處記錄可被理解關系數(shù)據(jù)庫的一行數(shù)據(jù))在數(shù)據(jù)塊中的位置;

然后,劃分后的數(shù)據(jù)塊作為Map的輸入;

再然后,Map的輸出數(shù)據(jù)需要經(jīng)過sort(個人理解:分類)、copy(個人理解:復制)、merge(個人理解:合并)操作成為Reduce的輸入,Reduce的輸入數(shù)據(jù)間沒有交集,系統(tǒng)中處于Reduce運行的節(jié)點的數(shù)量等于merge操作后的數(shù)據(jù)數(shù)量;

最后,輸出Reduce運行后的數(shù)據(jù)。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:學堂在線《大數(shù)據(jù)導論》

二、Spark

(1)Spark概要介紹

Spark是針對大規(guī)模數(shù)據(jù)處理的快速通用引擎,其功能是類似MapReduce的計算引擎。

(2)Spark的特點

1)計算速度快。Spark計算速度是Hadoop計算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等編程語言。

3)通用性。Spark由一系列解決處理復雜問題的組件構成,可處理多種類型有關數(shù)據(jù)庫的復雜問題。

4)可運行于多種環(huán)境中,運行環(huán)境包括Hadoop等。

圖片來源:學堂在線《大數(shù)據(jù)導論》

(3)Spark的體系架構

1)Cluster Manager:Cluster Manager是主節(jié)點,控制整個集群,監(jiān)控 Worker Node。

2)Worker Node:Worker Node是從節(jié)點,負責控制計算節(jié)點,啟動Executor 或者Driver

3)Driver:運行Application(個人理解:此處Application指某一應用)的main()函數(shù)

4)Executor:為Application運行Worker Node上的一個進程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數(shù)據(jù)導論》

(4)RDD

RDD(Resilient Distributed Dataset)被稱為彈性分布式數(shù)據(jù)集,利用SparkContext實例(根據(jù)網(wǎng)絡資料理解:每個SparkContext實例是Spark的一個應用)創(chuàng)建的對象均為RDD。RDD是不可變、可分區(qū)、其內部元素可并行計算的集合,數(shù)據(jù)可在RDD中運行RDD的自有函數(shù)。

RDD的函數(shù)被稱為RDD算子,RDD算子分為Transformation和Action兩種類型。Transformation具有類似于MapReduce的功能,Action的功能包括:觸發(fā)RDD計算、統(tǒng)計RDD元素個數(shù)等。

RDD的特點包括:自動容錯、位置感知性調度、可伸縮性(個人理解:數(shù)據(jù)量的多少對RDD的運行影響較小)、可在已有RDD的基礎上創(chuàng)建新的RDD、延遲執(zhí)行(延遲執(zhí)行即Transformation只有在Action被觸發(fā)后才執(zhí)行)。

另外,RDD允許用戶在執(zhí)行多個查詢時可將工作集緩存在內存中,后續(xù)的查詢可重用工作集,可提升查詢速度。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    775

    瀏覽量

    44254
  • 編程語言
    +關注

    關注

    10

    文章

    1950

    瀏覽量

    34988
  • RDD
    RDD
    +關注

    關注

    0

    文章

    7

    瀏覽量

    7997
  • SPARK
    +關注

    關注

    1

    文章

    105

    瀏覽量

    19977
  • MapReduce
    +關注

    關注

    0

    文章

    45

    瀏覽量

    6312

原文標題:大數(shù)據(jù)相關介紹(22)——MapReduce和Spark

文章出處:【微信號:行業(yè)學習與研究,微信公眾號:行業(yè)學習與研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SHA105概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《SHA105概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:33 ?0次下載
    SHA105<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    SHA106概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《SHA106概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:31 ?0次下載
    SHA106<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    ECC206概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《ECC206概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:05 ?0次下載
    ECC206<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一種智慧能源管理通信協(xié)議,最早由ZigBee聯(lián)盟開發(fā)。2013年IEEE在SEP2基礎上開發(fā)了IEEE2030.5。IEEE2030.5是一個應用層協(xié)議,支持TCP/IP。IEEE2030.5支持多種物理層接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 從Phase 2開始規(guī)定:電網(wǎng)運營商和分布式能源之間互操作需要通信支持,以保障公用事業(yè)單位能夠遠程管理和控制分布式能源。加州 Rule 21規(guī)定采用IEEE2030.5協(xié)議進行通信。IEEE2030.5 CSIP為采用IEEE230.5的詳細實施指南。SunSpec Alliance負責CA Rule 21 Certification Program,即IEEE2030.5 CSIP實施指南的認證。
    的頭像 發(fā)表于 11-21 14:44 ?445次閱讀
    IEEE2030.5<b class='flag-5'>概要</b>

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個誤區(qū): 1:兩者都是基于內存計算的,任何計算框架都肯定是基于內存的,所以網(wǎng)上說的spark是基于內存計算所以快,顯然是錯誤的 2;DAG計算模型
    的頭像 發(fā)表于 09-06 09:45 ?320次閱讀

    PGA309正常只校準一個溫度點大概要多久時間呢?

    目前我采用的PGA309USB-EVM單個校準壓力傳感器,我只校準一個常溫25攝氏度的溫度,我發(fā)現(xiàn)校準的時候全部過程都要跑一遍,這樣時間需要花費幾分鐘(不需要等溫度達到25 的時間),請問正常只校準一個溫度點大概要多久時間呢?盼回復。感謝!
    發(fā)表于 08-16 07:13

    廣汽能源與泰國Spark EV簽訂合作框架協(xié)議

    近日,廣汽能源科技(泰國)有限公司與Spark EV Co.Ltd.宣布達成重要合作,雙方共同簽署了一項合作框架協(xié)議,旨在泰國境內全面布局并運營超級充電場站,為新能源汽車的普及與發(fā)展注入強勁動力。
    的頭像 發(fā)表于 07-19 17:08 ?907次閱讀

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數(shù)據(jù)處理:技術、應用與性能優(yōu)化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優(yōu)化的方法。本文旨在
    的頭像 發(fā)表于 07-02 10:31 ?477次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發(fā),可用于批處理、交互式查詢(Spark SQL)、實
    的頭像 發(fā)表于 06-28 17:12 ?766次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    關于Spark的從0實現(xiàn)30s內實時監(jiān)控指標計算

    前言 說起Spark,大家就會自然而然地想到Flink,而且會不自覺地將這兩種主流的大數(shù)據(jù)實時處理技術進行比較。然后最終得出結論:Flink實時性大于Spark。 的確,F(xiàn)link中的數(shù)據(jù)計算
    的頭像 發(fā)表于 06-14 15:52 ?513次閱讀

    Spark+Hive”在DPU環(huán)境下的性能測評 | OLAP數(shù)據(jù)庫引擎選型白皮書(24版)DPU部分節(jié)選

    在奇點云2024年版《OLAP數(shù)據(jù)庫引擎選型白皮書》中,中科馭數(shù)聯(lián)合奇點云針對Spark+Hive這類大數(shù)據(jù)計算場景下的主力引擎,測評DPU環(huán)境下對比CPU環(huán)境下的性能提升效果。特此節(jié)選該章節(jié)內容,與大家共享。
    的頭像 發(fā)表于 05-30 16:09 ?583次閱讀
    “<b class='flag-5'>Spark</b>+Hive”在DPU環(huán)境下的性能測評 | OLAP數(shù)據(jù)庫引擎選型白皮書(24版)DPU部分節(jié)選

    如何利用DPU加速Spark大數(shù)據(jù)處理? | 總結篇

    一、總體介紹 1.1 背景介紹 近年來,隨著存儲硬件的革新與網(wǎng)絡技術的突飛猛進,如NVMe SSD和超高速網(wǎng)絡接口的普及應用,I/O性能瓶頸已得到顯著改善。然而,在2020年及以后的技術背景下,盡管
    的頭像 發(fā)表于 04-02 13:45 ?1123次閱讀
    如何利用DPU加速<b class='flag-5'>Spark</b>大數(shù)據(jù)處理? | 總結篇

    Spark基于DPU Snappy壓縮算法的異構加速方案

    一、總體介紹 1.1 背景介紹 Apache Spark是專為大規(guī)模數(shù)據(jù)計算而設計的快速通用的計算引擎,是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使
    的頭像 發(fā)表于 03-26 17:06 ?866次閱讀
    <b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構加速方案

    RDMA技術在Apache Spark中的應用

    背景介紹 在當今數(shù)據(jù)驅動的時代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個開源的分布式計算系統(tǒng),Spark因其高效的大數(shù)據(jù)處理能力而在各行各業(yè)中廣受歡迎。無論是金融服務
    的頭像 發(fā)表于 03-25 18:13 ?1601次閱讀
    RDMA技術在Apache <b class='flag-5'>Spark</b>中的應用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景簡介 Apache Spark(下文簡稱Spark)是一種開源集群計算引擎,支持批/流計算、SQL分析、機器學習、圖計算等計算范式,以其強大的容錯能力、可擴展性、函數(shù)式API、多語言支持(SQL
    的頭像 發(fā)表于 03-25 18:12 ?1425次閱讀
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x
    主站蜘蛛池模板: 色综合天天综合中文网 | 亚洲综合色婷婷中文字幕 | www.激情.com| 亚洲一区二区精品视频 | 国产高清一级在线观看 | 欧美爆插 | 免费在线色 | 国产中文99视频在线观看 | 狠狠狠狠狠狠狠狠 | 新版bt天堂资源在线 | 亚洲人成电影院在线观看 | 欧美一级视频免费 | 性瘾高h姚蕊全文免费阅读 性做久久久久 | 特黄特黄特色大片免费观看 | 国产在线视欧美亚综合 | 国产美女精品久久久久中文 | 国产www在线播放 | 丁香综合网 | 亚洲成人综合网站 | 色视频网站免费 | 日本黄色片www | 久久精品国产99国产精品免费看 | 午夜久久福利 | 人人看人人添人人爽 | 成人看的一级毛片 | xxxx日本xx| 欧美午夜视频在线观看 | 亚洲成人77777 | 人人澡人人澡碰人人看软件 | 免费观看黄色网址 | 狠狠色噜噜 | 色多多视频网站 | 成人国产在线24小时播放视频 | 五月丁香 | 欧美日韩一区二区三区毛片 | 一级片在线免费看 | 免费精品美女久久久久久久久 | 日本乱妇 | 国产乱理论片在线观看理论 | 久草视频在线免费看 | 四虎影院美女 |