(1)可靠性高。Hadoop具有多個(gè)工作數(shù)據(jù)副本,確保可針對失敗的節(jié)點(diǎn)(個(gè)人理解:一個(gè)節(jié)點(diǎn)可理解為一臺計(jì)算機(jī)或服務(wù)器)進(jìn)行重新分布處理。
(2)擴(kuò)展性高。Hadoop可擴(kuò)展至數(shù)干節(jié)點(diǎn)。
(3)效率高。Hadoop以并行方式工作,處理數(shù)據(jù)速度快。
(4)成本低。與一體機(jī)、商用數(shù)據(jù)倉庫等對比,Hadoop是開源的,項(xiàng)目的軟件成本因此降低。
二、Hadoop的生態(tài)系統(tǒng)構(gòu)成
(1)HDFS是一種分布式文件系統(tǒng),運(yùn)行于大型商用機(jī)集群,HDFS為Hadoop提供高可靠性的底層存儲支撐。
(2)MapReduce是一種分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境,為Hadoop提供高性能計(jì)算能力。
(3)HBase位于結(jié)構(gòu)化存儲層(根據(jù)網(wǎng)絡(luò)資料理解:HBase位于類似windows系統(tǒng)中多層級文件夾的結(jié)構(gòu)中),是一個(gè)分布式的列存儲數(shù)據(jù)庫。
(4)Zookecper是一個(gè)分布式的、高可用性的協(xié)調(diào)服務(wù),提供分布式鎖(根據(jù)百度百科:分布式鎖是控制分布式系統(tǒng)間同步訪問共享資源的方式)等基本服務(wù),用于構(gòu)建分布式應(yīng)用,為Hadoop提供了穩(wěn)定服務(wù)和failover機(jī)制(根據(jù)網(wǎng)絡(luò)資料理解:failover機(jī)制是失效轉(zhuǎn)移機(jī)制,當(dāng)主要組件由于失效或預(yù)定關(guān)機(jī)時(shí)間原因而無法工作時(shí),該機(jī)制將系統(tǒng)組件的功能轉(zhuǎn)移至二級系統(tǒng)組件)。
(5)Hive是一個(gè)建立于Hadoop基礎(chǔ)之上的數(shù)據(jù)倉庫,它提供在Hadoop文件中用于數(shù)據(jù)整理、特殊查詢、分析存儲的數(shù)據(jù)集工具。
(6)Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境,用于檢索大的數(shù)據(jù)集,可簡化Hadoop常見工作任務(wù)。
(7)Sqoop為HBasc提供了方便的RDBMS(根據(jù)百度百科:關(guān)系數(shù)據(jù)庫管理系統(tǒng))數(shù)據(jù)導(dǎo)入功能,可較為方便地將傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)遷移至HBase中。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
三、Spark介紹
Spark是另一種大數(shù)據(jù)系統(tǒng),由一系列解決不同種類問題的系統(tǒng)和編程庫構(gòu)成。下文以APACHE Spark為例,介紹Spark。
APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX組成。
Spark SQL可以通過編寫SQL程序的方式處理數(shù)據(jù)。因?yàn)镾park所有計(jì)算依賴于內(nèi)存,中途計(jì)算結(jié)果不會被存儲,所以Spark的一個(gè)優(yōu)勢是數(shù)據(jù)處理速度快,但同時(shí),Spark對內(nèi)存的要求較高。
Spark Streaming可實(shí)現(xiàn)數(shù)據(jù)流計(jì)算(根據(jù)百度百科理解:因?yàn)閿?shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)無法快速且無法持續(xù)的處理大量且不斷更新的大數(shù)據(jù),所以產(chǎn)生了可實(shí)現(xiàn)數(shù)據(jù)一出現(xiàn)就處理的數(shù)據(jù)流計(jì)算)。
MLlib是機(jī)器學(xué)習(xí)庫,可以輔助研發(fā)人員編寫機(jī)器學(xué)習(xí)算法。
GraphX是圖計(jì)算框架(根據(jù)網(wǎng)路資料理解:圖計(jì)算框架是在大數(shù)據(jù)中高效計(jì)算、存儲、管理圖數(shù)據(jù)的框架)。
四、Spark的優(yōu)點(diǎn)
(1)Spark基于內(nèi)存的迭代計(jì)算,計(jì)算速度快。
(2)Spark引入RDD(彈性分布式數(shù)據(jù)集:可將RDD視為一個(gè)對象,所有的數(shù)據(jù)處理均封裝于此對象中),容錯(cuò)性高。
(3)Spark可提供更多的數(shù)據(jù)集操作類型,數(shù)據(jù)處理能力更強(qiáng)。數(shù)據(jù)集操作類型可分為Transformations和Actions兩類(根據(jù)網(wǎng)絡(luò)資料:Transformations可提供包括Map函數(shù)等操作,Actions可提供包括Reduce函數(shù)等操作)。
(4)Spark可支持更多編程語言,包括:Scala(根據(jù)網(wǎng)絡(luò)資料:類似java的編程語言)、Java、Python、R。
編輯:黃飛
-
Hadoop
+關(guān)注
關(guān)注
1文章
90瀏覽量
15985 -
HDFS
+關(guān)注
關(guān)注
1文章
30瀏覽量
9603 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8889瀏覽量
137444
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(10)——大數(shù)據(jù)系統(tǒng)(下)
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
![](https://file1.elecfans.com/web2/M00/84/79/wKgaomRmCH-AP1HSAAC7gRhvleM790.png)
#硬聲創(chuàng)作季 #云計(jì)算 云計(jì)算-1408.01 大型架構(gòu)配置-Hadoop生態(tài)系統(tǒng)01-2
![](https://file1.elecfans.com/web2/M00/85/16/wKgZomRmH26AJERJAAAc4bheUrM711.png)
#硬聲創(chuàng)作季 大數(shù)據(jù)技術(shù)原理與應(yīng)用_10.2 Spark生態(tài)系統(tǒng)
![](https://file.elecfans.com/web2/M00/B0/B9/pYYBAGSs-PiASh37AANL3xDR_r0830.png)
Hadoop生態(tài)系統(tǒng)(1)#大數(shù)據(jù)分析
![](https://file.elecfans.com/web2/M00/B0/40/poYBAGSs-RGAfSa2AALS-U3hVxA420.png)
Hadoop生態(tài)系統(tǒng)(2)#大數(shù)據(jù)分析
大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解
大數(shù)據(jù)hadoop生態(tài)系統(tǒng)概念簡單介紹
工廠生產(chǎn)系統(tǒng)能效的生態(tài)系統(tǒng)優(yōu)化設(shè)計(jì)
基于加速卡的FPGA生態(tài)系統(tǒng)布局是怎樣的?
STM32單片機(jī)基礎(chǔ)01——初識 STM32Cube 生態(tài)系統(tǒng) 精選資料分享
STM32Cube生態(tài)系統(tǒng)更新
IT的生態(tài)系統(tǒng)概述
基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能
![基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能](https://file1.elecfans.com/web2/M00/09/0E/wKgZomcE21CAHUHqAAET3eiQ6hk257.png)
評論