在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Hadoop集群搭建的企業大數據分析平臺

電子工程師 ? 作者:工程師飛燕 ? 2018-06-23 09:17 ? 次閱讀

面對海量的各種來源的數據,如何對這些零散的數據進行有效的分析,得到有價值的信息一直是大數據領域研究的熱點問題。

大數據分析處理平臺就是整合當前主流的各種具有不同側重點的大數據處理分析框架和工具,實現對數據的挖掘和分析,一個大數據分析平臺涉及到的組件眾多,如何將其有機地結合起來,完成海量數據的挖掘是一項復雜的工作。在搭建大數據分析平臺之前,要先明確業務需求場景以及用戶的需求,通過大數據分析平臺,想要得到哪些有價值的信息,需要接入的數據有哪些,明確基于場景業務需求的大數據平臺要具備的基本的功能,來決定平臺搭建過程中使用的大數據處理工具和框架。

基于Hadoop集群搭建的企業的大數據分析平臺

(1)操作系統的選擇操作系統一般使用開源版的RedHat、Centos或者Debian作為底層的構建平臺,要根據大數據平臺所要搭建的數據分析工具可以支持的系統,正確的選擇操作系統的版本。

(2)搭建Hadoop集群Hadoop作為一個開發和運行處理大規模數據的軟件平臺,實現了在大量的廉價計算機組成的集群中對海量數據進行分布式計算。Hadoop框架中最核心的設計是HDFS和MapReduce,HDFS是一個高度容錯性的系統,適合部署在廉價的機器上,能夠提供高吞吐量的數據訪問,適用于那些有著超大數據集的應用程序;MapReduce是一套可以從海量的數據中提取數據最后返回結果集的編程模型。在生產實踐應用中,Hadoop非常適合應用于大數據存儲和大數據的分析應用,適合服務于幾千臺到幾萬臺大的服務器的集群運行,支持PB級別的存儲容量。Hadoop家族還包含各種開源組件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等。使用開源組件的優勢顯而易見,活躍的社區會不斷的迭代更新組件版本,使用的人也會很多,遇到問題會比較容易解決,同時代碼開源,高水平的數據開發工程師可結合自身項目的需求對代碼進行修改,以更好的為項目提供服務。

基于Hadoop集群搭建的企業的大數據分析平臺

(3)選擇數據接入和預處理工具面對各種來源的數據,數據接入就是將這些零散的數據整合在一起,綜合起來進行分析。數據接入主要包括文件日志的接入、數據庫日志的接入、關系型數據庫的接入和應用程序等的接入,數據接入常用的工具有Flume,Logstash,NDC(網易數據運河系統),sqoop等。對于實時性要求比較高的業務場景,比如對存在于社交網站、新聞等的數據信息流需要進行快速的處理反饋,那么數據的接入可以使用開源的Strom,Spark streaming等。當需要使用上游模塊的數據進行計算、統計和分析的時候,就需要用到分布式的消息系統,比如基于發布/訂閱的消息系統kafka。還可以使用分布式應用程序協調服務Zookeeper來提供數據同步服務,更好的保證數據的可靠和一致性。數據預處理是在海量的數據中提取出可用特征,建立寬表,創建數據倉庫,會使用到HiveSQL,SparkSQL和Impala等工具。隨著業務量的增多,需要進行訓練和清洗的數據也會變得越來越復雜,可以使用azkaban或者oozie作為工作流調度引擎,用來解決有多個hadoop或者spark等計算任務之間的依賴關系問題。

基于Hadoop集群搭建的企業的大數據分析平臺

基于Hadoop集群搭建的企業的大數據分析平臺

(4)數據存儲除了Hadoop中已廣泛應用于數據存儲的HDFS,常用的還有分布式、面向列的開源數據庫Hbase,HBase是一種key/value系統,部署在HDFS上,與Hadoop一樣,HBase的目標主要是依賴橫向擴展,通過不斷的增加廉價的商用服務器,增加計算和存儲能力。同時hadoop的資源管理器Yarn,可以為上層應用提供統一的資源管理和調度,為集群在利用率、資源統一等方面帶來巨大的好處。Kudu是一個圍繞Hadoop生態圈建立的存儲引擎,Kudu擁有和Hadoop生態圈共同的設計理念,可以運行在普通的服務器上,作為一個開源的存儲引擎,可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Redis是一種速度非常快的非關系型數據庫,可以將存儲在內存中的鍵值對數據持久化到硬盤中,可以存儲鍵與5種不同類型的值之間的映射。

基于Hadoop集群搭建的企業的大數據分析平臺

(5)選擇數據挖掘工具Hive可以將結構化的數據映射為一張數據庫表,并提供HQL的查詢功能,它是建立在Hadoop之上的數據倉庫基礎架構,是為了減少MapReduce編寫工作的批處理系統,它的出現可以讓那些精通SQL技能、但是不熟悉MapReduce、編程能力較弱和不擅長Java的用戶能夠在HDFS大規模數據集上很好的利用SQL語言查詢、匯總、分析數據。Impala是對Hive的一個補充,可以實現高效的SQL查詢,但是Impala將整個查詢過程分成了一個執行計劃樹,而不是一連串的MapReduce任務,相比Hive有更好的并發性和避免了不必要的中間sort和shuffle。Spark可以將Job中間輸出結果保存在內存中,不需要讀取HDFS,Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。Solr是一個運行在Servlet容器的獨立的企業級搜索應用的全文搜索服務器,用戶可以通過http請求,向搜索引擎服務器提交一定格式的XML,生成索引,或者通過HTTP GET操作提出查找請求,并得到XML格式的返回結果。還可以對數據進行建模分析,會用到機器學習相關的知識,常用的機器學習算法,比如貝葉斯、邏輯回歸、決策樹、神經網絡、協同過濾等。

基于Hadoop集群搭建的企業的大數據分析平臺

(6)數據的可視化以及輸出API對于處理得到的數據可以對接主流的BI系統,比如國外的Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可免費試用)等,將結果進行可視化,用于決策分析;或者回流到線上,支持線上業務的發展。成熟的搭建一套大數據分析平臺不是一件簡單的事情,本身就是一項復雜的工作,在這過程中需要考慮的因素有很多,比如:穩定性,可以通過多臺機器做數據和程序運行的備份,但服務器的質量和預算成本相應的會限制平臺的穩定性;可擴展性:大數據平臺部署在多臺機器上,如何在其基礎上擴充新的機器是實際應用中經常會遇到的問題;安全性:保障數據安全是大數據平臺不可忽視的問題,在海量數據的處理過程中,如何防止數據的丟失和泄漏一直是大數據安全領域的研究熱點。

基于Hadoop集群搭建的企業的大數據分析平臺

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    16039
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137798
收藏 人收藏

    評論

    相關推薦

    業大數據

    業大數據是未來工業在全球市場競爭中發揮優勢的關鍵。無論是德國工業4.0、美國工業互聯網還是《中國制造2025》,各國制造業創新戰略的實施基礎都是工業大數據的搜集和特征分析,及以此為未來制造系統
    發表于 06-19 17:43

    如何從零學大數據

    → Kafka → Sqoop → Pig學習目標:掌握大數據學習基石Hadoop數據串行化系統與技術、數據的統計分析、分布式
    發表于 03-01 15:41

    從零開始學習hadoophadoop快速入門

    Hadoop是在分布式服務器集群上存儲海量數據并運行分布式分析應用的一個平臺,其核心部件是HDFS與MapReduce。HDFS是一個分布式
    發表于 03-13 15:21

    Quick BI助力云上大數據分析---深圳云棲大會

    、需求響應時間長、本地化現象嚴重、專業人才緊缺等挑戰,急需構建一個面向業務人員的自助式大數據分析工具,讓業務人員自助式實現在線數據分析,助力企業業務的數據化。Quick BI核心能力一
    發表于 04-03 11:42

    Hadoop集群環境部署說明

    Hadoop集群環境搭建是很多學習hadoop學習者或者是使用者都必然要面對的一個問題,網上關于hadoop
    發表于 10-12 15:51

    DKHadoop大數據平臺架構詳解

    大數據的時代已經來了,信息的爆炸式增長使得越來越多的行業面臨這大量數據需要存儲和分析的挑戰。Hadoop作為一個開源的分布式并行處理平臺,以
    發表于 10-17 15:12

    DKH企業大數據解決方案的優勢分析

    ,實現大數據的跨平臺整合管控。 DKH大數據解決方案優勢:1、數據互聯互通,支持多數據集實時同步;2、支持
    發表于 11-02 13:25

    業大數據分析平臺的應用價值探討

    一條很有意思的娛樂新聞——警方在某歌手的演唱會上抓捕了好幾個被網上追逃的人。這同樣是大數據技術的應用······工業大數據分析平臺是利用大數據技術開發
    發表于 11-12 15:56

    大數據hadoop入門之hadoop家族產品詳解

    不同工作流,使得每個工作都有始有終。這些架構幫助我們輕量化地管理大數據分布式計算架構。 Ambari/Whirr(系統部署管理):角色描述Ambari幫助相關人員快捷地部署搭建整個大數據分析架構,并且
    發表于 12-26 15:02

    hadoop集群搭建的準備

    hadoop集群搭建系列(step01:集群搭建準備)
    發表于 03-31 09:47

    hadoop大數據windows搭建環境

    hadoop大數據windows搭建環境
    發表于 09-08 08:52 ?4次下載
    <b class='flag-5'>hadoop</b><b class='flag-5'>大數據</b>windows<b class='flag-5'>搭建</b>環境

    大數據工程師的日常工作是什么

    在工作崗位上,大數據工程師需要基于Hadoop,Spark等構建數據分析平臺,進行設計、開發分布式計算業務。負責大數據
    的頭像 發表于 05-30 15:52 ?5687次閱讀

    虛擬機:Hadoop集群搭建

    虛擬機:Hadoop集群搭建
    的頭像 發表于 07-01 13:03 ?3239次閱讀
    虛擬機:<b class='flag-5'>Hadoop</b><b class='flag-5'>集群</b>的<b class='flag-5'>搭建</b>

    大數據分析技術架構的通用模塊

    對于企業而言,坐擁龐大的數據資源,想要實現大數據分析,首要的就是要搭建起自身的大數據系統平臺,而
    的頭像 發表于 10-29 15:13 ?2901次閱讀

    大數據分析平臺能為企業帶來哪些好處

    大數據分析平臺是近年來迅速發展的一項關鍵技術,它利用先進的數據處理和分析技術,幫助企業從海量數據
    的頭像 發表于 07-14 17:23 ?1184次閱讀
    主站蜘蛛池模板: 日韩视频高清 | 狼色网站| 色噜噜成人综合网站 | 国产女在线 | 五月亭亭激情五月 | 99九九成人免费视频精品 | 在线你懂的网址 | 欧美黄页 | 伊人毛片 | 日本爱爱片 | 狼狼色丁香久久女婷婷综合 | 老头天天吃我奶躁我的动图 | 麦克斯奥特曼在线观看 | 色偷偷中文字幕 | 亚洲91色| 久久这里精品青草免费 | 韩国理伦片在线观看2828 | 日本一二线不卡在线观看 | 啪啪调教所29下拉式免费阅读 | 成年人激情视频 | 国产清纯白嫩大学生正在播放 | 欧美尺寸又黑又粗又长 | 黄色在线观看网站 | 日韩伊人网 | 中文字幕一区二区三区四区五区人 | 免费四虎永久在线精品 | 俺去啦五月 | 国产精品伦视频观看免费 | 亚洲午夜日韩高清一区 | 国产伦精品一区二区三区网站 | 第四色亚洲色图 | 久久男人视频 | 扒开双腿爽爽爽视频www | 免费一级特黄特色大片 | 龙口护士门91午夜国产在线 | 午夜免费视频 | 久久这里只有精品免费播放 | 求毛片网站 | 5555kkkk香蕉在线观看 | 亚洲精品91大神在线观看 | 色老头网址 |