Stay foolish：初學者輕松了解“大數據”

　　網絡上流傳著這么的一句流行語：“萬事不懂問度娘”。自從有了各種搜索引擎，新名詞新技術對大眾而言，已不再神秘。然而，當你搜索“大數據”或者“big data solution”等關鍵字時，搜索出的海量相關知識鋪天蓋地，對初學者而言，仍然很難在短時間內入門。本文目的，是以傻瓜式提問的方式讓初學者輕松的了解“大數據”。

　　大數據的概念

　　“大數據”，是不是----數據很大就叫大數據？

　　實際上簡單的這樣理解也沒有錯，在明確定義時，會比較強調大數據的4個V的特性： Volume，Variety，Value，Velocity。也就是：

　　一、數據存儲空間占用大（至PB及以上級別）；

　　二、數據類型繁多；

　　三、價值密度低；

　　四、處理速度快。

　　搜索的信息中，你會發現有某些名詞出現的頻率非常高，心里也隨之會產生一些疑問。“PB是多大？”“Map-Reduce是啥？”“Hadoop是啥？”“大數據跟云計算啥關系？跟傳統意義的數據庫啥關系？”等等。

　　這么多的信息量，我們還是按照大數據的基本定義，四個V來逐一梳理吧。

　　從第一個V開始，Volume。

　　數據量很大，到底能達到什么程度呢？先來學習一下數量級的知識吧。

　　1KB（Kilobyte 千字節） = 2^10 B = 1024 B；

　　1MB（Megabyte 兆字節） = 2^10 KB = 1024 KB = 2^20 B；

　　1GB（Gigabyte 吉字節） = 2^10 MB = 1024 MB = 2^30 B；

　　1TB（Trillionbyte 太字節） = 2^10 GB = 1024 GB = 2^40 B；

　　1PB（Petabyte 拍字節） = 2^10 TB = 1024 TB = 2^50 B；

　　1EB（Exabyte 艾字節） = 2^10 PB = 1024 PB = 2^60 B；

　　1ZB（Zettabyte 澤字節） = 2^10 EB = 1024 EB = 2^70 B；

　　1YB（YottaByte 堯字節） = 2^10 ZB = 1024 ZB = 2^80 B；

　　1BB（Brontobyte ） = 2^10 YB = 1024 YB = 2^90 B；

　　1NB（NonaByte ） = 2^10 BB = 1024 BB = 2^100 B；

　　1DB（DoggaByte） = 2^10 NB = 1024 NB = 2^110 B；

　　……

　　“哇！坑爹啊，整出這么多名詞，跟大數據都有關系嗎？需要我們掌握嗎？”別激動！其實，KB，MB，GB我們在日常電腦操作中已經經常碰到了。甚至TB級的大硬盤，也已經應用于家用電腦中了。我們所說的“大數據”，目前大多產品還處在了立足PB展望EB的級別。后面的那些什么ZB、YB、BB、NB、 DB……等，就暫時先當他們是浮云吧~

　　第二個V， Variety。

　　關于這一點，百度百科里是這么說的“網絡日志、視頻、圖片、地理位置信息等等”。從專業一點的角度，我們可以說“大數據”中，可以有結構化數據，但更多的是大量的非結構化和半結構化數據。

　　結構化和非結構化數據是什么意思？

　　結構化數據是指，可以存儲在數據庫里，可以用二維表結構來邏輯表達實現的數據。

　　非結構化數據，是指不方便用數據庫二維邏輯表來表現的數據，包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

　　而半結構化數據，就是介于完全結構化數據（如關系型數據庫、面向對象數據庫中的數據）和完全無結構的數據（如聲音、圖像文件等）之間的數據，HTML文檔就屬于半結構化數據。它一般是自描述的，數據的結構和內容混在一起，沒有明顯的區分。

　　上述的描述，其實還是有點不明確。用數據模型的列表來看，區別就更清晰一點了：

　　第三個V，Value。

　　價值密度低。以視頻為例，連續不間斷監控過程中，可能有用的數據僅僅有一兩秒。

　　第四個V，Velocity。

　　處理速度快。如此龐大的數據量，需要在短時間內迅速響應。所使用的技術，當然是有別于傳統的數據挖掘技術的。

　　釋疑解惑

　　“梳理完了四個V，咋還是云山霧罩的呢？”

　　下面來回答幾個初學者可能思考到的問題吧！

　　針對大數據的四個V，有沒有什么對應的技術來應對呢？

　　目前，查詢“大數據”，你會發現度娘給出的各種信息中，Hadoop這個詞出現的很頻繁。而且，很多廠商提供的產品，也都會打上一個標簽：“**產品已經并入Hadoop分布式計算平臺，以及將Hadoop引入**產品。”

　　什么是Hadoop？

　　Hadoop是由Apache基金會開發的一個分布式系統基礎架構。它是一個能夠對大量數據進行分布式處理的軟件框架。用戶可以在不了解分布式底層細節的情況下，開發分布式程序，充分利用集群的威力高速運算和存儲。

　　Hadoop包含了如下子項目：

　　1. Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他項目公共內容，從0.21開始HDFS和MapReduce被分離為獨立的子項目，其余內容為Hadoop Common

　　2. HDFS： Hadoop 分布式文件系統（Distributed File System）－ HDFS （Hadoop Distributed File System）

　　3. MapReduce：并行計算框架，0.20前使用 org.apache.hadoop.mapred 舊接口，0.20版本開始引入org.apache.hadoop.mapreduce的新API

　　4. HBase：類似Google BigTable的分布式NoSQL列數據庫。

　　5. Hive：數據倉庫工具，由Facebook貢獻。

　　6. Zookeeper：分布式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。

　　7. Avro：新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

　　8. Pig：大數據分析平臺，為用戶提供多種接口。

　　作為初學者，我們先撥開一些浮云，看看這里面到底有些什么。有三個主體部分，是我們需要重點關注的：HDFS、MapReduce、HBase。

　　實際上，Apache Hadoop的HDFS是Google File System（GFS）的開源實現。MapReduce是Google MapReduce的開源實現。HBase是Google BigTable的開源實現。

　　Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。它主要有以下幾個優點：1高可靠性2高擴展性3高效性4高容錯性。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。而實際上，很多公司提供的大數據產品也是基于Hadoop進行開發的。

　　數據存儲空間占用大

　　針對數據存儲空間占用大，我們需要用到的是“分布式存儲”。分布式存儲系統，就是將數據分散存儲在多***立的設備上。傳統的網絡存儲系統采用集中的存儲服務器存放所有數據，存儲服務器成為系統性能的瓶頸，也是可靠性和安全性的焦點，不能滿足大規模存儲應用的需要。分布式網絡存儲系統采用可擴展的系統結構，利用多臺存儲服務器分擔存儲負荷，利用位置服務器定位存儲信息，它不但提高了系統的可靠性、可用性和存取效率，還易于擴展。

　　前面我們介紹到的Hadoop，其中的HDFS就是現今最流行的分布式存儲平臺之一。

　　HDFS原理簡要描述

　　HDFS（Hadoop Distributed File System），是一個分布式文件系統。HDFS有著高容錯性（fault-tolerent）的特點，并且設計用來部署在低廉的（low-cost）硬件上。它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實現流的形式訪問（streaming access）文件系統中的數據。

　　HDFS是一個主從結構的體系，一個HDFS集群是由一個名字節點，它是一個管理文件的命名空間和調節客戶端訪問文件的主服務器，當然還有的數據節點，一個節點一個，它來管理存儲。HDFS暴露文件命名空間和允許用戶數據存儲成文件。

　　對外部客戶機而言，HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，等等。

　　內部機制，是將一個文件分割成一個或多個的塊，這些塊存儲在一組數據節點中。名字節點（NameNode）操作文件命名空間的文件或目錄操作，如打開，關閉，重命名，等等。它同時確定塊與數據節點的映射。數據節點（DataNode）來負責來自文件系統客戶的讀寫請求。數據節點同時還要執行塊的創建，刪除，和來自名字節點的塊復制指示。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。

　　HDFS 內部的所有通信都基于標準的 TCP/IP 協議。

　　數據類型繁多

　　大數據處理，有如下需求：對數據庫高并發讀寫的需求、對海量數據的高效率存儲和訪問的需求、對數據庫的高可擴展性和高可用性的需求。傳統的關系型數據庫在此類需求面前束手無策。此時，一個新的概念被引入了----NoSQL。

閱讀全文

12 下一頁全文

本文導航

第 1 頁：Stay foolish：初學者輕松了解“大數據”
第 2 頁：什么是NoSQL

云計算(135407) 云計算(135407)
大數據(136505) 大數據(136505)

初學者制作工頻逆變器

　工頻逆變器以其線路簡單,易于初學者制作、調式,抗過載能力強,成本低,實用等優點,深受廣大電子制作愛好者的青睞.

2011-03-03 09:55:13

18478

初學者

作為初學者，請求各位大神，我想學習單片機，但不知道如何著手，各位大神指教！{:1:}

2014-01-06 18:51:36

初學者

單片機初學者怎么學

2014-04-15 19:19:20

初學者28335的資料

初學者28335的資料

2015-11-20 21:47:46

初學者中文資料

初學者中文資料

2012-07-06 11:30:55

初學者入門

太好了，初學者學習慢慢消化中……

2023-09-21 13:50:01

初學者如何向高手請教問題？

為什么自學單片機，有的初學者卻能學會，有的初學者卻學了好久都沒學會；連個數字時鐘的程序都寫不出來；每次看到壇友們做出各種稀奇古怪的DIY，我都感到心里酸溜溜，請問高手該該怎。。。。。。總是被學會單片機的嘲笑，看的我們初學者很不是滋味，你們不也就是這么過來的嗎？有什么好自傲的

2012-05-21 22:53:28

初學者如何學習ARM？

初學者如何學習ARM？

2022-01-19 07:04:54

初學者如何學習單片機？

初學者如何學習單片機？

2022-02-17 08:03:29

初學者如何快速掌握

初學者如何快速掌握

2014-04-22 16:30:34

初學者學習的電路初學者學習的電路

初學者學習的電路

2014-03-12 10:17:29

初學者應重點掌握什么電子知識

我想這篇文章能給你點啟發，雖然有點長，但看完他你會受益匪淺的。　　這是一個寫給入門者的，要解決一個問題：初學者應重點掌握什么電子知識，大學階段如何學習？　　先說點貌似題外的東西——3個謬論。　　謬論

2021-09-09 08:20:32

初學者是學習51還是arduino

如題，我是一名初學者，想問問各位大師入門是學習51還是arduino，哪個適合零基礎的初學者學習

2016-03-03 08:52:41

初學者求labview視頻

大家好，我是labview初學者，為初學者搭建一個平臺，來學習和實驗Labview程序啊，是否有適合初學者的教學視頻給予參考？謝謝大家幫忙！

2012-12-06 10:45:11

初學者看看

本帖最后由 eehome 于 2013-1-5 10:04 編輯 初學者可以看看，有用的！！！！！

2012-09-22 21:15:49

初學者問什么是IP庫啊?

初學者問什么是IP庫啊?

2012-04-12 10:45:59

DSP初學者選那款好呢？

2013-09-16 11:35:03

LabVIEW初學者數據采集

初學者利用生產消費者結構編寫的數據采集，2018版本

2021-01-03 20:25:45

Labview初學者

本人是個Labview初學者，想尋求一位老師教學

2017-12-02 10:49:25

labview初學者怎么學labview

我是初學者 以前指示了解有著東東現在想學卻無從下手求助啊

2012-12-06 13:58:57

labview初學者教程

方便初學者學習Labview

2012-07-11 20:30:41

labview怎么實現指定路徑保存數據，初學者求教

我是初學者現在在做個頻譜分析儀得到的頻譜數據怎么指定路徑保存，就是在前面板上有指定路徑的，，具體怎么做，，，萬分感謝

2011-05-25 21:04:25

寫給DSP初學者：輕松入門,快速精通

2012-08-17 14:25:42

單片機初學者群

單片機初學者群：129310660主要針對單片機初學者和在校大學生

2010-12-29 11:31:38

如何破解FPGA初學者糾結的仿真？

對于FPGA初學者而言，如何正確了解并理解FPGA的仿真是關鍵。應廣大FPGA初學者和愛好者要求，電子發燒友網編輯根據多名在FPGA領域有過多年工作經驗]　　Quartus和Modelsim軟件

2020-05-13 07:00:00

嵌入式Linux初學者快速了解和入門

PS: 本文轉載于網絡，具體出處不明。為了方便廣大嵌入式 Linux 初學者快速了解和入門，同時也記錄一下，故轉載原文，僅用于學習和交流，感謝原作者！從上圖可以知道：① 組成：嵌入式Linux系統

2021-11-05 06:12:28

怎么算電阻，初學者

怎么算電阻，初學者

2016-11-03 01:12:44

本人初學者怎么學習 pcb

怎么學習呢本人 初學者 怎么學習 pcb

2016-05-31 10:52:28

電子初學者手冊

`電子初學者手冊`

2011-05-03 21:17:44

Visual Studio NET初學者教程

2009-01-08 11:15:22

Allegro初學者圖解教程

Allegro初學者圖解教程:【1】如何讓空心圓圈焊盤正常地實體顯示？如何將拐角那些斷線平滑過渡顯示？打開Allegro 自帶的PCB 文件cds_routed.brd 你會看到焊盤是圓圈顯示，走線拐角有

2009-08-15 11:40:16

C語言初學者入門講座

C語言初學者入門講座:面向對象編程和可視化集成開發工具的發展，使很多曾經非常流行的編程語言影響下降甚至逐步消失，但有一種語言是例外，它就是C語言，時光流逝絲毫沒減

2009-10-24 13:38:38

106

與初學者談焊接

有些初學者認為焊接很簡單，其實不然。焊接是電子工作者必須掌握的一門重要技術。不正確的焊接

2006-04-16 23:30:17

1449

初學者USB技術入門總結

初涉學USB，初學者USB入門總結一，概述現在很多的主控上都帶有USB的功能，但是對于初學者來說，這方面應用還是比較棘手，因為usb的不但固件程序需要編

2009-04-22 16:57:40

708

致初學者:如何學好電子技術

致初學者:如何學好電子技術推薦學習電子技術是一個循序漸進的過程，我個人認為應該分五步來走： &n

2010-03-03 10:45:31

6676

proteus單片機初學者的35個試驗

電子發燒友為大家提供了proteus單片機初學者的35個試驗，現分享給大家學習及參考

2011-08-03 16:42:42

873

初學者之路—硬件學習經驗

初學者之路—硬件學習經驗一文是一位搞硬件的在校研究生寫的，希望對那些初學者之路電腦網等處于迷茫的硬件初學者學習之路有所幫助！

2011-12-29 10:20:02

14454

電子DIY初學者必備

電子DIY初學者必備適合電子diy初學者的學習資料，文中匯集了眾多diy愛好者的實用經驗，通俗易懂的技術文獻得以升華。

2012-01-06 10:58:22

2276

PCB Layout初學者必會知識總結

本內容為pcb layout初學者整理了相關的技術點及設計經驗、技巧等知識，方便初學者快速上手。

2012-07-04 16:55:46

5373

HDL初學者謹記：學習HDL前必知

電子發燒友網核心提示：對于初學者而言，在學硬件描述語言（HDL）之前一定要注意以下幾點。算是電子發燒友網小編給HDL語言初學者的一點小小提示吧，希望對初學者起到一些指引作

2012-10-15 11:14:16

2561

cad初學者應該注意的問題

很多學習CAD的新手都不免在學習過程中犯下各種各樣的錯誤，下面是小編整理出一些cad初學都應注意的問題，這此問題都是CAD初學者經常會遇到的問題，希望下面的文章對CAD初學者能有

2012-10-18 09:43:04

1578

編程及C C++初學者+FAQ

編程及C C++初學者+FAQ

2013-09-06 14:55:25

一個牛人給java初學者的建議

一個牛人給java初學者的建議。

2015-11-06 11:22:28

51單片機初學者智能車測速原理圖

51單片機初學者智能車測速，原理圖相關文件

2015-11-18 17:10:56

電子初學者電路圖如何看

電子初學者的指南，介紹了好些東西，都是最基礎的。適合于初學者

2015-11-23 12:05:03

從單片機初學者邁向單片機工程師

從單片機初學者邁向單片機工程師從單片機初學者邁向單片機工程師

2016-01-15 16:33:39

從51初學者到電子工程師

51初學者的學習指導，對51初學者是個很好的入門教程，

2016-02-23 15:53:57

verilog初學者學習ppt

適合verilog初學者的教程，可以好好參考學習。

2016-03-25 14:01:33

Stm32初學者全攻略

Stm32初學者全攻略------值得一看

2016-06-15 17:36:42

關于PNP三極管做開關初學者最容易忽略的問題

關于PNP三極管做開關初學者最容易忽略的問題，感興趣的小伙伴們可以看看。

2016-07-26 10:43:06

與初學者談電子制作

與初學者談電子制作，感興趣的小伙伴們可以看一看。

2016-08-23 15:23:05

verilog_經驗(適合初學者)

verilog_經驗(適合初學者)，感興趣的小伙伴們可以瞧一瞧。

2016-11-10 17:12:34

protel99初學者教程

2016-12-11 22:52:20

電子學習資料[適初學者]

適合初學者的學習資料

2017-02-08 17:25:22

初學者如何看電路圖

初學者如何看電路圖，拆解電路分步講解！

2017-04-19 10:37:34

Keil與proteus完美結合教程單片機初學者的福音

Keil與proteus完美結合教程單片機初學者的福音

2017-09-20 10:43:40

初學者的avr基礎教程

初學者的avr基礎教程

2017-09-21 08:45:51

初學者密碼學簡單入門

初學者密碼學簡單入門

2017-09-21 09:16:33

初學者邊用邊學C語言

初學者邊用邊學C語言

2017-09-22 10:14:24

PSOC1初學者5個實驗，針對初學者的實驗

PSOC1初學者5個實驗，針對初學者的實驗

2017-10-16 09:33:50

RDS的詳細介紹，對初學者有用

RDS的詳細介紹，對初學者有用

2017-10-24 11:29:19

linux初學者入門

2017-10-27 14:34:22

單片機初學者必備的裝備清單

單片機初學者必備的裝備清單：學習套裝：電腦；開發板；下載線（開發板一般會配有）；紙和筆。

2018-07-15 11:24:00

6717

Xilinx開發板初學者問題總結

Xilinx開發板初學者問題總結

2017-12-28 17:34:35

R語言初學者指南 pdf下載

R初學者指南

2018-02-26 09:35:05

適合樹莓派初學者的10個項目

下面小編就為初學者篩選了10個適合的樹莓派開發項目，這10個項目能夠很好地幫助初學者對樹莓派的硬件和軟件有更清晰的認識和理解。話不多說，開始行動吧！

2018-05-10 10:28:00

47064

初學者AVR軟件入門基礎知識(1)

初學者AVR軟件入門基礎知識(1)

2018-07-04 09:50:00

4501

初學者AVR軟件入門基礎知識（2）

初學者AVR軟件入門基礎知識（2）

2018-07-04 09:50:00

2395

初學者AVR軟件入門基礎知識（3）

初學者AVR軟件入門基礎知識（3）

2018-07-04 09:51:00

2315

GPIO、中斷和事件：為ARM初學者導航（6）

第六講：GPIO、中斷和事件－－《為ARM初學者導航》

2018-07-02 00:22:09

4368

DMA和RTC：為ARM初學者導航（7）

第七講：DMA和RTC－－《為ARM初學者導航》

2018-07-02 01:30:11

6959

單片機初學者必備的40個實驗教程

單片機初學者必備的40個實驗教程

2018-11-22 15:46:37

195

樹莓派3型號B初學者指南

我已經解釋了幾乎所有涉及選擇配件和安裝適合Raspberry Pi 3操作系統的內容。我希望這對初學者有所幫助誰對Raspberry Pi的最新型號感興趣。

2019-08-29 09:56:34

3258

初學者適合買什么牌子的萬用表

有人建議選指針萬用表，比如南京MF47型的，有人建議名牌數字表，比如美國品牌福祿克萬用表，說的太好了叫初學者買這么貴的。什么目的？還沒學會走路就想跑了。

2019-10-07 09:42:00

19888

初學者開發人員都會犯的7個Python錯誤

這篇文章主要介紹了七個初學者常犯的Python調試錯誤，并告訴大家如何去避免這些錯誤。

2020-06-23 15:19:45

2214

關于單片機初學者苦惱的問題

單片機代理商深圳英銳恩分享單片機初學者最苦惱的是哪些問題？

2020-06-24 14:30:50

844

fpga開發板推薦初學者

對于一個初學者來說，選擇一款適合學習的FPGA是整個FPGA學習生涯的必經之路。我個人建議在選擇FPGA的時候，應該抓住如下幾個原則：

2020-11-10 14:55:03

18067

給Linux初學者的一些經驗與建議與學習方法及其學習方向

這篇文章是寫給 Linux 初學者的，我會分享一些作為初學者應該知道的一些東西，這些內容都是本人從事 Linux 開發工作多年的心得體會，相信會對初學者有所幫助。

2021-03-19 11:33:43

2709

初學者必看的基本電子技術概念

初學者必看的基本電子技術概念

2021-05-17 11:41:44

Labview初學者常見問題及解答

Labview初學者常見問題及解答。

2021-05-25 15:56:48

初學者必知的20個模擬電路

初學者必知的20個模擬電路

2021-05-29 09:27:46

437

11649

已全部加載完成

搜索歷史

Stay foolish：初學者輕松了解“大數據”

本文導航

評論