大數(shù)據(jù)是指用現(xiàn)有的計算機軟硬件設(shè)施難以采集、存儲、管理、分析和使用的超大規(guī)模的數(shù)據(jù)集。大數(shù)據(jù)具有規(guī)模大、種類雜、快速化、價值密度低等特點(4V特性)。大數(shù)據(jù)的“大”是一個相對概念,沒有具體標準,如果一定要給一個標準,那么10-100TB通常稱為大數(shù)據(jù)的門檻。
數(shù)據(jù)分析是一個大的概念,理論上任何對數(shù)據(jù)進行計算、處理從而得出一些有意義的結(jié)論的過程,都叫數(shù)據(jù)分析。從數(shù)據(jù)本身的復(fù)雜程度、以及對數(shù)據(jù)進行處理的復(fù)雜度和深度來看,可以把數(shù)據(jù)分析分為以下4個層次:數(shù)據(jù)統(tǒng)計,OLAP,數(shù)據(jù)挖掘,大數(shù)據(jù)。
大數(shù)據(jù)分析和數(shù)據(jù)分析是有區(qū)別和聯(lián)系的。這里重點關(guān)注兩者的是技術(shù)要求、使用場景、業(yè)務(wù)范圍等方面的區(qū)別和聯(lián)系。重點要區(qū)分理論研究和實際應(yīng)用兩方面區(qū)別和聯(lián)系。
第一:在分析方法上兩者并沒有本質(zhì)不同
數(shù)據(jù)分析的核心工作是人對數(shù)據(jù)指標的分析、思考和解讀,人腦所能承載的數(shù)據(jù)量是極其有限的。所以,無論是“傳統(tǒng)數(shù)據(jù)分析”,還是“大數(shù)據(jù)分析”,均需要將原始數(shù)據(jù)按照分析思路進行統(tǒng)計處理,得到概要性的統(tǒng)計結(jié)果供人分析。兩者在這個過程中是類似的,區(qū)別只是原始數(shù)據(jù)量大小所導(dǎo)致處理方式的不同。
第二:在對統(tǒng)計學知識的使用重心上兩者存在較大的不同
傳統(tǒng)數(shù)據(jù)分析”使用的知識主要圍繞“能否通過少量的抽樣數(shù)據(jù)來推測真實世界”的主題展開?!按髷?shù)據(jù)分析”主要是利用各種類型的全量數(shù)據(jù)(不是抽樣數(shù)據(jù)),設(shè)計統(tǒng)計方案,得到兼具細致和置信的統(tǒng)計結(jié)論。
第三:與機器學習模型的關(guān)系上,兩者有著本質(zhì)差別
“傳統(tǒng)數(shù)據(jù)分析”在大部分時候,知識將機器學習模型當黑盒工具來輔助分析數(shù)據(jù)。而“大數(shù)據(jù)分析”,更多時候是兩者的緊密結(jié)合,大數(shù)據(jù)分析產(chǎn)出的不僅是一份分析效果測評,后續(xù)基于此來升級產(chǎn)品。在大數(shù)據(jù)分析的場景中,數(shù)據(jù)分析往往是數(shù)據(jù)加墨的前奏,數(shù)據(jù)建模是數(shù)據(jù)分析的成果。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1467瀏覽量
34630 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8936瀏覽量
138968
發(fā)布評論請先 登錄
相關(guān)推薦
Mathematica 在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系
LLM在數(shù)據(jù)分析中的作用
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
raid 在大數(shù)據(jù)分析中的應(yīng)用
emc技術(shù)在大數(shù)據(jù)分析中的角色
云計算在大數(shù)據(jù)分析中的應(yīng)用
IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡(luò)優(yōu)化?

評論