通常,我們在研究與處理事物時,經(jīng)常需要將事物進行分類,例如地質(zhì)勘探中根據(jù)物探、化探的指標將樣本進行分類;古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類;大壩監(jiān)控中由于所得的觀測數(shù)據(jù)量十分龐大,有時亦需將它們分類歸并,獲得其典型代表再進行深入分析等,對事物進行分類,進而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認識世界、改造世界的一種重要方法。
由于對象的復(fù)雜性,僅憑經(jīng)驗和專業(yè)知識有時不能確切地分類,隨著多元統(tǒng)計技術(shù)的發(fā)展和計算機技術(shù)的普及,利用數(shù)學方法進行更科學的分類不僅非常必要而且完全可能。
近些年來,數(shù)值分類學逐漸形成了一個新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數(shù)據(jù)集合,很多研究領(lǐng)域,如工程、生物、醫(yī)藥、語言、人類學、心理學和市場學等,都對聚類技術(shù)的發(fā)展和應(yīng)用起到了推動作用。
什么是聚類分析?
聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數(shù)量方法,是一種新興的多元統(tǒng)計方法,是當代分類學與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進行聚類。
聚類分析是將分類對象置于一個多維空問中,按照它們空問關(guān)系的親疏程度進行分類。
通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。
聚類分析方法,是定量地研究地理事物分類問題和地理分區(qū)問題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。
聚類分析方法有什么好處
聚類分析:將個體(樣品)或者對象(變量)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。其主要依據(jù)是聚到同一個數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。
常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1. 系統(tǒng)聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變量的多元正態(tài)性,方差齊性等要求較高。
應(yīng)用領(lǐng)域:細分市場,消費行為劃分,設(shè)計抽樣方案等
優(yōu)點:聚類分析模型的優(yōu)點就是直觀,結(jié)論形式簡明。
缺點:在樣本量較大時,要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試間內(nèi)在聯(lián)系的指標,而實踐中有時盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時,如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當?shù)模牵垲惙治瞿P捅旧韰s無法識別這類錯誤。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結(jié)論,不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
聚類分析的意義是什么
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。
商業(yè):聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預(yù)處理。
生物:聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結(jié)構(gòu)的認識
地理:聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性
保險行業(yè):聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組
因特網(wǎng):聚類分析被用來在網(wǎng)上進行文檔歸類來修復(fù)信息
電子商務(wù):聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。
-
聚類分析
+關(guān)注
關(guān)注
0文章
16瀏覽量
7468
發(fā)布評論請先 登錄
相關(guān)推薦
星座圖聚類分析的QAM信號調(diào)制識別算法及DSP實現(xiàn)

基于Hadoop與聚類分析的網(wǎng)絡(luò)日志分析模型

基于雙層聚類分析的負荷形態(tài)組合識別
spss聚類分析樹狀圖
聚類分析的簡單案例

評論