基于密度的分布式聚類方法
大小:2.17 MB 人氣: 2017-12-25 需要積分:1
聚類是數據挖掘領域中的一種重要的數據分析方法.它根據數據間的相似度,將無標注數據劃分為若干聚簇.CSDP是一種基于密度的聚類算法,當數據量較大或數據維數較高時,聚類的效率相對較低.為了提高聚類算法的效率,提出了一種基于密度的分布式聚類方法MRCSDP,利用MapReduce框架對實驗數據進行聚類.該方法定義了獨立計算單元和獨立計算塊的概念,首先,將數據拆分為若干數據塊,構建獨立計算單元和獨立計算塊,在集群中分配獨立計算塊的任務:然后進行分布式計算,得到數據塊的局部密度,將局部密度合并得到全局密度,根據全局密度計算中心值,由全局密度和中心值得到每個數據塊中候選聚簇中心:最后,從候選聚簇中心選舉出最終的聚簇中心.MRCSDP在充分降低時間復雜度的基礎上得到較好的聚類效果.實驗結果表明,分布式環境下的聚類方法MRCSDP相對于CSDP更能快速、有效地處理大規模數據。并使各節點負載均衡.
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%