數(shù)據(jù)挖掘中應(yīng)用較多的技術(shù)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)主流算法包括三種:關(guān)聯(lián)分析、分類分析、聚類分析。本文主要介紹關(guān)聯(lián)分析。
一、關(guān)聯(lián)分析概述
關(guān)聯(lián)分析可發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的相關(guān)性(統(tǒng)計(jì)學(xué)的相關(guān)性分析不能直接發(fā)現(xiàn)數(shù)據(jù)中隱藏的相關(guān)性,需先人為猜測(cè)各變量間可能相關(guān),再通過(guò)統(tǒng)計(jì)學(xué)計(jì)算相關(guān)性強(qiáng)弱),進(jìn)而描述事物同時(shí)出現(xiàn)的規(guī)律和模式,被描述出的規(guī)律和模式可應(yīng)用于市場(chǎng)營(yíng)銷、事務(wù)分析等領(lǐng)域。
例如:某超市可通過(guò)關(guān)聯(lián)分析得出消費(fèi)者購(gòu)買牛奶和購(gòu)買面包隱含的相關(guān)性。如果有關(guān)購(gòu)買牛奶和購(gòu)買面包衡量指標(biāo)大于某一閾值,說(shuō)明此二者相關(guān),超市可以通過(guò)將售賣牛奶和面包的貨架靠近或推出牛奶和面包的組合裝促銷。
二、置信度與支持度
置信度與支持度是關(guān)聯(lián)分析的衡量指標(biāo)。
置信度是指包含關(guān)聯(lián)規(guī)則所有特征(個(gè)人理解:特征可被理解為變量,包括自變量和因變量)的數(shù)據(jù)數(shù)量占包含自變量數(shù)據(jù)數(shù)量的比例。置信度高表示關(guān)聯(lián)規(guī)則所表示的自變量與因變量的相關(guān)性高。
支持度是指包含關(guān)聯(lián)規(guī)則的所有特征的數(shù)據(jù)數(shù)量占總數(shù)據(jù)數(shù)量的比例。支持度高表示關(guān)聯(lián)規(guī)則的出現(xiàn)頻率高,該關(guān)聯(lián)規(guī)則的重要性高。如果關(guān)聯(lián)規(guī)則的置信度高,但支持度低,表示該關(guān)聯(lián)規(guī)則出現(xiàn)頻率低,重要性低,利用價(jià)值低。
關(guān)聯(lián)分析需尋找支持度和置信度分別高于預(yù)先設(shè)定的支持度閾值和置信度閾值的關(guān)聯(lián)規(guī)則,該種關(guān)聯(lián)規(guī)則被稱為強(qiáng)關(guān)聯(lián)規(guī)則。不小于支持度閾值的關(guān)聯(lián)規(guī)則被稱為頻繁規(guī)則,不小于支持度閾值的特征集被稱為頻繁項(xiàng)集(項(xiàng)集可被理解為特征集,項(xiàng)、特征的具象化事物可以是商品,個(gè)人理解:頻繁規(guī)則和頻繁項(xiàng)集是一種事物兩個(gè)維度的表述)。
三、Apriori定律
在大數(shù)據(jù)關(guān)聯(lián)分析中,如果采用枚舉的方式找出所有的頻繁項(xiàng)集,則計(jì)算效率較低。因此,關(guān)聯(lián)分析可通過(guò)以下定律,簡(jiǎn)化頻繁項(xiàng)集的確定過(guò)程。
Apriori定律1:頻繁項(xiàng)集的子集也是頻繁項(xiàng)集。如圖一所示,如果{C,D,E}是頻繁項(xiàng)集,意味著{C,D,E}在大數(shù)據(jù)中出現(xiàn)的頻率不小于支持度閾值,那么其子集如{C,D}在大數(shù)據(jù)出現(xiàn)的頻率也一定不小于支持度閾值,即為頻繁項(xiàng)集。
圖一,圖片來(lái)源:?jiǎn)袅▎袅ā稊?shù)據(jù)科學(xué)導(dǎo)論》
Apriori定律2:非頻繁項(xiàng)集的超集(個(gè)人理解:某集合的超集是包含該集合的集合)也不是頻繁項(xiàng)集。如圖二所示,如果{A,B}不是頻繁項(xiàng)集,意味著{A,B}在大數(shù)據(jù)中出現(xiàn)的頻率小于支持度閾值,那么其超集如{A,B,C}在大數(shù)據(jù)出現(xiàn)的頻率也一定小于支持度閾值,即不是頻繁項(xiàng)集。
圖二,圖片來(lái)源:?jiǎn)袅▎袅ā稊?shù)據(jù)科學(xué)導(dǎo)論》
以上兩定律在Apriori算法中被應(yīng)用,Apriori算法是一種關(guān)聯(lián)分析算法。
四、關(guān)聯(lián)規(guī)則學(xué)習(xí)步驟
(1)找出所有的頻繁項(xiàng)集。
(2)根據(jù)頻繁項(xiàng)集生成頻繁規(guī)則。
(3)根據(jù)置信度指標(biāo)進(jìn)一步篩選頻繁規(guī)則。
五、確定候選項(xiàng)集的注意事項(xiàng)
在選擇候選項(xiàng)集(個(gè)人理解:候選項(xiàng)集指未進(jìn)行置信度篩選的頻繁項(xiàng)集)需注意:
(1)應(yīng)當(dāng)避免產(chǎn)生太多不必要的候選項(xiàng)集。
(2)候選項(xiàng)集中不遺漏頻繁項(xiàng)集。
(3)不產(chǎn)生重復(fù)候選項(xiàng)集。
審核編輯:劉清
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8493瀏覽量
134160 -
Apriori算法
+關(guān)注
關(guān)注
0文章
14瀏覽量
10628
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(24)——機(jī)器學(xué)習(xí)之關(guān)聯(lián)分析
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性與軟件開(kāi)發(fā)環(huán)境

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書
傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)
zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析
什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

評(píng)論