在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

想深度構(gòu)建用戶畫像?掌握關(guān)聯(lián)分析必不可少

格創(chuàng)東智 ? 2019-04-28 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無論是提供商品還是服務(wù),用戶畫像都是數(shù)據(jù)挖掘工作的重要一環(huán)。一個準確和完整的用戶畫像甚至可以說是許多互聯(lián)網(wǎng)公司賴以生存的寶貴財富。


我們也已經(jīng)聽過了無數(shù)用戶畫像的神奇功能和成功案例,比如亞馬遜、淘寶的機器學(xué)習團隊使用用戶的瀏覽行為、購物車狀態(tài)和購買記錄開發(fā)關(guān)聯(lián)推薦系統(tǒng),使點擊率和銷量大幅提升;比如應(yīng)用市場根據(jù)過往APP安裝記錄記對每個使用者進行精準推薦;再比如音樂,圖書和新聞網(wǎng)站通過協(xié)同過濾的方式為用戶呈現(xiàn)個性化的定制內(nèi)容。要做到這些,就必須對用戶的數(shù)據(jù)進行關(guān)聯(lián)分析,得到精準的推薦算法。


今天的格物匯,就帶大家來了解關(guān)聯(lián)分析理論和經(jīng)典的Apriori算法。

關(guān)聯(lián)分析

關(guān)聯(lián)分析是數(shù)據(jù)挖掘中一項基礎(chǔ)又重要的技術(shù),是一種在大型數(shù)據(jù)庫中發(fā)現(xiàn)變量之間有趣關(guān)系的方法,能從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系?;蛘哒f,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。比如,在著名的購物籃事務(wù)(market basket transactions)問題中,用戶在超市里購物數(shù)據(jù)如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,雞蛋
3面包,尿布,啤酒,可樂
4牛奶,面包,尿布,啤酒
5牛奶,面包,可樂,雞蛋


關(guān)聯(lián)分析則被用來找出此類規(guī)則:顧客在買了某種商品時也會買另一種商品。在上述例子中,有的關(guān)聯(lián)規(guī)則是很容易理解的比如:{牛奶}→{面包},此外我們還會挖掘出另外的某些規(guī)則: {尿布} → {啤酒};即顧客在買完尿布之后通常會買啤酒。后來通過調(diào)查分析,原來妻子囑咐丈夫給孩子買尿布時,丈夫在買完尿布后通常會買自己喜歡的啤酒。


但是,如何衡量這種關(guān)聯(lián)規(guī)則是否靠譜呢?我們需要如下指標來衡量。


支持度和置信度

我們想找出這樣的規(guī)律需要從兩個方面考慮:這個規(guī)律中的兩個商品頻繁出現(xiàn),兩個商品關(guān)聯(lián)出現(xiàn)的概率較大。如果兩個商品不是頻繁出現(xiàn)的,那么有可能是小眾群體的個別需求。我們把兩個商品一起出現(xiàn)的概率稱為支持度。


如果有一個商品A出現(xiàn)的非常頻繁比如90%,而另一個商品B雖然跟A一起出現(xiàn)的概率很大,但是概率大的原因是A出現(xiàn)的太頻繁了,這也不能反映出其關(guān)聯(lián)關(guān)系,我們把A出現(xiàn)B則出現(xiàn)的條件概率稱為置信度

圖片 1.png


Apriori算法

Apriori算法就是為了快速的找到數(shù)據(jù)中關(guān)聯(lián)的頻繁集,我們用一個具體的案例來看看吧:假設(shè)我們有4種商品:商品0,商品1,商品2和商品3。那么所有可能被一起購買的商品組合都有哪些?這些商品組合可能只有一種商品,比如商品0,也可能包括兩種、三種或者所有四種商品。我們并不關(guān)心某人買了兩件商品0以及四件商品2的情況,我們只關(guān)心他購買了一種或多種商品。我們可以窮舉出該顧客購買商品所有可能的組合:


圖片 2.png


一個簡單粗暴的求解方法是:我們設(shè)定支持度和置信度的閾值——min_sup,min_cof,并算出每一個可能組合的支持度和置信度,把滿足要求的組合篩選出來。如果我們的商品很多,這個方法的計算量將呈指數(shù)的增長,是很難實現(xiàn)的。

定理:如果一個項集是頻繁的,那么其所有的子集(subsets)也一定是頻繁的。

這個定理顯而易見,假如{A,B,C}出現(xiàn)的概率大,那么{A,B},{C},出現(xiàn)的概率肯定也很大。這看上去沒什么用,其實它的逆反定理更有用。

逆反定理:如果一個項集是非頻繁的,那么其所有的超集(supersets)也一定是非頻繁的。

假如{A}出現(xiàn)的概率很小,那么{A,C},{A,B,C}出現(xiàn)的概率肯定也很小。根據(jù)這個逆反定理,我們可以排除很多不必要的計算。


圖片 3.png

比如我們發(fā)現(xiàn){2,3}是非頻繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非頻繁的。就可以大大減少我們計算的復(fù)雜度。


Apriori算法流程

Apriori算法的目標是找到最大的K項頻繁集,這里有兩層意思,首先,我們要找到符合支持度標準的頻繁集。但是這樣的頻繁集可能有很多。當然我們可以根據(jù)上面的逆反定理減少頻繁集的計算范圍,第二層意思就是我們要找到最大個數(shù)的頻繁集。比如我們找到符合支持度的頻繁集AB和ABE,那么我們會拋棄AB,只保留ABE,因為AB是2項頻繁集,而ABE是3項頻繁集。那么具體的,Apriori算法是如何做到挖掘K項頻繁集的呢?我們可以看下面這個圖:


圖片 4.png


Apriori算法采用了迭代的方法,線設(shè)定支持度的閾值0.5,先搜索出候選1項集及對應(yīng)的支持度C1,剪枝去掉低于支持度的1項集,也就是圖C1中的{4},得到頻繁1項集L1。然后對剩下的頻繁1項集進行連接,得到候選的頻繁2項集,篩選去掉低于支持度的候選頻繁2項集C2,也就是圖中C2的{1,2}和{1,5},得到真正的頻繁二項集L2,以此類推,迭代下去,直到無法找到頻繁k+1項集為止,對應(yīng)的頻繁k項集的集合即為算法的輸出結(jié)果。也就是用戶的購物籃中,商品2,商品3,商品5常常一起購買。

總而言之,Apriori算法是一個非常經(jīng)典的頻繁項集的挖掘算法,很多算法都借用了其算法的思想,并做出了改進,我們也將在格物匯之后的文章中進行分享。


本文作者:格創(chuàng)東智OT團隊(轉(zhuǎn)載請注明作者及來源)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    創(chuàng)智控激光焊縫跟蹤系統(tǒng)助力管道行業(yè)專機埋弧焊智能化升級

    在如今的工業(yè)制造領(lǐng)域,智能化和自動化成為提升效率和質(zhì)量的重要力量,管道行業(yè)作為基礎(chǔ)設(shè)施建設(shè)的重要組成部分,焊接的智能化升級是必不可少的。面對傳統(tǒng)埋弧焊中存在的諸多挑戰(zhàn),創(chuàng)智控自主研發(fā)的激光焊縫跟蹤
    的頭像 發(fā)表于 06-20 10:48 ?152次閱讀
    創(chuàng)<b class='flag-5'>想</b>智控激光焊縫跟蹤系統(tǒng)助力管道行業(yè)專機埋弧焊智能化升級

    存儲示波器的存儲深度對信號分析有什么影響?

    存儲深度(Memory Depth)是數(shù)字示波器的核心參數(shù)之一,它直接決定了示波器在單次采集過程中能夠記錄的采樣點數(shù)量。存儲深度對信號分析的影響貫穿時域細節(jié)捕捉、頻域分析精度、觸發(fā)穩(wěn)定
    發(fā)表于 05-27 14:39

    HarmonyOS5云服務(wù)技術(shù)分享--賬號關(guān)聯(lián)開發(fā)指南

    等)。 ? 關(guān)聯(lián)賬號的3種姿勢(附代碼) 1?? 關(guān)聯(lián)手機號 用戶已登錄其他方式(如郵箱),綁定手機號: import auth from \'@hw-agconnect/auth
    發(fā)表于 05-22 16:53

    想知道油箱在滿油,油和缺油時電路的變化分析

    想知道油箱在滿油,油和缺油時電路的變化分析
    發(fā)表于 04-09 23:01

    DLP6500調(diào)用API進行自主二次開發(fā),怎么構(gòu)建開發(fā)環(huán)境?

    請問一下,我購置了DLP6500型號產(chǎn)品,利用該產(chǎn)品進行開發(fā),實現(xiàn)高速投影的功能。 但是我現(xiàn)在只找到了GUI界面,請問一下,如果我調(diào)用API進行自主二次開發(fā),怎么構(gòu)建開發(fā)環(huán)境? 最好有相關(guān)的技術(shù)指導(dǎo)文件,謝謝。
    發(fā)表于 03-03 07:03

    DevEco Studio構(gòu)建分析工具Build Analyzer 為原生鴻蒙應(yīng)用開發(fā)提速

    Analyzer構(gòu)建分析工具,該工具可顯示編譯構(gòu)建過程的重要信息,可視化分析排查構(gòu)建過程中的性能問題,從而提升
    發(fā)表于 02-17 18:06

    模擬電路分析技巧

    在現(xiàn)代電子技術(shù)中,模擬電路扮演著至關(guān)重要的角色。它們不僅用于信號放大、濾波和轉(zhuǎn)換,還廣泛應(yīng)用于傳感器接口和功率管理等領(lǐng)域。掌握模擬電路分析技巧對于電子工程師來說是必不可少的。 1. 理解電路原理 在
    的頭像 發(fā)表于 01-24 09:24 ?759次閱讀

    混合信號分析儀的原理和應(yīng)用場景

    故障的原因和位置,提高故障排除的速度。 科研與教育:混合信號分析儀也是重要的實驗工具,可以幫助研究人員和學(xué)生深入了解電子信號的特性和分析方法,促進電子技術(shù)的發(fā)展和創(chuàng)新。 綜上所述,混合信號分析儀在電子測量領(lǐng)域具有廣泛的應(yīng)用價值和
    發(fā)表于 01-21 16:45

    VirtualLab:系統(tǒng)建模分析

    的大多數(shù)通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學(xué)工程師提供光場在系統(tǒng)中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發(fā)表于 01-14 09:45

    VirtualLab Fusion:系統(tǒng)建模分析

    的大多數(shù)通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學(xué)工程師提供光場在系統(tǒng)中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發(fā)表于 01-04 08:45

    VirtualLab:系統(tǒng)建模分析

    的大多數(shù)通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學(xué)工程師提供光場在系統(tǒng)中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發(fā)表于 12-19 12:36

    IP風險畫像詳細接入規(guī)范、API參數(shù)(Ipdatacloud)

    IP數(shù)據(jù)云的IP風險畫像是基于數(shù)據(jù)分析和機器學(xué)習技術(shù)的產(chǎn)品。工作原理是對IP地址的多維度數(shù)據(jù)進行綜合分析,進而為企業(yè)提供全面的IP風險評估和畫像。? IP風險
    的頭像 發(fā)表于 11-15 11:11 ?781次閱讀
    IP風險<b class='flag-5'>畫像</b>詳細接入規(guī)范、API參數(shù)(Ipdatacloud)

    IP風險畫像如何維護網(wǎng)絡(luò)安全

    在當今數(shù)字化時代,互聯(lián)網(wǎng)已成為我們生活、工作不可或缺的一部分。然而,隨著網(wǎng)絡(luò)應(yīng)用的日益廣泛,網(wǎng)絡(luò)安全問題也日益凸顯。為了有效應(yīng)對網(wǎng)絡(luò)安全挑戰(zhàn),IP風險畫像技術(shù)應(yīng)運而生,正逐步成為構(gòu)建網(wǎng)絡(luò)安全新防線
    的頭像 發(fā)表于 09-04 14:43 ?570次閱讀

    時序邏輯電路必不可少的部分是什么

    時序邏輯電路必不可少的部分是 存儲電路 ,這一結(jié)論主要基于時序邏輯電路的基本工作原理和特性。存儲電路在時序邏輯電路中扮演著至關(guān)重要的角色,它使得電路能夠存儲和記憶之前的狀態(tài)信息,并在需要時根據(jù)這些
    的頭像 發(fā)表于 08-28 14:12 ?991次閱讀

    混合冷卻在數(shù)據(jù)中心中仍將是必不可少的#混合冷卻

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月06日 06:58:06
    主站蜘蛛池模板: 久久www成人看片 | 五月婷婷婷婷婷 | 伊人yinren6综合网色狠狠 | 日韩啪啪网| 日韩亚洲欧洲在线com91tv | 四虎国产在线观看 | a中文字幕1区| 国产欧美亚洲精品第二区首页 | 68日本 xxxxxxxxx | 亚洲国产一区二区三区在线观看 | 康熙古代高h细节肉爽文全文 | jizz免费一区二区三区 | 婷婷六月激情在线综合激情 | 国产精品午夜国产小视频 | 国产亚洲综合一区 柠檬导航 | 欧美另类激情 | 天天射天天干天天操 | 国产香蕉在线精彩视频 | 久久这里只有精品免费视频 | 奇米影视久久 | 加勒比一区二区 | 日本不卡在线播放 | 国产成人在线影院 | 国产黄大片在线观看 | 美女张开大腿让男人桶 | abc119影院成人免费看 | 163黄页网又粗又长又舒服 | 国产精品永久免费 | 狠狠躁 | 欲色淫香| 精品国产成人三级在线观看 | 午夜网站在线播放 | 欧美三级黄色 | 上海一级毛片 | www.天天射| 日本人亚洲人成人 | 天天综合天天综合 | 久久riav国产精品 | 男啪女r18肉车文 | 福利片在线观看免费高清 | 国产精品久久福利网站 |