一、用戶畫像—計(jì)算用戶偏好標(biāo)簽
下面介紹如何計(jì)算用戶的偏好標(biāo)簽。
在上一篇寫用戶畫像的文章 “用戶畫像—打用戶行為標(biāo)簽”中,主要講了如何對(duì)用戶的每一次操作行為、業(yè)務(wù)行為進(jìn)行記錄打上相應(yīng)的標(biāo)簽。在這篇博客中,主要講如何對(duì)這些明細(xì)標(biāo)簽進(jìn)行計(jì)算以及偏好的產(chǎn)品、內(nèi)容的類目。
關(guān)于用戶標(biāo)簽權(quán)重的計(jì)算,在這篇文章里面講過(guò)了:
用戶畫像之標(biāo)簽權(quán)重算法
這里再詳細(xì)介紹一下:
用戶標(biāo)簽權(quán)重 = 行為類型權(quán)重 × 時(shí)間衰減 × 用戶行為次數(shù) × TF-IDF計(jì)算標(biāo)簽權(quán)重
公式中各參數(shù)的釋義如下:
行為類型權(quán)重:用戶瀏覽、搜索、收藏、下單、購(gòu)買等不同行為對(duì)用戶而言有著不同的重要性,一般而言操作復(fù)雜度越高的行為權(quán)重越大。該權(quán)重值一般由運(yùn)營(yíng)人員或數(shù)據(jù)分析人員主觀給出;
時(shí)間衰減:用戶某些行為受時(shí)間影響不斷減弱,行為時(shí)間距現(xiàn)在越遠(yuǎn),該行為對(duì)用戶當(dāng)前來(lái)說(shuō)的意義越小;
行為次數(shù):用戶標(biāo)簽權(quán)重按天統(tǒng)計(jì),用戶某天與該標(biāo)簽產(chǎn)生的行為次數(shù)越多,該標(biāo)簽對(duì)用戶的影響越大;
TF-IDF計(jì)算標(biāo)簽權(quán)重:每個(gè)標(biāo)簽的對(duì)用戶的重要性及該標(biāo)簽在全體標(biāo)簽中重要性的乘積得出每個(gè)標(biāo)簽的客觀權(quán)重值;
為計(jì)算用戶偏好標(biāo)簽,需要在用戶行為標(biāo)簽的基礎(chǔ)上計(jì)算用戶行為標(biāo)簽對(duì)應(yīng)的權(quán)重值,而后對(duì)同類標(biāo)簽做權(quán)重匯總,算出用戶偏好的標(biāo)簽。關(guān)于用戶行為標(biāo)簽如何打,在這篇博客里面有介紹過(guò)了
用戶畫像—打用戶行為標(biāo)簽
下面介紹如何在用戶行為標(biāo)簽表的基礎(chǔ)上加工用戶偏好標(biāo)簽:
1、用戶標(biāo)簽權(quán)重表結(jié)構(gòu)設(shè)計(jì)
字段定義:
用戶id(user_id):用戶唯一id;
標(biāo)簽id(tag_id):圖書id;
標(biāo)簽名稱(tag_name):圖書名稱;
用戶行為次數(shù)(cnt):用戶當(dāng)日產(chǎn)生該標(biāo)簽的次數(shù),如用戶當(dāng)日瀏覽一本圖書4次,則記錄4;
行為日期(date_id):產(chǎn)生該條標(biāo)簽對(duì)應(yīng)日期;
標(biāo)簽類型(tag_type_id):在本案例中通過(guò)與圖書類型表相關(guān)聯(lián),取出每本圖書對(duì)應(yīng)的類型,如《鋼鐵是怎么煉成的》對(duì)應(yīng)“名著”;
用戶行為類型(act_type_id):即用戶的購(gòu)買、瀏覽、評(píng)論等操作行為,在本例中通過(guò)預(yù)設(shè)數(shù)值1~7來(lái)定義用戶對(duì)應(yīng)的行為類型。1:購(gòu)買行為,2:瀏覽行為,3:評(píng)論行為,4:收藏行為,5:取消收藏行為,6:加入購(gòu)物車行為,7:搜索行為;
2、在用戶行為標(biāo)簽基礎(chǔ)上加工權(quán)重表
加工標(biāo)簽權(quán)重表時(shí),需要根據(jù)用戶不同行為對(duì)應(yīng)的權(quán)重建立一個(gè)權(quán)重維表:
向維表中插入數(shù)據(jù):
3、對(duì)每個(gè)用戶偏好的每個(gè)標(biāo)簽加總求權(quán)重值,對(duì)權(quán)重值做倒排序,取top N
二、用戶畫像—數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計(jì)
本段文章介紹一下畫像中需要開(kāi)發(fā)的數(shù)據(jù)指標(biāo)與開(kāi)發(fā)過(guò)程中表結(jié)構(gòu)的設(shè)計(jì)。
首先介紹畫像開(kāi)發(fā)的數(shù)據(jù)指標(biāo),畫像開(kāi)發(fā)過(guò)程中通用類的指標(biāo)體系包括用戶屬性類、用戶行為標(biāo)簽類、用戶活躍時(shí)間段類、用戶消費(fèi)能力類、用戶偏好類等
數(shù)據(jù)指標(biāo)體系
用戶屬性指標(biāo)
用戶屬性指標(biāo)根據(jù)業(yè)務(wù)數(shù)據(jù)來(lái)源,盡可能全面地描述用戶基礎(chǔ)屬性,這些基礎(chǔ)屬性值是短期內(nèi)不會(huì)有改變的。如年齡、性別、手機(jī)號(hào)歸屬地、身份證歸屬地等
用戶登錄活躍指標(biāo)
看用戶近期登錄時(shí)間段、登錄時(shí)長(zhǎng)、登錄頻次、常登陸地等指標(biāo)
用戶消費(fèi)能力指標(biāo)
看用戶的消費(fèi)金額、消費(fèi)頻次、最近消費(fèi)時(shí)間。進(jìn)一步結(jié)合用戶登錄活躍情況,可以對(duì)用戶做RFM分層。
用戶流失層級(jí)
根據(jù)用戶的活躍度及消費(fèi)情況,判斷用戶的流失意向。可及時(shí)對(duì)有流失趨向的用戶做營(yíng)銷召回
用戶年齡段劃分
在做營(yíng)銷活動(dòng)或站內(nèi)推送時(shí),可對(duì)不同年齡段做針對(duì)性運(yùn)營(yíng)
用戶行為標(biāo)簽
記錄用戶在平臺(tái)上每一次操作行為,及該次行為所帶來(lái)的標(biāo)簽。后續(xù)可根據(jù)用戶的行為標(biāo)簽計(jì)算用戶的偏好標(biāo)簽,做推薦和營(yíng)銷等活動(dòng)
表結(jié)構(gòu)設(shè)計(jì)
對(duì)于畫像數(shù)據(jù)的存儲(chǔ),除了用戶屬性這種基本上短期不會(huì)有變化的數(shù)據(jù),其他相關(guān)數(shù)據(jù)的更新頻率一般都比較高,為周更新或日更新
畫像數(shù)據(jù)更新較為頻繁,通常使用分區(qū)來(lái)將數(shù)據(jù)從物理上轉(zhuǎn)移到離用戶最近的地方。
一般對(duì)日期字段進(jìn)行分區(qū),當(dāng)然事實(shí)上分區(qū)是為了優(yōu)化查詢性能,否則使用數(shù)據(jù)的用戶也不需要關(guān)注這些字段是否分區(qū)。
例如說(shuō)創(chuàng)建一個(gè)用戶行為標(biāo)簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);
分區(qū)表改變了Hive對(duì)數(shù)據(jù)的存儲(chǔ)方式,如果沒(méi)做分區(qū),創(chuàng)建的這個(gè)表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile
創(chuàng)建日期分區(qū)后,Hive可以更好地反映分區(qū)結(jié)構(gòu)子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'
在userprofile表下面,每個(gè)日期分區(qū)的數(shù)據(jù)可以存儲(chǔ)截止到當(dāng)日的全量歷史數(shù)據(jù),方便使用者查找。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1469瀏覽量
34670 -
標(biāo)簽
+關(guān)注
關(guān)注
0文章
142瀏覽量
18128
原文標(biāo)題:用戶畫像—計(jì)算用戶偏好標(biāo)簽及數(shù)據(jù)指標(biāo)與表結(jié)構(gòu)設(shè)計(jì)
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于偏好不一致熵的偏好決策方法
基于用戶QoS偏好的WEB服務(wù)灰色關(guān)聯(lián)分析方法
面向評(píng)分?jǐn)?shù)據(jù)中用戶偏好發(fā)現(xiàn)的隱變量模型構(gòu)建

基于偏好矩陣遺傳算法求解長(zhǎng)期車輛合乘問(wèn)題
基于用戶偏好的隨機(jī)游走模型

基于用戶行為偏好的服務(wù)選擇策略

從偏好數(shù)據(jù)庫(kù)中挖掘Ceteris Paribus偏好

基于時(shí)間衰減協(xié)同偏好獲取方法
基于用戶偏好的協(xié)同過(guò)濾算法
基于標(biāo)簽主題的協(xié)同過(guò)濾推薦算法研究

什么是用戶畫像?用戶畫像的四階段
內(nèi)容中心網(wǎng)絡(luò)中基于用戶偏好的協(xié)作緩存策略

一種基于用戶偏好的權(quán)重搜索及告警選擇方法

評(píng)論