在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提供全域數(shù)據(jù)與服務的畫像標簽體系

數(shù)據(jù)分析與開發(fā) ? 來源:一個數(shù)據(jù)人的自留地 ? 作者:一個數(shù)據(jù)人的自留 ? 2021-04-01 09:59 ? 次閱讀

阿里

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價值,阿里設計了OneEntity來提供全域數(shù)據(jù)與服務。OneEntity體系主要包含統(tǒng)一實體、全域標簽、全域關系、全域行為4大類。

894b45a6-9247-11eb-8b86-12bb97331649.png

01

標簽分類

其中GProfile全域標簽的分類,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

-自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發(fā)生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。

-社會屬性:指人在實踐活動基礎上產(chǎn)生的一切社會關系的總和。人一旦進入社會就會產(chǎn)生社會屬性。例如經(jīng)濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費偏好。

-興趣偏好:是人堆非物化對象的內在心理向往與外在行為表達,是一種法子內心的本能喜好,與物質無必然關系。例如渴望愛情、需要安全感、討厭臟亂環(huán)境等。

-行為消費偏好:是人對物化對象的需求與外在行為表達,涉及各行業(yè),與物質世界存在千絲萬縷的聯(lián)系。例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護行業(yè)偏好、家裝行業(yè)偏好等。

在以上四大類的基礎上,我們又嘗試根據(jù)不同的業(yè)務形態(tài)進一步細分二級、三級分類。

02

標簽萃取

標簽的萃取工作包含:數(shù)據(jù)采集;清洗,去噪聲并統(tǒng)一;反復試用并確定最佳算法及模型;為模型選擇計算因子并對模型中的每一個計算因子調配權重;產(chǎn)出標簽質量評估報告以輔助驗收。

我們隨機抽查了若干個在用的標簽,預估工作量和工作周期,一個有價值的標簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復雜,每個標簽萃取都依賴底層的基礎數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);二是大量重復的人力,對應的標簽萃取邏輯時可以復用的,包含算法的選擇、模型訓練和計算因子的加權等,但由于不同人來做,造成了很多重復工作。

標簽萃取過程復雜,那有什么可以參考的流程呢?

89b4ccf6-9247-11eb-8b86-12bb97331649.png

首先,數(shù)據(jù)源層面:建設一套完整的數(shù)據(jù)源,以OneEntity體系為核心,將OneEntity相關實體及其行為全部串聯(lián)起來,與存量的標簽一起作為數(shù)據(jù)源。

其次,標簽計算層面:將標簽萃取邏輯沉淀為2種,分別對應到偏好類標簽和分類預測類標簽的工具型產(chǎn)品的生產(chǎn)過程中,包含計算因子、權重等業(yè)務規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。

最后,標簽監(jiān)測層面:沉淀質量評估報告和生產(chǎn)監(jiān)測、上線等管理流程。

當一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個同類型標簽只需要2天左右,這是因為在補足數(shù)據(jù)源、確定業(yè)務規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過程中,減少了大量的代碼開發(fā)與模型訓練的工作。

在這個過程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉工程師、數(shù)據(jù)科學家為主導,轉變?yōu)閷I(yè)務更為熟悉的業(yè)務人員、數(shù)據(jù)分析師為主導。

2

網(wǎng)易

網(wǎng)易大數(shù)據(jù)融合用戶娛樂、電商購物、教育、新聞資訊、通訊等多行業(yè)10+產(chǎn)品線,構建起全域用戶畫像數(shù)據(jù),目前總標簽1000+,ID量URS、phone、idfa、IMEI、oaid等均達到憶級。

01

標簽分類

1.基礎標簽:

性別、年齡、教育背景、生活習慣(早起晚起)、地理位置(POI信息)、職業(yè)狀況、經(jīng)濟情況(有車有房)、設備信息(手機、運營商等)、會員信息(會員等級)、衍生信息。

其中衍生標簽,如評估是否已婚,在原由標簽體系下沒有此類標簽,但可通過多個標簽進行組合生成新的標簽,包含是否有小孩、30歲等條件組合。

89c4214c-9247-11eb-8b86-12bb97331649.jpg

2. 行為標簽

包含地域、廣告、搜過、播放、點擊、評論、關注、收藏、購買等維度。

3. 偏好標簽

包含出行購物、手機數(shù)碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、游戲競技、動漫影視、明星藝人等維度

4. 預測標簽

包含利用算法進行預測生成的標簽,包含是否出行、是否買車等標簽。

注意:

1. 標簽的枚舉值十分重要,業(yè)務分析過程中很容易出現(xiàn)枚舉值的偏差,不符合實際業(yè)務邏輯

2. 注意標簽之間的沖突,如年齡15歲,學歷卻是博士或者有小孩

02

標簽計算

預測類標簽案例:性別,主要包含三種方案:

1. 標簽傳播:根據(jù)用戶在各個業(yè)務場景,如母嬰商品點擊行為,進行item標記,構建user-item的興趣網(wǎng)絡進行 Graph Embedding,最后進行分類,預測用戶的性別。

2. 語義分析:利用NLP算法對用戶昵稱進行語義分析

3. 自行填寫:利用業(yè)務屬性自行填寫的內容進行判斷,此處需對數(shù)據(jù)質量進行過濾,排除如生日為1990-01-01的參數(shù)異常值信息。

89d8dccc-9247-11eb-8b86-12bb97331649.jpg

基于上述三類算法特征結果集,對模型進行融合,然后對用戶的性別進行預測,其準確率在0.6以上。

注意:需要突破的地方在于特征的稀疏性,因為ID-mapping打通后,數(shù)據(jù)覆蓋率僅20%左右,嚴重影響了模型的整體效果。

3

汽車之家

用戶畫像的構建就是把用戶標簽分列到不同的類里面,這些類都是什么,彼此之間的聯(lián)系,就構成了標簽體系。

01

按用途分類

1.人口屬性:用戶自然屬性、用戶會員、用戶所屬年代、用戶價值登記、是否增換購用戶、用戶分群、UVN-B用戶分群、用戶分層、用戶流失預警

89e2b422-9247-11eb-8b86-12bb97331649.png

2.網(wǎng)絡屬性:用戶APP設備信息、用戶PC設備信息、用戶活躍時段、用戶平臺偏好、用戶活躍類型

3.內容興趣偏好:業(yè)務類型偏好、內容分類標簽、用戶關注作者偏好、用戶產(chǎn)品偏好、用戶顯式負反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目

4.車興趣偏好 :用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購車意向、用戶新舊偏好、用戶購車階段、用戶有車標簽、用戶興趣集中度、用戶能源偏好、用戶生產(chǎn)方式偏好

5.金融畫像:分期購車意向度、用戶購買力、二手車用戶購買力、用戶汽車價格偏好、用戶經(jīng)濟屬性、增換購用戶預測線索

6.場景畫像:用戶地理位置

02

按統(tǒng)計方式分類

1.統(tǒng)計類標簽

統(tǒng)計類標簽,通過業(yè)務規(guī)則,將業(yè)務問題轉化為數(shù)據(jù)口徑實現(xiàn)。如收藏列表、 搜索關鍵詞、保險到期時間、是否下過線索、30天內訪問xx次等。

2.興趣類標簽

興趣類標簽,基于興趣遷移模型構建用戶標簽。綜合考慮特征、特征權重、距今時間、行為次數(shù)等因素,用戶興趣標簽構建公式如下:

用戶興趣標簽=行為類型權重*時間衰減*行為次數(shù)

-特征:需要結合業(yè)務選擇,如瀏覽、搜索、線索、對比、互動、點擊、有車等行為。

-權重:用戶在平臺上發(fā)生的行為具體到用戶標簽層面有著不同的行為權重,一般而言,行為發(fā)生的成本越高,權重越大。可以由業(yè)務人員確定,也可以采用TF-IDF技術分析得出。

-時間衰減:用戶行為收時間的影響不斷衰減,距離現(xiàn)在越遠,對用戶興趣的影響越低,這里采用牛頓冷卻定律的思想擬合衰減系數(shù),衰減周期結合業(yè)務制定。

-行為次數(shù):在固定時間周期內行為發(fā)生的次數(shù)越多,興趣傾向越重。

3.模型類標簽

基于機器學習方法進行數(shù)據(jù)建模預測用戶的標簽,這類標簽在標簽體系中占比較少,其實現(xiàn)難度高,開發(fā)成本高。

例如:

-是否有車:基于RF+LR模型實現(xiàn)

-常駐地:基于GPS聚類獲取,采用DBSCAN

-購車轉化:GBDT

-用戶分群:KMENAS聚類產(chǎn)生

03

按時效分類

從數(shù)據(jù)時效上,可分為離線畫像和實時畫像。離線與實時采用的構建思想相同,不同之處在于:

-離線畫像:描述用戶長期的習慣;

-實時畫像:描述用戶當下的興趣,會隨時間的改變而發(fā)生變更;

總結

各大公司的標簽分類不同,現(xiàn)市面上有三種常用的標簽分類方式,按用途分類,可分為基礎信息、用戶行為、業(yè)務偏好、場景標簽;按統(tǒng)計方式分類,可分為事實類標簽、規(guī)則類標簽、預測類標簽;按時效分類,可分為靜態(tài)標簽、動態(tài)標簽。

原文標題:干貨:阿里/網(wǎng)易/汽車之家畫像標簽體系

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7246

    瀏覽量

    91179
  • 機器學習
    +關注

    關注

    66

    文章

    8493

    瀏覽量

    134170

原文標題:干貨:阿里/網(wǎng)易/汽車之家畫像標簽體系

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    華為攜手國家信息中心推進智慧城市全域數(shù)字化轉型

    第八屆數(shù)字中國建設峰會期間,華為與國家信息中心舉行“城市一張網(wǎng):可信數(shù)據(jù)空間聯(lián)接底座” 聯(lián)合研究項目簽約儀式,旨在通過研究城市可信數(shù)據(jù)空間聯(lián)接的目標架構、運營機制、生態(tài)體系等,加速數(shù)據(jù)
    的頭像 發(fā)表于 05-28 15:05 ?326次閱讀

    NXP eIQ Time Series Studio 工具使用攻略(九)-數(shù)據(jù)標簽

    其中"Data Labeling",數(shù)據(jù)標簽工具使用戶能夠通過可視化界面將相應的數(shù)據(jù)標簽(如電弧或無電弧)應用于當前數(shù)據(jù)圖形的不同部分,從而
    的頭像 發(fā)表于 05-22 09:51 ?586次閱讀
    NXP eIQ Time Series Studio 工具使用攻略(九)-<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標簽</b>

    蔡司《全域質控指南》發(fā)布,點擊領取

    蔡司《全域質控指南》重磅發(fā)布,深度整合創(chuàng)新質量產(chǎn)品及方案,應對從研發(fā)到交付的關鍵質量挑戰(zhàn),并整合多個行業(yè)頭部企業(yè)成功案例,引領革新,點擊【立即領取】
    發(fā)表于 05-21 14:07 ?780次閱讀
    蔡司《<b class='flag-5'>全域</b>質控指南》發(fā)布,點擊領取

    廣汽集團發(fā)布星靈安全守護體系

    近日,2025廣汽科技日暨昊鉑HL上市發(fā)布會在廣州舉行。廣汽集團聚焦“安全”主題,首次公開“廣汽星靈安全守護體系”,在智能化時代以全鏈路的安全研發(fā)體系全域安全技術和全時安全保障,樹立智能汽車安全新標桿。
    的頭像 發(fā)表于 04-14 16:00 ?286次閱讀

    華為攜手合作伙伴加速城市全域數(shù)字化轉型

    華為中國合作伙伴大會2025期間,在“數(shù)智賦能城市全域數(shù)字化轉型”論壇上,華為與客戶、伙伴和專家圍繞城市智能體架構、城市智能中樞、數(shù)據(jù)要素等重點領域,共話政務與城市數(shù)字化發(fā)展趨勢并分享實踐經(jīng)驗。會上
    的頭像 發(fā)表于 03-31 09:20 ?392次閱讀

    部署在線論壇網(wǎng)站 Flarum

    一、Flexus 云服務器 X 實例介紹 云服務器是數(shù)字化時代的強大助力。它依托云計算技術,提供高效穩(wěn)定的計算資源。可隨時調整配置,靈活應對業(yè)務變化。安全可靠的數(shù)據(jù)存儲,讓你無需擔憂。
    的頭像 發(fā)表于 01-17 09:19 ?806次閱讀
    部署在線論壇網(wǎng)站 Flarum

    維智科技提供時空數(shù)據(jù)治理服務

    城市作為一個最具價值的超大綜合體,在推進全域數(shù)字化轉型的過程中,會產(chǎn)生大量的時空數(shù)據(jù)
    的頭像 發(fā)表于 01-14 09:25 ?393次閱讀

    有方科技參加中國信通院城市全域數(shù)字化轉型分論壇

    有方科技參加城市全域數(shù)字化轉型分論壇并做《創(chuàng)新物聯(lián)感知體系 助力城市全域數(shù)字化轉型》主題演講,分享在城市數(shù)字化轉型中物聯(lián)感知體系建設的創(chuàng)新方法與實踐經(jīng)驗,與各界與會者共同探討城市
    的頭像 發(fā)表于 12-25 16:09 ?478次閱讀

    IP風險畫像詳細接入規(guī)范、API參數(shù)(Ipdatacloud)

    IP數(shù)據(jù)云的IP風險畫像是基于數(shù)據(jù)分析和機器學習技術的產(chǎn)品。工作原理是對IP地址的多維度數(shù)據(jù)進行綜合分析,進而為企業(yè)提供全面的IP風險評估和
    的頭像 發(fā)表于 11-15 11:11 ?738次閱讀
    IP風險<b class='flag-5'>畫像</b>詳細接入規(guī)范、API參數(shù)(Ipdatacloud)

    華為云全域 Serverless 8 月更新盤點

    【摘要】 近年來,華為云持續(xù)構筑全域 Serverless 云服務,推出了一系列競爭力領先的 Serverless 產(chǎn)品,包括函數(shù)工作流 FunctionGraph、Serverless 容器引擎
    的頭像 發(fā)表于 09-27 00:06 ?1132次閱讀
    華為云<b class='flag-5'>全域</b> Serverless 8 月更新盤點

    軟通動力數(shù)據(jù)庫全棧服務,助力企業(yè)數(shù)據(jù)體系全面升級

    。在企業(yè)節(jié)與"數(shù)博會"展區(qū),軟通動力受邀分享數(shù)據(jù)庫專業(yè)服務全棧解決方案,并重點展示以全棧云服務為核心的數(shù)智化能力。 軟通動力高級數(shù)據(jù)服務
    的頭像 發(fā)表于 09-05 15:30 ?535次閱讀
    軟通動力<b class='flag-5'>數(shù)據(jù)</b>庫全棧<b class='flag-5'>服務</b>,助力企業(yè)<b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>體系</b>全面升級

    IP風險畫像如何維護網(wǎng)絡安全

    的重要工具。 什么是IP風險畫像? IP風險畫像是一種基于大數(shù)據(jù)分析和機器學習技術的網(wǎng)絡安全管理工具。它通過對IP地址的網(wǎng)絡行為、流量特征、歷史記錄等多維度數(shù)據(jù)進行深入分析,構建出每個
    的頭像 發(fā)表于 09-04 14:43 ?542次閱讀

    服務提供商數(shù)據(jù)在精確定位中的應用

    我們在網(wǎng)絡連接和數(shù)據(jù)傳輸時通過利用ISP提供數(shù)據(jù),可以實現(xiàn)對用戶和設備的精確定位。接下來我將就ISP數(shù)據(jù)在精確定位中的應用進行闡述。 ISP數(shù)據(jù)
    的頭像 發(fā)表于 07-18 11:18 ?582次閱讀

    服務體驗-服務發(fā)現(xiàn)

    :用戶在 HarmonyOS Connect標簽的支持下,用戶也可以通過碰一碰、靠近或掃一掃該標簽,發(fā)現(xiàn)并使用元服務。 本材料整理來源于HarmonyOS NEXT Developer Beta1
    發(fā)表于 07-15 17:02

    云安全服務體系由哪五部分組成

    云安全服務體系是一個復雜的系統(tǒng),它包括多個組成部分,以確保云環(huán)境中的數(shù)據(jù)和應用程序的安全。以下是云安全服務體系的五個主要部分: 云安全策略和合規(guī)性 云安全策略是確保云環(huán)境安全的基石。這包括定義安全
    的頭像 發(fā)表于 07-02 09:24 ?858次閱讀
    主站蜘蛛池模板: 精品特级毛片 | 午夜免费啪在线观看视频网站 | 国产人人爱 | 操干| 天天摸夜夜摸夜夜狠狠摸 | 色涩网站在线观看 | julia一区二区三区中文字幕 | 欧美黄又粗暴一进一出抽搐 | aaaaa国产毛片 | yy4080午夜理论一级毛片 | 特黄黄三级视频在线观看 | 日韩种子 | 久久99国产亚洲高清观看首页 | 欧美成人aaaa免费高清 | 五月天婷婷电影 | 色婷婷成人网 | 欧美成人午夜毛片免费影院 | 人人看操 | 韩国三级理在线视频观看 | 干干人人 | 狠狠干b | 色佬网| 婷婷爱五月 | 久久久久久久久久久观看 | abc欧美成人影院 | 欧美视频xxxxx | www色.com| 欧美美女福利视频 | 一级日本高清视频免费观看 | 91视频-88av| 国产拍拍拍免费视频网站 | 免费一级在线 | 四虎永久在线精品免费观看地址 | 在线天堂资源www中文在线 | 在线成人免费 | 麦克斯奥特曼免费观看 | 天天干天天干天天天天天天爽 | 日日久 | 手机看片福利1024 | 成人ww| 永久免费观看黄网站 |