基于差異度的不均衡電信客戶數(shù)據(jù)分類方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)傳統(tǒng)分類技術(shù)對(duì)不均衡電信客戶數(shù)據(jù)集中流失客戶識(shí)別能力不足的問題,提出一種基于差異度的改進(jìn)型不均衡數(shù)據(jù)分類(IDBC)算法。該算法在基于差異度分類(DBC)算法的基礎(chǔ)上改進(jìn)了原型選擇策略。在原型選擇階段,利用改進(jìn)型的樣本子集優(yōu)化方法從整體數(shù)據(jù)集中選擇最具參考價(jià)值的原型集,從而避免了隨機(jī)選擇所帶來的不確定性;在分類階段,分別利用訓(xùn)練集和原型集、測(cè)試集和原型集樣本之間的差異性構(gòu)建相應(yīng)的特征空間,進(jìn)而采用傳統(tǒng)的分類預(yù)測(cè)算法對(duì)映射到相應(yīng)特征空間內(nèi)的差異度數(shù)據(jù)集進(jìn)行學(xué)習(xí)。最后選用了UCI數(shù)據(jù)庫中的電信客戶數(shù)據(jù)集和另外6個(gè)普通的不均衡數(shù)據(jù)集對(duì)該算法進(jìn)行驗(yàn)證,相對(duì)于傳統(tǒng)基于特征的不均衡數(shù)據(jù)分類算法,DBC算法對(duì)稀有類的識(shí)別率平均提高了8. 3%,IDBC算法對(duì)稀有類的識(shí)別率平均提高了11. 3%。實(shí)驗(yàn)結(jié)果表明,所提IDBC算法不受類別分布的影響,而且對(duì)不均衡數(shù)據(jù)集中稀有類的識(shí)別能力優(yōu)于已有的先進(jìn)分類技術(shù)。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于差異度的不均衡電信客戶數(shù)據(jù)分類方法下載
相關(guān)電子資料下載
- TDengine+OpenVINO+AIxBoard助力時(shí)序數(shù)據(jù)分類 421
- 心中有“數(shù)”,Commvault助力企業(yè)主動(dòng)保護(hù)數(shù)據(jù) 384
- 美創(chuàng)暗數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)分類分級(jí)系統(tǒng)全新升級(jí) 244
- 英諾森參編的行業(yè)標(biāo)準(zhǔn)《數(shù)字化倉庫數(shù)據(jù)分類與接口規(guī)范》召開預(yù)審會(huì) 258
- 新的量子數(shù)據(jù)分類協(xié)議將使我們更加的接近量子互聯(lián)網(wǎng) 3207
- 基于CNN的大規(guī)模可穿戴傳感器運(yùn)動(dòng)數(shù)據(jù)分類 1816
- 導(dǎo)致非平衡數(shù)據(jù)分類性能下降的原因及解決方案的分析 2738