基于Document Triage的TF-IDF算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)TF-IDF算法在加權(quán)時(shí)沒(méi)有考慮特征詞本身在文檔中重要度的問(wèn)題,提出利用用戶閱讀時(shí)的閱讀行為來(lái)改進(jìn)TF-IDF。將Document Triage引入到TF-IDF中,利用IPM收集用戶閱讀中行為的相關(guān)信息,計(jì)算文檔評(píng)分。由于用戶的標(biāo)注內(nèi)容往往是文章的重要內(nèi)容,或者反映了用戶的興趣。因此,賦予用戶標(biāo)注詞項(xiàng)更大的權(quán)重,將文檔評(píng)分和用戶的標(biāo)注信息等作為因子引入到TF-IDF中,設(shè)計(jì)出改進(jìn)的加權(quán)算法DT-TF-IDF。實(shí)驗(yàn)結(jié)果表明,相對(duì)傳統(tǒng)TF-IDF算法,DT-TF-IDF的查全率、查準(zhǔn)率,以及查準(zhǔn)率和查全率的調(diào)和均值都有了一定的提高。DT-TF-IDF算法比傳統(tǒng)TF-IDF算法更加有效,提高了文本相似度計(jì)算的準(zhǔn)確性。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%