基于Document Triage的TF-IDF算法
大小:0.93 MB 人氣: 2017-12-27 需要積分:2
標簽:
針對TF-IDF算法在加權時沒有考慮特征詞本身在文檔中重要度的問題,提出利用用戶閱讀時的閱讀行為來改進TF-IDF。將Document Triage引入到TF-IDF中,利用IPM收集用戶閱讀中行為的相關信息,計算文檔評分。由于用戶的標注內容往往是文章的重要內容,或者反映了用戶的興趣。因此,賦予用戶標注詞項更大的權重,將文檔評分和用戶的標注信息等作為因子引入到TF-IDF中,設計出改進的加權算法DT-TF-IDF。實驗結果表明,相對傳統TF-IDF算法,DT-TF-IDF的查全率、查準率,以及查準率和查全率的調和均值都有了一定的提高。DT-TF-IDF算法比傳統TF-IDF算法更加有效,提高了文本相似度計算的準確性。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%