在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

基于詞頻信息的改進(jìn)的IG文本特征選擇算法

大小:0.56 MB 人氣: 2018-01-25 需要積分:2

  向量空間的高維性和文檔表示向量的稀疏性不但增加了分類的時間復(fù)雜度和空間復(fù)雜度,而且還大大影響到分類的精度,因此,特征選擇顯得特別重要。目前,文本分類研究中常用的特征選擇算法主要有:文檔頻度、互信息、信息增益、開方擬合檢驗、期望交叉熵、特征權(quán)和文本證據(jù)權(quán)等。Ng等比較了文檔頻率( Document Frequency,DF)、信息增益(Information Cain,IG)、互信息(Mutual Information,MI)、開方擬合檢驗(X2 -test,CHI)和特征權(quán)(Term Strength,TS)五種特征選擇算法,得出IC、DF和CHI比MI和TS效果好的結(jié)論。Yang等研究得出IC是最有效的特征選擇算法之一的結(jié)論。目前IC已成為文本分類研究中常用的特征選擇算法。因此,尋找該方法中的不足,并針對不足作出有效的改進(jìn),提高特征提取的效率具有非常重要的現(xiàn)實意義。

  近年來,一些學(xué)者針對IG算法的不足作了一些改進(jìn)工作。李文斌等提出了三種基于特征信息增益權(quán)重的分類算法,通過添加權(quán)重系數(shù)來平衡“正貢獻(xiàn)”和“負(fù)貢獻(xiàn)”的特征項對分類的影響,但是由于權(quán)重系數(shù)的設(shè)置是根據(jù)人為的經(jīng)驗設(shè)定.所以存在很大的偶然性,且不適用于各種情形。黃秀麗等針對傳統(tǒng)IC算法過分看重高頻特征項的缺點,提出一種強(qiáng)調(diào)中低頻特征項的改進(jìn)的算法SIC,此算法在一定程度上提高了特征選擇的效率,但算法中沒有考慮到特征項在不同類別的分布差異對分類能力的影響。郭頌等在以上改進(jìn)算法的基礎(chǔ)上,通過引入特征分布差異因子、類內(nèi)和類間加權(quán)因子,提出一種加權(quán)的IC改進(jìn)算法,該方法比較全面地考慮到了詞頻對特征提取的作用,但此算法沒有考慮到特征項在類內(nèi)位置上分布對算法的影響。本文針對上述改進(jìn)算法的不足之處,充分考慮特征項頻數(shù)對分類能力的作用,提出一種基于詞頻的改進(jìn)的IC特征選擇算法。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?
      主站蜘蛛池模板: 国产精品成人四虎免费视频 | 天天干天天曰天天操 | 欧美乱妇15p| 在线亚洲国产精品区 | 日本a级精品一区二区三区 日本a级特黄三级三级三级 | 猫色网站| 日本在线看小视频网址 | 888米奇色狠狠俺去啦 | 夜夜狠狠操 | 末满18以下勿进色禁网站 | 久久国产午夜精品理论片34页 | 中国黄色一级毛片 | 免费一级特黄特色黄大任片 | 国产午夜精品一区二区理论影院 | 国产美女在线精品免费观看 | 日本丝瓜着色视频 | 免费人成a大片在线观看动漫 | 最黄毛片 | 2018天天夜夜 | 四虎影视国产精品 | 农村妇女高清毛片一级 | 亚洲精品成人网 | 免费国产高清精品一区在线 | 亚洲国产精品网站久久 | 国产视频分类 | 香蕉视频色版在线观看 | 狠狠操狠狠干 | 白嫩美女一级高清毛片免费看 | 色www亚洲国产张柏芝 | 99久久99久久精品国产 | 一区二区三区视频在线 | 国产精品久久永久免费 | 成人国产精品毛片 | 婷婷亚洲综合五月天小说在线 | 夜夜艹日日干 | 亚洲第一免费播放区 | 国产免费高清在线精品一区 | 国产精品视频久久久久 | 亚洲午夜精品久久久久久成年 | 午夜日韩精品 | 国产精品久久永久免费 |