首页 | 本学科首页   官方微博 | 高级检索  
     检索      

局部文本特征选取算法的比较和改进研究
引用本文:李纲,夏晨曦,郑重.局部文本特征选取算法的比较和改进研究[J].情报学报,2008,27(4).
作者姓名:李纲  夏晨曦  郑重
作者单位:武汉大学信息资源研究中心,武汉,430072
摘    要:本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能.

关 键 词:文本分类  局部特征选择  互信息算法  χ2统计算法  优势率算法  K最近邻分类算法

A Comparative and Improving Study of Local Feature Selection Algorithms in Text Categorization
Li Gang,Xia Chenxi,Zheng Zhong.A Comparative and Improving Study of Local Feature Selection Algorithms in Text Categorization[J].Journal of the China Society for Scientific andTechnical Information,2008,27(4).
Authors:Li Gang  Xia Chenxi  Zheng Zhong
Institution:Li Gang Xia Chenxi Zheng Zhong (Center for Studies of Information Resources,Wuhan University,Wuhan 430072)
Abstract:In this paper,we evaluate three local text feature selection algorithms,including mutual information,X~2- statistic,and odds ratio.Our experiments found that local feature selection can remove more than 90% features with no significant decrease in text categorization performance,which validate the existed research result of global feature selection.And we also found that mutual information,and X~2-statistic perform better than odds ratio does when used in local feature selection mode. Meanwhile,the experime...
Keywords:text categorization  local feature selection  mutual information  X~2-statistic  odds ratio  K-nearest neighbor  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号