首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于统计频率的文本分类特征选择算法研究*
引用本文:张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J].现代图书情报技术,2008,24(11):44-48.
作者姓名:张俊丽  赵乃瑄  冯君
作者单位:南京工业大学图书馆,南京,210009
基金项目:江苏省教育厅高校哲学社会科学基金 
摘    要:通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。

关 键 词:文本分类  特征选择  KNN  χ2统计量
收稿时间:2008-08-13
修稿时间:2008-09-10

A Feature Selection Method for Text Classification Based on Statistical Frequency
Zhang Junli,Zhao Naixuan,Feng Jun.A Feature Selection Method for Text Classification Based on Statistical Frequency[J].New Technology of Library and Information Service,2008,24(11):44-48.
Authors:Zhang Junli  Zhao Naixuan  Feng Jun
Institution:(Library of Nanjing University of Technology, Nanjing 210009, China)
Abstract:This paper analyzes Chi-square algorithm(CHI),which is unreliable for low-document frequency,and can't show the pertinence for term and classification.A new Statistical Frequency algorithm(SF) is proposed according to the chief shortcomings.The experiments of the SF algorithm is validated by comparison,the results show that improved algorithm performs better.
Keywords:Text categorization Feature selection KNN Chi-square
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号