首页 | 本学科首页   官方微博 | 高级检索  
     检索      

统计频率算法在文本信息过滤系统中的应用
引用本文:张帆,张俊丽.统计频率算法在文本信息过滤系统中的应用[J].图书情报工作,2009,53(13):116-119.
作者姓名:张帆  张俊丽
作者单位:1. 华中师范大学信息管理系;2. 南京大学信息管理系;
摘    要:文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency, SF )算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。

关 键 词:文本过滤  特征选择  χ2统计量  
收稿时间:2008-10-20
修稿时间:2009-01-11

A feature Selection Method for Text Information Filtering Based on Statistical Frequency
Zhang Fan,Zhang Junli.A feature Selection Method for Text Information Filtering Based on Statistical Frequency[J].Library and Information Service,2009,53(13):116-119.
Authors:Zhang Fan  Zhang Junli
Institution:1. Department of Information Management, Huazhong Normal University,;2. Department of Information Maragement,Nanjing University,;
Abstract:One of the most important problems in text information filtering technology is feature selection, this paper analyzes Chi-square algorithm(CHI), which is unreliable for low-document frequency, and can’t show the pertinence for term and classification. A new Statistical Frequency algorithm (SF) is proposed and applied to text information filtering system. The experiments of the SF algorithm is validated by comparison, the results show that improved algorithm performs well. 
Keywords:text categorization  feature selection  chi-square
本文献已被 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号