首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于IIG和LSI组合特征提取方法的文本聚类研究
引用本文:陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005(2).
作者姓名:陈涛  宋妍  谢阳群
作者单位:宁波大学商学院信息管理系 浙江宁波315211 (陈涛),南京大学工商管理系 南京210093 (宋妍),宁波大学商学院信息管理系 浙江宁波315211(谢阳群)
基金项目:浙江省教育厅 2 0 0 4年度高校科研项目 (项目编号 2 0 0 4 0 997)。
摘    要:本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。

关 键 词:改进的信息增益(IIG)  潜在语义索引(LSI)  特征提取  聚类

Research on Text Clustering Based on IIG and LSI Combination Feature Extraction Method
Chen Tao,Song Yan and Xie Yangqun.Research on Text Clustering Based on IIG and LSI Combination Feature Extraction Method[J].Journal of the China Society for Scientific andTechnical Information,2005(2).
Authors:Chen Tao  Song Yan and Xie Yangqun
Institution:Chen Tao1,Song Yan2 and Xie Yangqun1
Abstract:This paper applies the Improved Information Gain method and Latent Semantic Indexing method to the text clustering. First, retrieves 250 documents from the corpus. According to Vector Space Model and the Improved Information Ga in feature selection method, constructs the text feature vector; uses C-means t o automatic clustering. The precision, recall and F-measure are 0.82, 0.8 8, 0 .83. Furthermore, uses Singular Value Decomposition of the Latent Semantic Inde xing method, the dimension of vector space can be reduced by the truncating hand le. When the threshold K is 40, the precision, recall and F-measure are 0. 95, 0.57, 0.78. The precision of the clustering is improved.
Keywords:Improved Information Gain  Latent Semantic Index ing  feature extraction  clustering  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号