首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于ⅡG和LSI组合特征提取方法的文本聚类研究
引用本文:陈涛,宋妍,谢阳群.基于ⅡG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209.
作者姓名:陈涛  宋妍  谢阳群
作者单位:1. 宁波大学商学院信息管理系,浙江,宁波,315211
2. 南京大学工商管理系,南京,210093
基金项目:浙江省教育厅2004年度高校科研项目(项目编号20040997).
摘    要:本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类.从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83.在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率.

关 键 词:改进的信息增益(ⅡG)  潜在语义索引(LSI)  特征提取  聚类
修稿时间:2004年7月2日

Research on Text Clustering Based on ⅡG and LSI Combination Feature Extraction Method
Chen Tao,Song Yan,Xie Yangqun.Research on Text Clustering Based on ⅡG and LSI Combination Feature Extraction Method[J].Journal of the China Society for Scientific andTechnical Information,2005,24(2):203-209.
Authors:Chen Tao  Song Yan  Xie Yangqun
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号