首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一个基于双向近邻技术的多层文档聚类算法
引用本文:宋江春,沈钧毅.一个基于双向近邻技术的多层文档聚类算法[J].情报学报,2006,25(4):488-492.
作者姓名:宋江春  沈钧毅
作者单位:西安交通大学电子与信息工程学院,西安,710049
摘    要:提出了一个新的基于双向近邻技术的多层文档聚类算法。使用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向。利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高。最后对算法的有效性、可伸缩性和时间复杂度进行了研究。

关 键 词:文档聚类  最近邻技术  双向最近邻  文档主题特征向量  主题关键字特征向量
修稿时间:2005年9月5日

A Multilevel Document Clustering Algorithm Based on Technique of Dual-Way Nearest Neighbor
Song Jiangchun,Shen Junyi.A Multilevel Document Clustering Algorithm Based on Technique of Dual-Way Nearest Neighbor[J].Journal of the China Society for Scientific andTechnical Information,2006,25(4):488-492.
Authors:Song Jiangchun  Shen Junyi
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号