首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
数据挖掘中聚类方法比较研究   总被引:4,自引:0,他引:4  
聚类是数据挖掘领域中的一个重要研究课题。聚类在电子商务、图像处理、模式识别、本分类等领域有广泛的应用。本首先建立了数据挖掘中聚类方法的比较标准,然后从基于优化、关系、变换这样一个新的角度对聚类方法进行了分类和比较,最后对数据挖掘中常用聚类算法进行了分析,以便于人们更易于选择研究方向和选择适合于具体问题的聚类算法。  相似文献   

2.
使用调和均值的KHM聚类算法,不像KH聚类算法,具有对初始值不敏感的优点。但它作为一个基于中心聚类算法,难以摆脱早熟收敛的问题。为了克服KHM算法的不足,本文提出结合ABC和KHM的ABC—KHM混合聚类算法。在混合算法中,聚类行为可以分为两个阶段:全局搜索的ABC聚类阶段和局部求精的KHM聚类阶段。通过仿真实验,并与KHM聚类算法进行了比较,结果表明:ABC-KHM混合聚类算法,不仅对聚类初始值不敏感,而且具有较快的聚类速度、良好的全局聚类效果,是一个不错的聚类算法。  相似文献   

3.
文本聚类是聚类方法的一个重要应用,是近年研究热点。对文本聚类定义、流程、相关问题进行了阐述,对其主要算法及应用领域进行了详细介绍。  相似文献   

4.
由于性能优越,谱聚类成为近年来聚类算法研究的热点。谱聚类算法可以在任意形状的样本空间上聚类,并能获得全局最优解。介绍了谱图的基本理论及其划分准则,探讨了谱聚类算法,并针对当前谱聚类应用展望了未来研究方向。  相似文献   

5.
针对高维空间数据,提出一种基于超图模式的数据聚类方法,即把给定的高维空间中的原始数据映射到一个带权超图中,再对超图应用算法对顶点进行划分,从而得到相应数据项的聚类。  相似文献   

6.
数据挖掘中聚类分析算法研究   总被引:4,自引:0,他引:4  
聚类分析是数据挖掘的一个主要研究方向,目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成就.本文介绍了聚类分析的应用及数据挖掘对聚类算法的典型要求,并对现有的传统聚类算法进行了分析与评估.最后介绍了聚类分析最新的研究方向——流数据聚类分析.  相似文献   

7.
聚类分析被广泛用于数据挖掘等领域,基于蚁群算法的聚类算法也得以应用。针对K-Means算法和蚁群聚类算法出现的缺点,利用了K-Means算法快速确定聚类中心和精英适应保留值的策略,提出了一种改进的基于K-Means的蚁群聚类算法。仿真实验表明,改进算法的性能得到有效提高。  相似文献   

8.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

9.
通过分析目前的聚类算法,提出了多隶属聚类的概念;提出了一种基于频繁项目集的多隶属聚类算法,该算法能产生事务型数据的多隶属聚类。  相似文献   

10.
基于数据挖掘的医学图像分类方法研究是多媒体数据挖掘的一个重要组成部分。在分析和总结了现有各种特征提取方法的基础上,提出了基于核密度估计聚类和关联规则的医学图像分类算法和关联规则的医学图像分类器框架。该算法先用核密度估计的聚类算法实现医学图像的聚类,在聚类的结果上提取局部特征,在局部特征上用关联规则实现医学图像的分类。实验结果表明可以较好的提高医学图像分类的准确率。  相似文献   

11.
一种K-means算法的k值优化方案   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位。针对k-means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数,而得到优化的聚类个数。通过实例给予验证,其结果说明该方法合理有效。  相似文献   

12.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

13.
An efficient enhanced k-means clustering algorithm   总被引:9,自引:0,他引:9  
INTRODUCTION The huge amount of data collected and stored in databases increases the need for effective analysis methods to use the information contained implicitly there. One of the primary data analysis tasks is cluster analysis, intended to help a user understand the natural grouping or structure in a dataset. Therefore, the development of improved clustering algorithms has received much attention. The goal of a clustering algorithm is to group the objects of a database into a set of m…  相似文献   

14.
提出了一种基于改进蚁群算法的动态K-均值聚类算法思想,该算法首先利用蚁群算法的较强处理局部极值的能力,动态地确定了聚类数目和中心,然后利用蚁群聚类得到的结果,再进行K-均值聚类弥补蚁群算法的不足。两者有机结合起来可以寻求到具有全局分布特性的最优聚类,实现了基于改进的蚁群聚类算法分析。  相似文献   

15.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

16.
为了探究近20年来国内对瘿蜂的研究现状和研究进展,本文利用可视化分析工具CiteSpace,从发文时间、数量、作者、机构、关键词的共现和聚类等参数的角度,分析了CNKI数据库中关于国内瘿蜂方面的文献情况。结果表明,作者群体中吴琼贡献量最大、中心度最高;研究机构中浙江大学昆虫研究所发文量最多;关键词共现分析发现,瘿蜂研究的高频关键词为栗瘿蜂、板栗、栗属、寄生蜂、虫瘿等;关键词聚类发现,对瘿蜂的研究可聚类为结果母枝、中国、天敌、Wolbachia、噻虫啉、舞毒蛾、幼虫孵化、栗实象甲8个方向;通过对关键词时间序列的可视化,直观地展示了国内对瘿蜂研究的方向和现状。该研究可为从事瘿蜂研究的学者与决策者提供数据参考。  相似文献   

17.
流数据是近年来关注比较多的一种数据形式,但由于它自身的特点,无法使用传统的算法对它进行聚类分析.数据挖掘是从大规模数据库中提取感兴趣的信息.聚类是数据挖掘的重要工具,它根据数据间的相似性将数据库分成多个类,每类中数据要求尽可能相似.针对流数据的特点,引入一种采用渔夫捕鱼策略的新的聚类算法.该算法采用动态多点随机投鱼网方法,并且根据捕鱼环境的不同采用不同的探测策略.流数据聚类的捕鱼算法是一种即时更新模型的在线聚类算法.  相似文献   

18.
为促进垃圾分类政策实施,科学、合理地在居民生活小区设置垃圾分类站,建立选址模型和成本模型对垃圾分类站建设运营成本及居民满意度负效应成本进行求解,并对K-means聚类算法与模糊C-means聚类算法进行比较。通过对某小区每栋居民楼到垃圾分类站的平均距离分析得出,K-means聚类算法计算得出的平均距离相比模糊C-means聚类算法缩短了约17%,在成本模型中建设运营成本降低了1万元,居民满意度负效应成本降低了0.68万元,验证了模型的可行性及K-means聚类算法的优越性。在未来的研究中可对算法进行改进,以进一步优化成本,确定全局最优。  相似文献   

19.
结合定向扩散路由协议提出了一种新的分簇路由算法(CDD).该算法在无线传感器定向扩算路由协议的基础上,引入分簇的概念,在大规模部署的传感器网络中,针对事件只发生在某一个局部检测区域的情况对传统的定向扩散路由协议进行改进,仿真证明了改进算法的有效性.  相似文献   

20.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号