首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 267 毫秒
1.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

2.
针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法(MKFOA-Kmeans)。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。  相似文献   

3.
Kmeans算法存在两个主要缺陷,导致聚类结果准确率较低。为改善聚类效果,提出一种DGK-Kmeans算法。该算法选用核密度估计处理数据,得到备选聚类中心,依据平均类间相似度动态增加初始聚类中心个数,直至平均类间相似度大于前次计算值时,选取平均类内相似度最小时对应的聚类中心为初始聚类中心,进行Kmeans聚类计算。采用UCI标准数据集进行实验,证明改进后的DGK-Kmeans算法在聚类准确率和稳定性方面有很大提高。  相似文献   

4.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力.  相似文献   

5.
聚类算法一直备受研究者青睐。随着信息技术和数据技术的发展,数据的种类和数量急剧增长,云计算平台Hadoop成为这些数据存储和处理的新平台,基于云计算平台Hadoop的聚类算法逐渐成为热门。针对数据挖掘中的聚类问题,依托云计算模式及Hadoop平台,研究了K-means算法,有效改变了现有算法的局限性。  相似文献   

6.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

7.
利用统计分析软件SPSS对99组实例数据进行聚类分析,包括K-means聚类、系统聚类、两步聚类三大类,其中K-means聚类包括K-means未标准化聚类和K-means标准化聚类两小类,选取判断类内紧致性指标1和类间分离性指标2综合衡量聚类结果有效性,从而比较聚类数种算法中三大聚类方法的聚类效果。实验发现,K-means聚类有效性普遍比系统聚类好,系统聚类普遍比两步聚类有效,且系统聚类分析效果随着聚类个数的增加不断改善。  相似文献   

8.
聚类算法在当前的各个领域都有着非常广泛的应用,常见的有生物学和医学领域的数据探测、信息检索以及文本挖掘和图像处理等.尤其是目前随着计算机信息技术的发展,数据的规模比以往更大,数据挖掘工作需要的数据特征维数大大增加.导致高维数特征加权和选择面临多学科交叉的问题,大大增加了空间聚类分析的工作难度.本文将分析特征加权优化软子空间聚类算法,并将其与传统算法进行了对比,总结了其优越性.  相似文献   

9.
针对现有序列聚类算法在对大规模数据进行聚类时,内存空间和计算时间开销较大的问题,提出了基于MapReduce的人工蜂群聚类算法。该算法通过引入MapReduce并行编程范式,快速计算聚类中心适应度,可实现对大规模数据的高效聚类。基于仿真数据对算法的聚类效果和聚类效率进行了验证。实验结果表明,与现有PK-Means算法和并行K-PSO算法相比,该算法具有更好的聚类效果和更高的聚类效率。  相似文献   

10.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

11.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

12.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

13.
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于 Spark 技术的均值漂移(MS)算法,利用该算法原理分析 Spark 框架特性,给出该算法在 Spark 框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将 MS 算法和 K-means 算法聚类效果进行对比,实验结果显示,K-means 算法聚类结果受 k 值选取的影响,存在聚类结果不准确的问题;基于 Spark 的 MeanShift 算法在没有任何先验条件下舆情聚类效果优于 K-means 聚类算法,且符合预期期望。  相似文献   

14.
The K-means algorithm is one of the most popular techniques in clustering. Nevertheless, the performance of the K- means algorithm depends highly on initial cluster centers and converges to local minima. This paper proposes a hybrid evolutionary programming based clustering algorithm, called PSO-SA, by combining particle swarm optimization (PSO) and simulated annealing (SA). The basic idea is to search around the global solution by SA and to increase the information exchange among particles using a mutation operator to escape local optima. Three datasets, Iris, Wisconsin Breast Cancer, and Ripley's Glass, have been considered to show the effectiveness of the proposed clustering algorithm in providing optimal clusters. The simulation results show that the PSO-SA clustering algorithm not only has a better response but also converges more quickly than the K-means, PSO, and SA algorithms.  相似文献   

15.
随着网络的快速发展,入侵检测系统生成的告警信息越来越多,聚类技术广泛的应用于处理告警信息.针对传统的K-Means算法易陷入局部最优,提出一种改进半监督聚类算法ISC.从数据集中抽取若干正常与异常样本分别采用层次聚类算法分别计算作为初始质心辅助K-Means算法进行聚类.实验结果表明,与现有相关算法相比,该算法具有更高的攻击检测率以及更低的误报率.  相似文献   

16.
流数据是近年来关注比较多的一种数据形式,但由于它自身的特点,无法使用传统的算法对它进行聚类分析.数据挖掘是从大规模数据库中提取感兴趣的信息.聚类是数据挖掘的重要工具,它根据数据间的相似性将数据库分成多个类,每类中数据要求尽可能相似.针对流数据的特点,引入一种采用渔夫捕鱼策略的新的聚类算法.该算法采用动态多点随机投鱼网方法,并且根据捕鱼环境的不同采用不同的探测策略.流数据聚类的捕鱼算法是一种即时更新模型的在线聚类算法.  相似文献   

17.
为提高公路车辆的数据服务效率和通信服务的能量利用率,将分簇算法应用于实际环境的数据传输,提出一种新的传输机制。针对公路环境,应用分簇和数据聚合,进行了实时的双向数据协作传输在公路上的应用设计。仿真结果表明:在公路环境中,整合了分簇和数据聚合的数据传输机制能有效提高服务率、减少服务时延、提高吞吐量并减少能耗。  相似文献   

18.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。  相似文献   

19.
提出了一种基于核的聚类方法,增加对样本特征的优化;通过核函数,把数据样本空间映射到一个高维的特征空间;在特征空间对数据样本进行k-中心点聚类,并通过计算类内距离作为适应度准则,取其最优的结果。通过Web日志挖掘中的Web客户聚类应用比较,表明核聚类方法在性能上比经典的聚类算法有较大的改进,从而实现更为准确的聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号