首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对k-means算法事先必须知道聚类的数目,难以确定初始中心以及受异常点影响很大等缺点,提出了一种改进的k-means聚类算法。改进后的算法首先使用复合形粒子群算法来选取聚类的初始中心点,然后使用k-means算法快速收敛获取聚类结果。Iris测试数据集的实验结果表明了改进后的算法能够合理区分不同类型的簇集,可以有效地识别异常点,具有较好的性能。  相似文献   

2.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

3.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

4.
针对k-means算法对初始聚类中心敏感的问题,提出利用人工鱼群算法去优化k均值算法,即先通过人工鱼的行为进行全局搜索,得到一个初始的全局最优划分后再进行聚类,运用云平台Hadoop的并行处理框架Mapreduce对混合算法实施并行处理,从而快速准确地处理大量数据。实验结果表明,改进后的算法在执行速度、准确性、加速比及可扩展性方面都有所提高。  相似文献   

5.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

6.
基于熵的K均值算法的改进   总被引:1,自引:0,他引:1  
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题.本文提出了利用数据归一化预处理方法来改进K-means算法.在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数.实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响.  相似文献   

7.
传统的k-means算法作为一种动态聚类法,是聚类方法中常用的一种划分方法,其应用领域非常广泛。但该方法存在初始k值不确定、时间复杂度大等缺点。针对这些缺点,改进了聚类初值的随机性问题,简化了算法,降低了时间复杂度,提高了k-means算法的性能,并给出了具体的代码实现。  相似文献   

8.
K-中心点聚类算法对噪声和孤立点的敏感性小,比较适用于增长速度快、更新频繁的电子地图数据,但K-中心点聚类算法初始中心点的选择会直接影响算法的稳定性和准确性,容易陷入局部最优解,从而影响聚类效果。提出一种基于改进K-中心点的电子地图数据质量检查算法,通过对样本数据集进行网格划分,结合样本密度信息选取初始中心点,解决了算法依赖样本数据实际分布的问题。评估实验结果表明,改进算法较K-中心点算法正确率提升了9.56%,效率提升了56.33%。  相似文献   

9.
针对原始k-means算法存在问题,提出一种无需指定k值和初始聚类中心的能够依据数据集内在特性自动完成聚类的改进k-means算法。最后,利用入侵检测领域应用最为广泛的数据集KDD CUP99验证了改进算法的性能。实验结果表明,改进算法无需任何输入,且具有较高的检测率和较低的误报率,性能较原始算法均有提高。  相似文献   

10.
由主动进化思想提出一种基于中心定位算子的遗传算法(GCOGA)。GCOGA算法通过对聚类中心的个数和选取进行指导,解决了常规k-means聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题。实验结果显示,该算法避免了k-means方法中对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果更好。  相似文献   

11.
一种K-means算法的k值优化方案   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位。针对k-means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数,而得到优化的聚类个数。通过实例给予验证,其结果说明该方法合理有效。  相似文献   

12.
针对ISODATA对初始聚类点选取较为敏感,不能处理噪声点的缺陷,提出一种基于结合密度最大的改进型ISODATA的划分聚类方法D-ISODATA。基于高局部密度点距离和局部密度最大原则,优化聚类初始点并去除噪声点。根据考察对象所处空间区域的密度分布情况划分基本簇,结合ISODATA聚类算法良好的自适应性,有效地对数据集进行分类。实验表明,这种基于密度聚类的改进型ISODATA算法能有效去除噪声点,改善初始中心点选择对最后聚类算法的影响,并且具有良好的自适应性,对于数据集处理的准确性优于传统K-means算法和ISODATA算法。  相似文献   

13.
介绍了网络入侵检测技术,阐述了k-means算法及其思想,并把k-means算法用于网络入侵检测中。实验中采用KDDCup1999数据集进行实例验证,结果表明该算法是可行的。  相似文献   

14.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

15.
在考虑像素邻域相似性的基础上,对Morel等人提出的非局部均值滤波算法进行优化.该算法充分考虑图像中存在的大量冗余信息,通过计算邻域内像素点灰度值的加权平均来恢复中心点的灰度值,并对邻域内的点进行一次预分类,只考虑邻域内与中心点相似性大的点,而忽略与中心点相似性小的点,从而减小了算法的计算复杂度.实验结果表明,用该算法处理的图像,其视觉效果和峰值信噪比均不低于非局部均值算法,而运行速度提高了45%以上.  相似文献   

16.
为了改善传统K-Modes聚类算法相异度度量公式弱化了类内相似性,忽略了属性间差异,以及单一属性值的Modes忽视了某一属性可能存在多属性值组合,且算法受初始中心点影响很大的缺点,基于多属性值Modes的相异度度量方法提出MAV-K-Modes算法,并采用一种基于预聚类的初始中心选取方法。使用UCI数据集进行实验,结果表明,MAV-K-Modes算法相比于传统K-Modes算法,其正确率、类精度和召回率都有明显提升,且MAV-K-Modes算法适合于并行化改造。  相似文献   

17.
本文通过对k-means数据分析算法的深入研究,在现有的基于互联网的考试系统平台的缺陷基础上,重新设计并开发了一个基于k-means数据挖掘算法的在线考试系统,通过该考试系统,可以大大提高学生的考试效率.  相似文献   

18.
k-means融合FCM算法聚类研究   总被引:1,自引:0,他引:1  
k-means融合FCM算法执行聚类过程,是在k-means算法完成聚类后,以其聚类结果作为FCM算法执行的初值,并通过FCM算法的执行完成。从结果分析可以看出,该算法聚类的效果比单纯使用FCM算法好,能够减少FCM算法循环体迭代运行次数并增强算法的鲁棒能力。  相似文献   

19.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

20.
对CF-树进行了改进,并在此基础上提出了一种新的基于改进CF-树的k-means聚类算法。该算法明显地改善了k-means算法所存在的在大数据集上的时间复杂性高、对噪声和孤立点数据敏感、不适合发现非凸面形状的簇或大小差别很大的簇等缺点。结果证明该算法提高了聚类的效率和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号