首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

2.
针对K-means算法对初始聚类中心敏感、容易收敛于局部极值和人工鱼群算法最大步长固定、寻优精度不高、后期收敛速度慢的问题,提出一种K-means和人工鱼群相结合的聚类算法。该算法将K-means聚类中心引入人工鱼群适应度函数,自动确定近似全局最优的初始聚类中心,并将其作为K-means初值详细进行局部搜索,以提高精度。同时采用淘汰机制和自适应的最大步长策略,优化人工鱼群算法性能。在Iris、Wine数据集和EPA-HTTP应用日志数据上对IAFSA KM算法进行实验仿真分析,验证了算法的有效性和可行性。  相似文献   

3.
K-means聚类算法研究   总被引:2,自引:0,他引:2  
聚类分析是模式识别中一个重要研究领域,是一种将数据划分或分组处理的重要手段和方法.K-means算法是聚类算法中主要算法之一,文章介绍了K-means聚类算法的实现方法,并对其优点和缺点进行了详细的分析.  相似文献   

4.
提出了一种基于郭涛算法的聚类算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法的聚类算法和K-means算法进行对比实验,验证了基于郭涛算法的聚类算法的有效性。  相似文献   

5.
基于熵的K均值算法的改进   总被引:1,自引:0,他引:1  
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题.本文提出了利用数据归一化预处理方法来改进K-means算法.在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数.实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响.  相似文献   

6.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

7.
K-means算法作为较为普遍的聚类算法,聚类效果受孤立点、噪声点和初始聚类中心影响较大。结合Isolation Forest算法计算数据中每个样本的异常度系数,根据离群值过滤比例计算得到异常度系数阈值,对高度异常值加以隔离,并对隔离后的数据集使用平均插值法求得初始聚类中心。运用改进K-means算法对真实数据集进行聚类分析,与此同时,通过比较多个离群值过滤比例下的聚类结果,找到离群值过滤比例的最优取值。仿真结果表明,相比于原始算法,新算法显著提升了聚类准确性,聚类效果更佳。  相似文献   

8.
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于 Spark 技术的均值漂移(MS)算法,利用该算法原理分析 Spark 框架特性,给出该算法在 Spark 框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将 MS 算法和 K-means 算法聚类效果进行对比,实验结果显示,K-means 算法聚类结果受 k 值选取的影响,存在聚类结果不准确的问题;基于 Spark 的 MeanShift 算法在没有任何先验条件下舆情聚类效果优于 K-means 聚类算法,且符合预期期望。  相似文献   

9.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

10.
推动微博舆情事件演化是众多意见领袖共同作用的结果,因此识别意见领袖群对于舆情事件的监管具有重要作用。提出微博舆情话题下的意见领袖群识别模型,综合考虑用户属性特征、交互特征和网络结构,设计微博舆情下用户影响力评估算法MUR,并结合K-means算法形成MUK-means算法,实现对意见领袖群的识别。以新浪微博数据进行实验,MUK-means算法的聚类时间(14s)远远少于传统K-means算法(32s),而且基于MUK-means算法得到的意见领袖群的用户覆盖率高达86.3%。实验结果表明,MUK-means算法改进了K-means算法初始聚类中心不确定的缺点,不仅提高了聚类效率,而且实现了对意见领袖群的有效识别。  相似文献   

11.
为了解决K-means算法中对于初值的敏感,提出了一种基于粒子群的改进的K-means聚类算法(IPSOFCM).在K-means算法中引入粒子群算法,可有效提高算法的全局搜索能力,有助于粒子更容易跳出局部束缚.实验结果证明,IPSOFCM算法聚类准确度高,稳定性好.  相似文献   

12.
基于层次的模糊K均值聚类算法研究   总被引:1,自引:0,他引:1  
通过对K均值聚类算法的研究,本文提出了一种基于层次聚类与模糊聚类思想的K均值聚类算法。算法首先使用层次方法对数据进行初始聚类,然后用得到的聚类数作为模糊K均值聚类中的K值,对聚类进行修正。最后通过实验,验证了该算法不需要人为假设聚类算法中的K值,而且引入了模糊隶属关系使类别的划分更接近于事实,从而证明了该算法的有效性。  相似文献   

13.
传统的K—means算法对初始聚类中心敏感,聚类的结果随不同的初始输入而波动.为了消除这种敏感性,提出了一种改进的K-means算法,改善聚类算法中选取初值的依赖性,提高聚类结果的稳定性.仿真实验结果表明:改进后的K-means算法优于原始算法.  相似文献   

14.
k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差。本文提出一个基于K-均值的迭代局部搜索文档聚类算法。该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索。在搜索过程中接受部分劣解。当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围。实验结果表明该算法对文档数据集聚类的正确性迭99%以上。  相似文献   

15.
陈琍 《钦州学院学报》2006,21(6):36-37,41
从数据挖掘方法中常用的聚类算法的基本原理,将聚类算法中的K—means算法用于客户关系管理系统中,实现客户分类.并且对K—means算法进行了改进,根据客户信用特征对客户进行预分类,提高了算法的效率.  相似文献   

16.
提出了一种连续隐Markov模型参数估计算法,并利用全局收敛定理严格证明了算法的收敛性.该算法用Viterbi算法取代分段K平均算法中的聚类方法,直接确定出最优状态和分支序列,并依据最优序列以最大似然为优化准则进行参数估计.阐述了该算法与Baum-Welch和分段K平均2种经典算法在目标函数、优化准则和工作原理等方面的关系,并将3种算法应用于人脸识别.实验结果表明,该算法在获得相当识别率的同时缩短了训练时间,并降低了识别结果对训练样本集的敏感性,在3种算法中总体性能最优.  相似文献   

17.
K-means算法是聚类分析中的重要算法。运用K-means算法依据高校图书馆读者的借阅行为、借阅习惯等方面的明显差异,把读者划分成若干个读者群,找出不同读者类群的需求特点,重新配置服务资源,为图书馆充分获取读者信息、制定策略提供理论和方法指导。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号