首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
K-中心点聚类算法对噪声和孤立点的敏感性小,比较适用于增长速度快、更新频繁的电子地图数据,但K-中心点聚类算法初始中心点的选择会直接影响算法的稳定性和准确性,容易陷入局部最优解,从而影响聚类效果。提出一种基于改进K-中心点的电子地图数据质量检查算法,通过对样本数据集进行网格划分,结合样本密度信息选取初始中心点,解决了算法依赖样本数据实际分布的问题。评估实验结果表明,改进算法较K-中心点算法正确率提升了9.56%,效率提升了56.33%。  相似文献   

2.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

3.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

4.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

5.
Fuzzy C-Means(FCM)模糊c均值聚类算法是一个应用广泛、有效的无监督聚类算法。但传统FCM算法存在对所有样本等划分的缺点,导致聚类精度不高、鲁棒性不强。针对上述问题,从整体上引入点密度关系,从局部上引入点邻域信息,用以标记每个样本点,提出基于点密度和邻域信息的模糊c均值算法(DLFCM)。该算法能标记每个不同的样本,克服了FCM算法等划分的缺点,提高了算法的聚类精度和鲁棒性。人造数据集和UCI真实数据集实验验证了该算法的有效性。  相似文献   

6.
传统K中心点算法虽然改进了K均值算法对噪声和孤立点数据敏感的不足,但是仍存在着初始聚类中心和聚类个数k难以确定的问题,因此,针对算法存在的问题,提出一种基于密度的改进K中心点算法。该算法会根据数据集数据的分布情况自主确定聚类个数k和k个聚类中心点。最后,通过在入侵检测领域KDD Cup99数据集上实验测试表明,改进K中心点算法不仅能够自动形成k个聚类,而且具有较高的入侵检测率和较低的漏报率,聚类和入侵检测的效果均优于传统的K中心点算法。  相似文献   

7.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

8.
提出了一种基于网格密度的聚类算法(DGCA)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。实验表明,DGCA算法能够很好地识别出孤立点或噪声,聚类结果可以达到一个较高的精度。  相似文献   

9.
K-means算法作为较为普遍的聚类算法,聚类效果受孤立点、噪声点和初始聚类中心影响较大。结合Isolation Forest算法计算数据中每个样本的异常度系数,根据离群值过滤比例计算得到异常度系数阈值,对高度异常值加以隔离,并对隔离后的数据集使用平均插值法求得初始聚类中心。运用改进K-means算法对真实数据集进行聚类分析,与此同时,通过比较多个离群值过滤比例下的聚类结果,找到离群值过滤比例的最优取值。仿真结果表明,相比于原始算法,新算法显著提升了聚类准确性,聚类效果更佳。  相似文献   

10.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

11.
提出了一种自动化的网格聚类算法GAC。该算法主要采用密度阈值技术提取不同的类,使用边界点处理技术提高聚类精度。GAC算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

12.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

13.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

14.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

15.
针对数据挖掘算法中的聚类算法在聚类不规格形状数据点分布的处理难题,对基于密度梯度的聚类算法进行了研究。通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。阐述了基于密度梯度的聚类算法以及应用此算法进行电信行业客户细分的方法、步骤和案例。  相似文献   

16.
为了解决应急管理系统APP中巡护轨迹的漂移问题,该文提出基于MapReduce并行化编程模型对轨迹进行优化处理的方法,首先基于GeoHash和加权汉明距离的DBSCAN聚类算法(轨迹漂移修正算法)筛选漂移点,然后采用三点一次平滑算法(轨迹平滑算法)对漂移点进行平滑处理。通过仿真实验展现轨迹优化效果表明,轨迹漂移修正算法能有效去除漂移点,轨迹平滑算法能减少轨迹的锯齿状,通过分析轨迹漂移修正算法和轨迹平滑优化算法的时间复杂度表明,基于加权汉明距离的DBSCAN算法效率高,900个坐标的数据集运行时间小于0.1 s,单服务器可满足轨迹优化应用。  相似文献   

17.
典型的基于空间约束的划分聚类算法采用基于梯度下降的搜索方法,存在着易陷入局部极值和对初始值敏感的问题,因此提出带障碍的量子粒子群聚类算法。新算法重新定义了数据点绕过障碍物的距离函数,提出了粒子逃逸原则以避免聚类中心点陷入障碍物中,并且在很大程度上克服了划分聚类的缺点。实验结果证明了该算法的有效性和准确性。  相似文献   

18.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

19.
由于激光雷达等扫描设备得到的点云存在数据量大、数据中掺杂噪声较多等一系列问题,提出一种基于特征点保持的点云精简与配准方法。首先利用K-means算法对所有点云数据聚类,滤除掉噪声点云,再进行精简化处理;随后在精简的基础上用KD-tree对数据进行最近邻搜索以加快对应点查找速度,从而为配准节省一定的时间;最后根据欧氏距离选择合适的初值减少匹配误差。实验结果表明,精简后的点云数据保持了基本特征,一定程度上减少了配准时间和误差。  相似文献   

20.
随着智慧农业的发展,农业生产中海量数据不断涌现。在海量数据中难免存在噪声数据,这些数据不仅难以提供有效价值,还会影响信息挖掘。针对该问题,采用基于密度的DBSCAN聚类算法进行异常数据处理。鉴于DBSCAN算法对参数敏感,结合数据集本身特性与统计学思想以绘制各点之间的距离升序曲线,预估出DBSCAN的Eps参数。仿真实验结果表明,改进算法平均准确率达到99.6%,较传统算法提高了1.7个百分点,并且在10次检测中,改进算法只有3个数据判定错误,证明该参数设置方法对异常数据处理准确率更高,稳定性也更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号