首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 312 毫秒
1.
针对现有序列聚类算法在对大规模数据进行聚类时,内存空间和计算时间开销较大的问题,提出了基于MapReduce的人工蜂群聚类算法。该算法通过引入MapReduce并行编程范式,快速计算聚类中心适应度,可实现对大规模数据的高效聚类。基于仿真数据对算法的聚类效果和聚类效率进行了验证。实验结果表明,与现有PK-Means算法和并行K-PSO算法相比,该算法具有更好的聚类效果和更高的聚类效率。  相似文献   

2.
关联规则是数据挖掘中一个非常重要的任务,有许多针对于关联规则的挖掘算法,然而需要提高算法的有效性来处理现实世界中的数据集。基于聚类的关联规则挖掘算法法通过扫描数据库创建聚类表,将收集的事务记录放入聚类表中,通过局部聚类表的约束来产生频繁项集,不仅可以剪枝候选项集,降低数据扫描的时间,而且确保挖掘结果集的正确性。实验结果表明,基于聚类的关联规则挖掘算法比Apfiori算法有更高的执行效率。  相似文献   

3.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

4.
话题发现中最常用的方法是基于增量式的Single Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。  相似文献   

5.
聚类分析是当今飞速发展的数据挖掘和数据信息分析的一个重要技术,因此聚类分析已经成为数据挖掘领域一个非常活跃的研究课题.针对空间数据库对聚类算法的特殊要求,分析了空间聚类算法的构造思想及其优缺点,探讨了空间聚类算法目前的工作、算法的一些开放性问题以及今后的研究方向.  相似文献   

6.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

7.
协同过滤算法在互联网飞速发展的今天得到了广泛应用。由于数据量的膨胀式发展,传统推荐系统的推荐效率受到前所未有的挑战。提出一种改进的协同过滤推荐算法,对数据库数据先进行聚类操作,将用户对项目的平均评分和项目被评价过的次数作为二位网格的维,再根据项目相似性,运用CLIQUE网格聚类算法进行基于项目的聚类。应用协同过滤推荐算法在对应的聚类簇中找到推荐项目。实验证明,该方法能明显提高推荐系统的推荐效率。  相似文献   

8.
针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法(MKFOA-Kmeans)。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。  相似文献   

9.
K-means聚类算法研究   总被引:2,自引:0,他引:2  
聚类分析是模式识别中一个重要研究领域,是一种将数据划分或分组处理的重要手段和方法.K-means算法是聚类算法中主要算法之一,文章介绍了K-means聚类算法的实现方法,并对其优点和缺点进行了详细的分析.  相似文献   

10.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

11.
采用了理论与实践相结合的研究方法,研发设计了一套安捷伦仪表与ADS仿真系统联网数据交换的测试平台,对于3G通信网络乃至将来4G通信网络的数据交换测试,具有重要的意义。  相似文献   

12.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

13.
分析了采用不同负载均衡调度算法的应用环境和性能,并根据政府门户网站Web应用的特点,对调度算法进行了研究和验证,实际环境下基于动态反馈的最小链接算法达到最优的性能.  相似文献   

14.
王莹莹  汪静  涂韬 《教育技术导刊》2019,18(12):118-121
云环境下科学工作流在运行过程中会产生大量有价值的信息以组成中间数据集,但数据集存储代价较大。因此通过阐述单云条件下线性工作流中间数据集存储问题代价最小化算法过程,指出该问题基本概念,阐明多云条件下线性工作流中间数据集存储问题代价最小化传统算法并提出改进算法,最后指出未来研究方向。  相似文献   

15.
为了均衡传统分簇路由算法中的簇间传输能耗,减少簇首更换开销,提出基于最优化模型的能耗均衡分簇路由协议 opt_leach。将区域节点划分成大小相同的簇,均衡不同簇的簇内通信开销;簇间通信采用多种路由组合的方式通信,均衡簇间通信开销;簇内节点可以连续充当簇首,减少簇首更换开销。实验结果表明,与传统分簇路由算法相比,该算法可更好地实现能耗均衡,延长网络生存时间。  相似文献   

16.
The K-means algorithm is one of the most popular techniques in clustering. Nevertheless, the performance of the K- means algorithm depends highly on initial cluster centers and converges to local minima. This paper proposes a hybrid evolutionary programming based clustering algorithm, called PSO-SA, by combining particle swarm optimization (PSO) and simulated annealing (SA). The basic idea is to search around the global solution by SA and to increase the information exchange among particles using a mutation operator to escape local optima. Three datasets, Iris, Wisconsin Breast Cancer, and Ripley's Glass, have been considered to show the effectiveness of the proposed clustering algorithm in providing optimal clusters. The simulation results show that the PSO-SA clustering algorithm not only has a better response but also converges more quickly than the K-means, PSO, and SA algorithms.  相似文献   

17.
In this research, a combination of both quantitative and qualitative approaches is used to identify different market segments in the education industry. To solve the research problem, an exploratory approach to data mining is used and, using a series of interviews with experts, the factors affecting segmentation are identified. Then, using the clustering method (in the form of specific two-step and K-means algorithms), customers are clustered and features of each cluster are identified. This research is based on data provided by a large Iranian research and education company. After examining the clusters identified in both methods, it is determined that the clusters provided by the two-step algorithm are more in line with the organizational and market reality of the business. Finally, the marketing mix model is used to formulate strategic approaches and actions.  相似文献   

18.
娱乐方式日益丰富,产生巨量数据,利用这些数据通过推荐系统可以让用户获得更好的体验,为此提出了DB-CF(DBSCAN-Collaborative Filtering)算法。首先,使用DBSCAN聚类算法对音乐平台的线下用户进行聚类|然后,通过协同过滤算法计算对象用户与各聚类中心的相似度,再通过对比相似度度量矩阵,遍历离对象用户最近的邻居,通过邻居作出评分预测。实验表明,采用DB-CF算法比传统算法准确率提高8%左右,可以产生更准确的推荐结果,为用户带来更好的体验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号