首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了解决数据高维、海量导致聚类算法处理效果不佳的问题,提出将流形学习理论引入客户关系管理进行聚类研究。为了较好的分析客户价值,在Kmeans聚类的基础上引入流形学习理论。客户价值分析一般包含数据的抽取、探索以及预处理、模型建立几个步骤。在模型建立过程中一般采用Kmeans聚类实现。使用流形学习的谱聚类来替代Kmeans聚类。使用泰迪杯数据挖掘大赛中的数据进行试验,通过实验的雷达图可以看出,谱聚类与Kmeans聚类具有相似的分类构成。同时对于分类后的数据进行规约并绘制散点图,比较后发现,谱聚类后的数据类间相似度比Kmeans高,表明将流形学习方法引入客户价值分析,对于聚类稳定性有一定改善。  相似文献   

2.
针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法(MKFOA-Kmeans)。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。  相似文献   

3.
不同的聚类算法都可以完成对无标签数据的分类,而Kmeans聚类算法是一种无监督静态数据分析机器学习方法,已被广泛应用于机器学习、模式识别、数据挖掘等领域.但对维度数据准确率不高,本文引入深度自动编码器完成对输入样本的特征自动学习和重构,实现对数据的降维和特征提取,代替原始数据通过Kmeans算法进行聚类分析.实验结果证明,改进后的AE Kmeans(Auto Encoder Kmeans)算法与单独使用Kmeans算法完成聚类相比,准确率得到明显提高.  相似文献   

4.
K-means算法作为较为普遍的聚类算法,聚类效果受孤立点、噪声点和初始聚类中心影响较大。结合Isolation Forest算法计算数据中每个样本的异常度系数,根据离群值过滤比例计算得到异常度系数阈值,对高度异常值加以隔离,并对隔离后的数据集使用平均插值法求得初始聚类中心。运用改进K-means算法对真实数据集进行聚类分析,与此同时,通过比较多个离群值过滤比例下的聚类结果,找到离群值过滤比例的最优取值。仿真结果表明,相比于原始算法,新算法显著提升了聚类准确性,聚类效果更佳。  相似文献   

5.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

6.
娱乐方式日益丰富,产生巨量数据,利用这些数据通过推荐系统可以让用户获得更好的体验,为此提出了DB-CF(DBSCAN-Collaborative Filtering)算法。首先,使用DBSCAN聚类算法对音乐平台的线下用户进行聚类|然后,通过协同过滤算法计算对象用户与各聚类中心的相似度,再通过对比相似度度量矩阵,遍历离对象用户最近的邻居,通过邻居作出评分预测。实验表明,采用DB-CF算法比传统算法准确率提高8%左右,可以产生更准确的推荐结果,为用户带来更好的体验。  相似文献   

7.
为了对社会化标注系统中的标签进行有效聚类,并针对传统K-medoids算法存在的聚类结果易受初始聚类中心影响的问题,本文提出了一种改进的K-medoids标签聚类算法.该算法应用社会化标签的余弦相似值进行初始聚类中心的选择,然后进行标签聚类.对Delicious标签数据集的实验结果表明算法具有较强的的可行性和有效性.  相似文献   

8.
针对传统 K-means 算法随机选取初始聚类中心导致聚类结果随机性大、优劣不定的缺点,通过定义局部方差,利用方差反映数据密集程度的特性,提出一种基于最小 局部方差优化初始聚类中心的 K-means 算 法。该算法选取数据集中局部方差最小的点作为一个初始聚类中心,并利用数据信息更新数据集,直到选到 k个初始聚类中心,实现初始聚类中心优化。基于 UCI 数据集与人工数据集进行实验,与传统 K-means 算法及最小方差优化初始聚类中心的 K-means 算法进行性能比较。实验结果表明,基于最小局部方差优化初始聚类中心的 K-means算法具有良好的聚类效果和很好的鲁棒性,且聚类时间较短,验证了算法有效性和优越性。  相似文献   

9.
选取初始聚类中心是多数聚类算法的首要步骤,往往影响着聚类的效果。为了避免算法迭代过程中易陷入局部最优的问题,本文提出了一种基于模糊交叉网格的初始聚类中心选取方法。算法通过对数据空间网格化后,以网格交点为中心的邻近网格组成网格空间,根据数据点的隶属度统计每个网格空间的密度,再通过局部最大网格空间选取K个初始聚类中心。在真实数据集上进行实验,结果表明该方法在保证了聚类效果的同时,提高了收敛速度。  相似文献   

10.
《柳州师专学报》2015,(6):108-110
K-means算法是一种基于划分的方法,该算法对初始聚类中心的选取依赖性极大,初始中心值的不同导致聚类效果不稳定.为此,本文利用几何概率的思想,认为每个数据点都是等概率的存在于数据集,通过计算每个数据点的点概率值,结合距离因素,选择K个点作为初始聚类中心.实验证明,改进后的K-means算法聚类效果更好.  相似文献   

11.
为了改善传统K-Modes聚类算法相异度度量公式弱化了类内相似性,忽略了属性间差异,以及单一属性值的Modes忽视了某一属性可能存在多属性值组合,且算法受初始中心点影响很大的缺点,基于多属性值Modes的相异度度量方法提出MAV-K-Modes算法,并采用一种基于预聚类的初始中心选取方法。使用UCI数据集进行实验,结果表明,MAV-K-Modes算法相比于传统K-Modes算法,其正确率、类精度和召回率都有明显提升,且MAV-K-Modes算法适合于并行化改造。  相似文献   

12.
提出一种新颖的基于谱聚类的音频聚类算法,首先对音频数据进行预处理,得到三维音频向量,然后根据向量之间的距离计算音频相似度,最后设计谱聚类算法获得音频数据聚类结果。在网易云音乐数据上的对比实验表明,与K means算法和快速查找密度峰值聚类算法相比,该算法获得的聚类结果更加优越。  相似文献   

13.
提出了一种基于用户兴趣及标签相似度的混合推荐算法,构建基于标签的用户兴趣模型,通过计算与资源相似度完成推荐,同时融合时间因素研究用户兴趣变化,提高了基于内容的推荐中相似度计算的准确率;根据用户兴趣相似度聚类用户,通过兴趣协同推荐减少对评分矩阵的依赖,一定程度上解决了协同过滤中推荐数据缺失问题;同时,结合用户基本信息有望缓解冷启动问题。实验表明该算法具有一定的有效性及可行性。  相似文献   

14.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。  相似文献   

15.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。  相似文献   

16.
K-means算法是解决聚类问题的经典算法,在满足一定的条件情况下,聚类的结果比较好.但这种算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.针对这种缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的算法.  相似文献   

17.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

18.
针对谱聚类算法稳定性较差的问题,提出了一种改进的半监督谱聚类算法。该算法依据图像的颜色、纹理和空间特征进行聚类,通过Bayes距离学习对相似度矩阵的内容进行修正;然后,使用半监督K—means聚类算法对调整后的特征向量进行聚类划分。仿真实验结果表明。较传统谱聚类而言该算法在准确率及稳定性上都有了显著提升。  相似文献   

19.
ROCK是一种采用数据点间的公共链接数来衡量相似度的分层聚类方法,这种方法对于高维、稀疏特征的分类数据具有高效的聚类效果.其邻接度矩阵计算是影响其时间复杂度的关键步骤,将图形处理器(GUP)强大的浮点运算和超强的并行计算能力应用与此步骤,而其余步骤由CPU完成,这种基于GUP的ROCK算法的运算效率在AMD 643500+CPU和NVIDIA GeForce 6800 GT显卡的硬件环境下经过实验测试,证明其运算速度比完全采用CPU计算速度要快.这种改进的分层聚类算法适合在数据流环境下对大量数据进行实时高效聚类操作.  相似文献   

20.
冒伟 《教育技术导刊》2020,19(3):248-251
为解决传统谱聚类算法在图像分割时计算量大、使用单一特征分割的局限性问题,设计一种融合谱聚类和多特征的图像分割算法。首先进行超像素分割以减少计算量,分别提取每个超像素的颜色特征和纹理特征,构建超像素相似度矩阵|然后采用特征加权方法线性融合颜色和纹理特征的超像素相似度矩阵|最后采用谱聚类算法进行聚类分割。在UCMerced_LandUse和Berkeley数据集上进行实验测试,并与现有方法进行比较。实验结果表明,大多数实验图像IOU指标均在90%以上,相比于传统方法有了显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号