共查询到20条相似文献,搜索用时 281 毫秒
1.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据... 相似文献
2.
基于优化初始类中心点的K-means改进算法 总被引:2,自引:0,他引:2
K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。本文提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点。该方法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果。 相似文献
3.
4.
5.
6.
《科技通报》2015,(10)
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。 相似文献
7.
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。 相似文献
8.
9.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。 相似文献
10.
11.
基于多因素方差分析的文本向量特征挖掘算法 总被引:2,自引:0,他引:2
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。 相似文献
12.
13.
基于改进特征提取及聚类的网络评论挖掘研究 总被引:1,自引:0,他引:1
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。 相似文献
14.
《内江科技》2016,(10)
密度峰值聚类(Density peaks clustering简称DPC)算法是2014年在美国Science期刊上发表的一种非常简洁优美的聚类算法,它不需要像经典K-means算法那样迭代,也不需要很多参数。DPC算法的核心思想在于对聚类中心的刻画,它通过计算数据集中每个数据点的局部密度和该点到具有更高局部密度的点的最小距离,当数据点的■的值较大时,该点为聚类中心。然而通过分析,发现这样选取聚类中心得聚类效果不具有稳健性,依赖于和的量纲。本文提出一种改进的密度峰值聚类算法,将和归一化后的和记为每个点的权重,构造函数■作为选取聚类中心的判决函数,结合模拟计算,验证本文的方法更鲁棒,选取聚类中心效果更好,且复杂度降低。 相似文献
15.
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。 相似文献
17.
聚类算法通常用于数据的聚类。除此,它还可以用于异常数据的检测。首先介绍了基于划分的聚类算法K-means,然后给出改进算法I-K-means的算法描述,最后通过实例进行异常分析。 相似文献
18.
19.
在对最佳任务调度下的Web数据进行优化聚类的过程中,容易出现原始数据损失的情况,导致传统数据优化聚类算法,由于忽略初始数据,无法有效实现Web数据优化聚类。提出一种基于粒子群优化的最佳任务调度下Web数据优化聚类算法,依据任务价值密度以及执行紧迫性,塑造动态优先级,通过适应度函数对分类计划进行评价,给出类间距与类内距计算公式,对相关参数和各粒子的位置以及速度向量进行初始化操作;求出粒子的适应度;求出粒子个体最优与群最优;依据粒子群优化算法的位置以及速度对当前位置和速度进行更新;通过K-means算法对EHCF进行聚类,直至全部Web数据聚类完成。仿真实验结果表明,所提方法在Web数据优化聚类上具有很高的优越性。 相似文献
20.
限制性聚类是一种试图将用户监督信息加入到已有聚类算法中的一种分类技术,目前已经被广泛应用于K-means算法和层次聚类算法中.在本文中,提出一种将限制条件加入到谱聚类算法的半监督聚类方法,利用正约束和负约束限制来构造约束矩阵,通过它们来引导聚类过程,并结合最优化技术,达到聚类的目的.数据实验验证了这种方法具有很好的精确度. 相似文献