共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘中聚类算法研究综述 总被引:1,自引:0,他引:1
聚类分析是数据挖掘领域一个活跃的研究分支,在数据挖掘中已经开发出许多聚类算法,具体可分为划分方法、层次方法、基于密度方法、基于网格的方法、基于模型的方法。本文对上述几类聚类分析算法进行了讨论,对每种聚类算法都举出了典型例子,并作了分析,指出了各种算法的优缺点并对聚类技术未来的发展作出了展望。 相似文献
2.
一种大规模中文搜索日志的层次聚类方法 总被引:1,自引:0,他引:1
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。 相似文献
3.
分析了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerarive algoroithm)和平面划分法(K-means algorithm)相结合的新算法,并对改进方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所改进的聚类算法实现简单,准确率较高。 相似文献
4.
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。 相似文献
5.
6.
聚类算法通常用于数据的聚类。除此,它还可以用于异常数据的检测。首先介绍了基于划分的聚类算法K-means,然后给出改进算法I-K-means的算法描述,最后通过实例进行异常分析。 相似文献
7.
8.
K-均值聚类算法是一种基于划分方法的聚类算法,本文通过对传统的K-均值聚类算法的分析,提出了一种改进的K-均值算法,并对该算法的时间复杂度和空间复杂度进行了分析。该算法在计算聚类中心点时采用了一种最近邻的思想,可以有效地去除"噪声"和"孤立点"对簇中平均值(聚类中心)的影响,从而使聚类结果更加合理。最后通过实验表明该算法的有效性和正确性。 相似文献
9.
《科技风》2017,(26)
随着基因芯片和DNA微阵列等高通量、短读取、低成本检测技术的发展,从而产生了丰富的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找到全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出了双聚类概念,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件的同时性。目前比较成熟的双聚类算法大约有十七种左右。基于此本文简要调研了现有的三种具有代表性的双聚类算法,系统的分析了每种算法的设计步骤,算法原理,操作环境以及应用。这对于不同的基因数据如何选择更加合适的双聚类算法和软件提供了一定的指导。 相似文献
10.
针对现有的网络社区挖掘算法在社区划分的质量不高及执行效率低的问题,提出了一种基于日志聚类的邮件网络社区挖掘算法LENCM(the log clustering based e-mail network community mining algorithm),算法根据日志聚类节点的密度变化确定核心节点,构成日志连通子图并确定邮件网络社区划分的初始社区中心点和个数,采用错误注入的方式构造算子,并把执行后的日志与关联规则进行比较,借助社区中心动态调整方法将非核心节点划分至所属社区。实验证明基于日志聚类的邮件网络社区划分挖掘算法有较高的划分质量和较快的执行效率,具有一定的有效性和可行性。 相似文献
11.
12.
13.
一种基于密度最大值的聚类算法 总被引:1,自引:0,他引:1
提出了一种结合了基于密度聚类思想的划分聚类方法——"密度最大值聚类算法(MDCA)",以最大密度对象作为起始点,通过考察最大密度对象所处空间区域的密度分布情况来划分基本簇,并合并基本簇获得最终的簇划分.实验表明,MDCA能够自动确定簇数量,并有效发现任意形状的簇,对于未知数据集的处理能力和聚类准确度都优于传统的基于划分聚类算法. 相似文献
14.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。 相似文献
15.
为了提高电子商务网站安全分析精度,提出混合聚类算法的电子商务网站安全分析算法.首先采集电子商务网站安全分析数据,选取能够描述电子商务网站安全状态的特征,然后将超网络聚类算法和K-means聚类算法组合成混合聚类算法,并采用混合聚类算法根据特征设计电子商务网站安全状态划分的树型结构,建立电子商务网站安全分析模型,判断电子商务网站中的行为数据是否存在异常,以此完成最后电子商务网站安全分析.测试结果表明,所提方法的安全分析正确率高,而且分析结果十分稳定. 相似文献
16.
基于《现代汉语语义分类词典》的文本聚类方法 总被引:1,自引:0,他引:1
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率. 相似文献
17.
针对图书馆读者群数据的高维特征,选择高维数据聚类算法来解决图书馆读者群划分问题.详细分析基于高维数据聚类的读者群划分方法,以某高校图书馆读者借阅事务数据为例,通过读者群划分实验表明,此方法可有效识别借阅行为相似读者群,在图书馆信息管理与服务中具有一定的应用价值. 相似文献
18.
19.
基于关键词共现频率的热点分析方法研究 总被引:2,自引:0,他引:2
关键词共现可以有效地反映学科领域的研究热点,为科学研究提供辅助支持。文章系统梳理基于共现频率的共词分析相关度算法、聚类算法、可视化方法等,评价现有聚类算法,并针对k-means聚类算法提出改进构想。 相似文献
20.
随着的计算能力的不断提高和计算机体系结构的可编程性,将向着多核,众核的异质形核的方向继续发展。针对这一问题,本文对KFCM算法的类别间可分性优化进行了分析,通过对于FCM算法的数据集C划分、FCM算法和HCM算法的理论知识,解释了KFCM算法,对于样本的特征进行优化,将高维特征空间内的数据映射到内核函数中,将样本的有益特征扩大,到达快而准的聚类效果。经过仿真测试显示,KFCM算法模型聚类效果可以准确区分二者。 相似文献