首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘中聚类算法研究综述   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘领域一个活跃的研究分支,在数据挖掘中已经开发出许多聚类算法,具体可分为划分方法、层次方法、基于密度方法、基于网格的方法、基于模型的方法。本文对上述几类聚类分析算法进行了讨论,对每种聚类算法都举出了典型例子,并作了分析,指出了各种算法的优缺点并对聚类技术未来的发展作出了展望。  相似文献   

2.
一种大规模中文搜索日志的层次聚类方法   总被引:1,自引:0,他引:1  
孙锐  金澎 《科技通报》2012,28(8):83-85
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。  相似文献   

3.
潘延军 《中国科技信息》2005,26(14):54-54,55
分析了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerarive algoroithm)和平面划分法(K-means algorithm)相结合的新算法,并对改进方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所改进的聚类算法实现简单,准确率较高。  相似文献   

4.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

5.
翁勍力  施水才  赵捧未 《情报杂志》2007,26(9):114-116,119
针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引擎的主要功能及差别,应用向量空间模型对元搜索结果进行处理。介绍当前主要的聚类算法-K—means划分法和层次凝聚聚类法,并在此基础上提出基于元搜索结果将两种聚类算法相结合的聚类方法。  相似文献   

6.
聚类算法通常用于数据的聚类。除此,它还可以用于异常数据的检测。首先介绍了基于划分的聚类算法K-means,然后给出改进算法I-K-means的算法描述,最后通过实例进行异常分析。  相似文献   

7.
利用数据挖掘技术对Demeter卫星数据进行分析从而发现异常数据已成为当前研究的重点,为了进一步提高异常数据发现的质量,本文提出了一种改进的聚类算法,对Demeter卫星电场数据进行异常检测,该算法首先将数据随机取样,引入信息熵理论,对PAM算法进行改进,并对卫星数据进行划分,以找到聚类中心,最后对改进算法进行了分析与比较,实验结果证明了算法的有效性。  相似文献   

8.
K-均值聚类算法是一种基于划分方法的聚类算法,本文通过对传统的K-均值聚类算法的分析,提出了一种改进的K-均值算法,并对该算法的时间复杂度和空间复杂度进行了分析。该算法在计算聚类中心点时采用了一种最近邻的思想,可以有效地去除"噪声"和"孤立点"对簇中平均值(聚类中心)的影响,从而使聚类结果更加合理。最后通过实验表明该算法的有效性和正确性。  相似文献   

9.
《科技风》2017,(26)
随着基因芯片和DNA微阵列等高通量、短读取、低成本检测技术的发展,从而产生了丰富的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找到全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出了双聚类概念,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件的同时性。目前比较成熟的双聚类算法大约有十七种左右。基于此本文简要调研了现有的三种具有代表性的双聚类算法,系统的分析了每种算法的设计步骤,算法原理,操作环境以及应用。这对于不同的基因数据如何选择更加合适的双聚类算法和软件提供了一定的指导。  相似文献   

10.
针对现有的网络社区挖掘算法在社区划分的质量不高及执行效率低的问题,提出了一种基于日志聚类的邮件网络社区挖掘算法LENCM(the log clustering based e-mail network community mining algorithm),算法根据日志聚类节点的密度变化确定核心节点,构成日志连通子图并确定邮件网络社区划分的初始社区中心点和个数,采用错误注入的方式构造算子,并把执行后的日志与关联规则进行比较,借助社区中心动态调整方法将非核心节点划分至所属社区。实验证明基于日志聚类的邮件网络社区划分挖掘算法有较高的划分质量和较快的执行效率,具有一定的有效性和可行性。  相似文献   

11.
k-means算法是常用的聚类算法之一,它是一种基于划分的聚类算法,但是k-means算法有对噪音数据鲁棒性不佳的不足,且它对于噪音和孤立点数据是敏感的。本文主要针对这个不足,将密度思想与k-means算法结合,提出了一种对k-means算法的改进算法,并通过实验表明了这种算法的可行性和有效性。  相似文献   

12.
模糊C均值(FCM)聚类算法能很好地解决不确定问题的分类,但该算法聚类结果却过于依赖初始聚类中心和易陷入局部最优解。本文重点针对基于密度函数的初始聚类中心初始化算法进行分类总结,将密度函数的度量方式归纳为4大类。通过实验对比分析了各种度量方式的优缺点,旨在为研究人员选择适合的密度函数度量方法提供一定的参考。  相似文献   

13.
一种基于密度最大值的聚类算法   总被引:1,自引:0,他引:1  
提出了一种结合了基于密度聚类思想的划分聚类方法——"密度最大值聚类算法(MDCA)",以最大密度对象作为起始点,通过考察最大密度对象所处空间区域的密度分布情况来划分基本簇,并合并基本簇获得最终的簇划分.实验表明,MDCA能够自动确定簇数量,并有效发现任意形状的簇,对于未知数据集的处理能力和聚类准确度都优于传统的基于划分聚类算法.  相似文献   

14.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。  相似文献   

15.
王洋 《科技通报》2021,37(5):26-30
为了提高电子商务网站安全分析精度,提出混合聚类算法的电子商务网站安全分析算法.首先采集电子商务网站安全分析数据,选取能够描述电子商务网站安全状态的特征,然后将超网络聚类算法和K-means聚类算法组合成混合聚类算法,并采用混合聚类算法根据特征设计电子商务网站安全状态划分的树型结构,建立电子商务网站安全分析模型,判断电子商务网站中的行为数据是否存在异常,以此完成最后电子商务网站安全分析.测试结果表明,所提方法的安全分析正确率高,而且分析结果十分稳定.  相似文献   

16.
基于《现代汉语语义分类词典》的文本聚类方法   总被引:1,自引:0,他引:1  
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率.  相似文献   

17.
针对图书馆读者群数据的高维特征,选择高维数据聚类算法来解决图书馆读者群划分问题.详细分析基于高维数据聚类的读者群划分方法,以某高校图书馆读者借阅事务数据为例,通过读者群划分实验表明,此方法可有效识别借阅行为相似读者群,在图书馆信息管理与服务中具有一定的应用价值.  相似文献   

18.
在阐明文献聚类的基本概念和重要作用的基础上,介绍了当前最流行的两种文献聚类方法:层次聚类和划分聚类;论述了三种主要的文献聚类评价函数:F—measure、平均查准率、熵;指出了文献聚类函数的优缺点。  相似文献   

19.
基于关键词共现频率的热点分析方法研究   总被引:2,自引:0,他引:2  
关键词共现可以有效地反映学科领域的研究热点,为科学研究提供辅助支持。文章系统梳理基于共现频率的共词分析相关度算法、聚类算法、可视化方法等,评价现有聚类算法,并针对k-means聚类算法提出改进构想。  相似文献   

20.
王铭军  朱文耀 《科技通报》2014,(5):145-147,171
随着的计算能力的不断提高和计算机体系结构的可编程性,将向着多核,众核的异质形核的方向继续发展。针对这一问题,本文对KFCM算法的类别间可分性优化进行了分析,通过对于FCM算法的数据集C划分、FCM算法和HCM算法的理论知识,解释了KFCM算法,对于样本的特征进行优化,将高维特征空间内的数据映射到内核函数中,将样本的有益特征扩大,到达快而准的聚类效果。经过仿真测试显示,KFCM算法模型聚类效果可以准确区分二者。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号