共查询到20条相似文献,搜索用时 78 毫秒
1.
K-均值聚类算法是一种基于划分方法的聚类算法,本文通过对传统的K-均值聚类算法的分析,提出了一种改进的K-均值算法,并对该算法的时间复杂度和空间复杂度进行了分析。该算法在计算聚类中心点时采用了一种最近邻的思想,可以有效地去除"噪声"和"孤立点"对簇中平均值(聚类中心)的影响,从而使聚类结果更加合理。最后通过实验表明该算法的有效性和正确性。 相似文献
2.
文本聚类算法的质量评价 总被引:4,自引:0,他引:4
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。 相似文献
3.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。 相似文献
4.
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据... 相似文献
5.
基于CURE聚类的可疑金融交易信息搜索研究 总被引:1,自引:0,他引:1
提出了一种改进的CURE聚类算法,用于搜索具有异常交易行为的可疑客户,并对此聚类算法进行了实验.验证了该方法的可行性与有效性. 相似文献
6.
针对知识发现中的模糊信息查询问题,提出了一种基于反馈网络的模糊概念聚类及模式联想设计方法.按照分类要求对所要查询的概念集合进行量化编码,并对编码后的数据进行规整处理.对于概念聚类采用多层反馈神经网络的FP聚类算法,而概念联想采用自反馈神经网络的椭球学习算法实现.将基于上述算法开发出的信息模糊查询系统应用于图书信息查询,实验结果证明了该方法的有效性. 相似文献
7.
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。 相似文献
8.
针对知识发现中的模糊信息查询问题,提出了一种基于反馈网络的模糊概念聚类及模式联想设计方法。首先按照分类要求对所要查询的概念集合进行量化编码,然后对编码后的数据进行规整处理。对于概念聚类采用多层反馈神经网络的FP聚类算法,而概念联想采用白反馈神经网络的椭球学习算法实现。将基于上述算法开发出的信息模糊查询系统应用于图书信息查询,实验结果征明了该方法的有效性。 相似文献
9.
本文简要介绍了聚类算法在国外信息检索领域中的应用概况,并详细介绍了聚类算法在国内该领域的应用情况。列举了应用得较多的几种聚类算法,给出了在多种信息检索中聚类算法的应用过程。 相似文献
10.
运用关联规则挖掘标签间的相互关系,并结合典型的划分聚类算法k-means进行Tag资源自动聚类,从而实现对Tag资源重新组织,为用户提供更好地标签导航和浏览机制。并利用豆瓣网上的实例数据验证了算法的可行性和有效性。 相似文献
11.
基于关键词共现频率的热点分析方法研究 总被引:2,自引:0,他引:2
关键词共现可以有效地反映学科领域的研究热点,为科学研究提供辅助支持。文章系统梳理基于共现频率的共词分析相关度算法、聚类算法、可视化方法等,评价现有聚类算法,并针对k-means聚类算法提出改进构想。 相似文献
12.
《Scientometrics》是国际科学计量学研究领域的第一本专门期刊,代表了国际科学计量学研究的主流方向。对其刊载的2001-2010年间的文献进行计量分析,通过信息可视化技术探测国际科学计量学研究的前沿问题。在文献共被引网络基础上,进行文献聚类分析,直观展现了国际科学计量学主流研究方向的前沿问题包括:科学发展规律的数量统计分析;H指数及其相关指标研究;三螺旋理论研究;学术网络、语义结构研究;中国科学计量学研究等。 相似文献
13.
科学计量学中利用单一关系进行研究领域分析只反映了对研究领域的局部认识。将研究领域中各种元素之间基于科学文献构建起的不同关系进行融合可以更好的展示研究领域的结构。当前对多关系的研究有两种趋向,一是关系组合应用,其实质仍是单一关系在研究领域分析中的应用;另一种是将不同的关系根据一定的计算方式整合为一种新的关系,用来描述研究领域结构,即关系融合。目前,对关系融合的研究主要集中在信息检索领域,且限于将链接结构和文本结构结合起来提高检索效率,将关系融合用于描绘研究领域结构的研究还很有限,已有的研究采用将词间关系和基于引用的同被引/文献耦合关系两种关系融合的方法,将三种或三种以上关系进行融合的研究很少;从融合算法来看,主要是采用线性融合方法。 相似文献
14.
对h指数的研究和探索已经成为科学计量学和科技评价研究的前沿领域之一,文章探讨当前h指数研究中研究方法可能存在的局限性,提出借助信息价值理论对h指数进行细化和改进,并在此基础上以CSSCI引文数据库为数据源进行实证分析。 相似文献
15.
《Scientometrics》是国际科学计量学研究领域的第一本专门期刊。对该期刊文献的作者进行共被引网络分析,网络中关键节点人物代表了国际科学计量学研究领域的核心作者,代表了国际科学计量学研究的主流方向。利用信息可视化技术对2001-2010年间发表的文献数据进行分析,在作者共被引网络中形成了以Hirsch J.为代表的H指数相关研究团体,以Meyer M.,Narin F.等为代表的专利计量研究团体,以Price D.,White H.,Small H.等为代表的共被引分析和科学计量指标研究团体等为主体的研究结构。 相似文献
16.
基于SNA的国际科学计量学作者共被引关系研究——以SCIENTOMETRICS期刊2000-2010年数据为例 总被引:1,自引:0,他引:1
本文以SCIENTOMETRICS期刊2000-2010年数据为例,利用作者共被引分析方法,采用社会网络分析技术,对国际科学计量学领域进行了分析。其中,运用了Bibexcel这一文献计量工具构建作者共被引矩阵,然后使用社会网络分析软件Ucinet绘制其网络图谱,并对网络特性进行了分析,展示了国际科学计量学领域的研究现状。 相似文献
17.
悄然兴起的科学知识图谱 总被引:58,自引:5,他引:58
科学知识图谱是显示科学知识的发展进程与结构关系的一种图形。它的悄然兴起,一方面是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,另一方面又是显示科学知识地理分布的知识地图转向以图象展现知识结构关系与演进规律的结果。这里,在介绍有关科学知识图谱基本概念的基础上,从数据库、数据格式及存取,数据分析算法,可视化和互动设计,科学计量学等方面阐述了有关科学知识地图绘制的最新进展,并展望了其应用前景。其进展表明,无论是对于科学技术研究,还是对于企业技术创新,科学知识图谱都是一种有效的知识管理工具。 相似文献
18.
19.
鲁索(Ronald Rousseau)是世界著名的情报计量学家、数学家,并于2001年获得了信息计量学和科学计量学的最高奖——普赖斯奖。本文运用文献计量学、科学计量学、知识可视化的方法和技术,以WoS数据库论文数据为基础,对鲁索的学术论文及其成就影响进行定量分析,以期明确鲁索的主要学术领域及其与中国的学术交往。通过对其论文发表时间、期刊分布、被引频次、共词分析发现,鲁索的主要研究方向在情报计量学和h指数方面。通过对鲁索与中国的学术交往分析发现,鲁索与中国的科研机构及学者保持着长期密切的合作关系。 相似文献