共查询到20条相似文献,搜索用时 515 毫秒
1.
云模型是云理论的核心,数据流聚类算法在云模型中有较好的应用前景,但也面临着聚类效率、聚类适应性的难题,为此本文提出了一种有抗体免疫的云模型数据流聚类算法。通过设置加权期望值、熵等参数形成云数据特有的数据概要结构,作为抗体代入人工免疫算法中;利用衰减函数和时刻权重来定量表现不同时刻的数据的重要性程度,并以抗体期望克服率为特征值以维持抗体的多样性,采用淘汰法确保最后的数据概要结构更符合云模型数据流的本质特征。实验表明,该算法在云模型数据流中的聚类处理速度和聚类效率均优于传统算法,具有一定的应用价值。 相似文献
2.
传统的基于数据流聚类算法的网络攻击检测技术自适应性不强、对问题的依赖性过高造成聚类质量不够理想、聚类效率低等缺陷,提出一种基于期望克隆率的数据流聚类算法。引入衰减函数和时刻权重来反映过去的数据与当前流入的网络数据在整个服务器集群网络数据流中的地位,通过计算抗体期望克隆率来限制抗体克隆的数目以及保持抗体的多样性,采取服务器集群网络中的淘汰策略使最终的网络结构更符合原始数据流的内在特性并生成网络数据的统计信息,然后利用最能反映当前网络行为的统计信息来检测攻击行为。仿真结果表明,该方法能够弥补传统服务器集群网络非确定攻击检测系统的缺陷,提高了网络攻击的检测率,降低了误报率。 相似文献
3.
许多现实应用中,由于数据流的特性,使人们难以获得全部数据的类标签。为了解决类标签不完整数据流的分类问题,本文首先分析了有标签数据集对基于聚类假设半监督分类算法分类误差的影响;然后,利用分类误差影响分析以及数据流的特点,提出一种基于聚类假设半监督数据流集成分类器算法(semi-supervised data stream ensemble classifiers under the cluster assumption,SSDSEC),并针对个体分类器的权值设定进行了探讨;最后,利用仿真实验验证本文算法的有效性。 相似文献
4.
[目的/意义]引入时间衰减因子与聚类系数对共词网络链路预测局部相似性指标进行优化改进,以期进一步提升共词网络链路预测的精确度。[方法/过程]从3个角度来提升局部相似性指标预测精确度:一是引入时间衰减因子计算连边权重,对不同时间段的连边进行区别处理;二是结合聚类系数改进已有相关相似性指标,即利用节点邻域拓扑信息进一步区分不同节点对相似性的贡献;三是同时融合时间衰减因子和聚类系数进行指标优化改进。再以图书情报学领域为例构建共词网络,利用多种分类算法(如朴素贝叶斯、决策树、随机森林、SVM)预测和评估所改进指标的预测精确度。[结果/结论]引入时间衰减因子,指标WCN、WAA、WPA、WRA的预测精确度均得到了有效提升;结合聚类系数,指标CN、AA、RA、WCN、WPA、WRA和SA的预测精确度均得到了不同程度的提升;同时融合时间衰减因子和聚类系数,WCN、WAA、WRA的预测精确度得到了进一步的提升。由此可知,引入时间衰减因子或聚类系数均能在一定程度上提升共词网络链路预测相关指标的准确度。 相似文献
5.
轮廓查询在多维决策中起着很重要的作用,虽然传统数据库领域已经对其有相当多的研究,但是现有的算法却不适用于数据流应用环境.数据流的持续无限性决定了需要不断对轮廓进行更新和维护.本文提出了CCS算法以解决连续更新的滑动窗口轮廓查询问题,同时还提出了PCS算法以解决周期性更新的滑动窗口轮廓查询问题. 相似文献
6.
研究高效进行数据聚类,提高数据聚类能力的问题。传统的模糊C均值算法具有对初始值和噪声极为敏感和遗传算法在局部极值点收敛的缺陷。基于模糊c均值聚类算法,提出一种改进的优化聚类算法。利用混沌序列的均匀遍历特性和差分进化算法的高效全局搜索能力,对模糊c均值算法进行改进,利用Logistics混沌映射对聚类算法进行优化搜索,把混沌扰动量引入到进化种群当中,弥补了模糊C均值算法的缺陷。采用改进的Logistics映射扰动搜索聚类算法,以目标识别为案例,综合4类目标特征参数为研究对象,开发了一套有价值的目标识别专家系统软件。仿真实验表明,改进的数据聚类算法,具有优越的数据聚类性能,聚类判断准确率提高明显,设计的专家系统软件对目标识别特征分类具有较好的准确性和可靠性,具有一定的应用价值。 相似文献
7.
文本聚类算法的质量评价 总被引:4,自引:0,他引:4
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。 相似文献
8.
限制性聚类是一种试图将用户监督信息加入到已有聚类算法中的一种分类技术,目前已经被广泛应用于K-means算法和层次聚类算法中.在本文中,提出一种将限制条件加入到谱聚类算法的半监督聚类方法,利用正约束和负约束限制来构造约束矩阵,通过它们来引导聚类过程,并结合最优化技术,达到聚类的目的.数据实验验证了这种方法具有很好的精确度. 相似文献
9.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 相似文献
10.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。 相似文献
11.
12.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。 相似文献
13.
《科技通报》2015,(8)
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。 相似文献
14.
15.
16.
较为系统的综述了当前空间聚类算法的相关研究。依据这些算法的特点,将它们归纳为两类:划分聚类算法、层次聚类算法。针对划分聚类算法,重点分析了PAM、CLARA和CLARANS算法。针对层次聚类算法,重点分析了BIRCH、CURE算法。比较了这些算法的复杂度,并介绍了相关应用。 相似文献
17.
18.
19.