首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

2.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。  相似文献   

3.
利用对某网络公司的客户数据使用K均值聚类方法,针对数据中存在的缺失和变量共线性严重的情况,对数据进行预处理。通过选择出符合分类目的的变量得出可用于聚类的完整数据集。然后通过建模对客户进行分类,利用已人为分类的100个样本为训练集。  相似文献   

4.
随着网络的快速发展,入侵检测系统生成的告警信息越来越多,聚类技术广泛的应用于处理告警信息.针对传统的K-Means算法易陷入局部最优,提出一种改进半监督聚类算法ISC.从数据集中抽取若干正常与异常样本分别采用层次聚类算法分别计算作为初始质心辅助K-Means算法进行聚类.实验结果表明,与现有相关算法相比,该算法具有更高的攻击检测率以及更低的误报率.  相似文献   

5.
聚类方法能够提高Web服务检索的能力,针对传统的K-Means聚类算法聚类时间长的缺陷,文中提出了一种改进的K-Means服务聚类方法,并进行了有效性验证,在利用API服务数据集上进行实验,其结果表明:改进的K-Means服务聚类的方法降低了服务聚类的时间复杂度。  相似文献   

6.
K-Means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-Means算法的局限性日益突出。基于网格划分的思想,提出了一种基于网格的K-Means聚类算法,该算法使用了网格技术在一定程度上去除了孤立点和噪声数据,减少了原始K-Means算法将大的聚类分开的可能。实验表明,该算法能处理任意形状和大小的聚类,对孤立点和噪声数据也能很好地识别,并且在去除孤立点和噪声数据方面可以达到较好的精度。  相似文献   

7.
K-Means是一种简单、高效的聚类方法,能快速将网页文本分类。SVM在解决小样本、非线性及高维模式识别中有许多独特优势,能够通过低样本获取全局最优解。因此,将K Means和SVM结合,以达到自动识别流行中文钓鱼网站并对其进行分类的目的。验证了两种方法结合应用的有效性。  相似文献   

8.
支持向量机是人工智能研究领域中的重要课题,但该算法不能够对复杂高维的生物医学数据进行准确的分类,而FSVM方法能够利用模糊性对标记样本数据进行较准确的归类,故采用FSVM算法对老年痴呆数据进行分析.通过特征提取方法对数据进行降维,采用主成分分析法提取出数据的11个主成分,并筛选前3个主成分和前2个主成分分别进行分类模型的训练.利用基于FSVM的模糊C均值聚类方法将老年痴呆的121个样本分成了正负两个类别,实验结果表明,FSVM算法能够有效地分析老年痴呆数据.  相似文献   

9.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

10.
聚类是指按照事物间的相似性对事物进行区分和分类的过程,是在无指导下自动进行的无监督分类。本文应用数据挖掘技术中的聚类分析,对毕业生就业信息进行研究,介绍了K-Means算法和K-Means算法在毕业生就业信息分析中的应用。  相似文献   

11.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

12.
把主分量分析(PCA)方法和自组织特征映射网络(SOM)相结合,应用到基因数据聚类分析中。首先对基因数据集进行PCA分析,提取出少量的特征主分量,再对数据集进行降维。这些主分量基本上可以反映原数据集的综合信息,然后应用SOM网络对得到的特征分量进行聚类分析,把相似的基因划分到一个区域。实验结果表明,与单一地选用SOM网络进行聚类分析相比,该方法有较高的分类正确率及较为清晰的分类边界,是一种非常有效的聚类分析方法。  相似文献   

13.
针对聚类算法易陷入局部优化的缺点,将中心定位算子遗传算法与层次聚类方法动态结合,通过遗传算法的全局寻优特点弥补层次聚类算法的不足.在算法的后期融入Chameleon思想,提高了算法的准确性.通过对UCI中的三个数据集样本进行测试,表明聚类效果优于传统聚类方法.  相似文献   

14.
肺栓塞是一种致死率很高的常见疾病,肺栓塞的预测和早期诊断对于人类的健康具有重要意义。本文提出了一种基于属性聚类的多示例集成学习方法,首先采用K-Means聚类算法对CTA数据进行属性聚类,降低数据的维度,然后用多示例集成学习方法进行肺栓塞预测。在真实世界数据集上的实验结果显示,与属性聚类前、单个分类器及一般的简单集成学习方法相比,该方法构造的分类器取得了更好的预测效果。  相似文献   

15.
为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K 均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K 均值聚类方法对数据集进行聚类。用上述方法研究了访客在某网站各栏目的平均停留时间,结果表明,基于预测强度的聚类方法较常规聚类方法更适宜于大数据的聚类分析。  相似文献   

16.
近年来,数据挖掘逐渐成为一个热门的研究方向,而聚类作为数据挖掘的主要方法之一,越来越受到关注。目前,空间聚类主要采用成熟的K-Means聚类算法,但K-Means聚类算法的空间度量主要是欧氏几何距离,这在道路网络中并不适用。采用基于SVG道路网络边的聚类算法,首先,将位于同一条道路网络边的空间对象划分为一个初始聚类;然后,按照距离阈值对初始聚类进行分裂,生成小的聚类块;最后,对与结点相邻的聚类块进行合并得到最终的聚类结果。  相似文献   

17.
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样.并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据。用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。  相似文献   

18.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

19.
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。通过基于迭代思想的聚类算法,可对给定的数据对象集合进行层次分解,最终将样本空间分类成有聚类集合。  相似文献   

20.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号