首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
离群数据检测是找出与正常数据不一致的数据。学生评教中由于某种原因,会出现一些评教噪声数据。针对学生评教中噪声数据的特征,提出了一个基于熵值距离的离群点检测算法,该算法通过比较每个数据点所对应的熵值和整个数据集的熵值,来判断数据点的离群程度。仿真结果表明该算法对学生评教中出现的噪声数据具有较好的过滤效果。  相似文献   

2.
为降低风电场的运营成本和提高设备维护效率,提出了基于离群点检测和PSO-BP的风速预测模型。将基于距离和统计学的离群点检测方法结合,并通过分组剔除风速数据中的异常值;然后利用小波阈值去噪算法对风速数据进行去噪;最后使用粒子群算法优化后的BP神经网络进行预测。仿真结果证明,改进的离群点检测方法和小波阈值去噪降低了风速数据的波动性和随机性;对于3组不同风速数据,基于离群点检测和PSO-BP预测模型的预测精度均高于其他对比模型。  相似文献   

3.
电类实验教学在高等院校中覆盖面广,实验过程中学生所测数据量大,人工评判数据工作繁琐。随着在线实验教学的普及,迫切需要一种实验数据智能评判的方法。依据Mean Shift思想提出一种基于距离的离群点检测(MSOD)算法,以理论计算值作为初始点,沿着概率密度梯度的方向寻找数据集最稠密的位置,与该位置的距离大于某一特定值的数据为离群点,离群点数据即为测量有误的数据。实验结果表明,MSOD算法识别错误实验数据的效果较好,可以有效地减少实验教学中重复繁琐的人工评判数据的工作,节约人力成本,提高实验教学效率。与现有的离群点检测算法比较,MSOD算法提高了错误数据识别的正确率,并且降低了时间成本。  相似文献   

4.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

5.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

6.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

7.
离群点研究在实际应用中有着重要的意义,随着数据规模的不断扩大,传统的离群点检测方法已经不适用于高维空间数据,本文在遗传算法的基础上结合模拟退火算法,一方面利用遗传算法对高维数据处理有很好的全局搜索能力,一方面利用模拟退火算法的局部搜索能力,最后经实验证明,本文提出的新算法能有效的提高高维空间离群点检测的效率.  相似文献   

8.
随着网络规模的不断扩大,为了保障网络安全、稳定运行,需要一种更高效的网络故障预警算法。通过对传统网络故障预警算法优缺点的分析,针对其缺点进行优化改进,采用离群点检测算法建立网络故障预警模型。对异常检测算法数据进行预处理,在 Hadoop 平台上计算数据异常指数,并不断调整阈值参数。实验结果表明,改进型离群点检测算法故障检测率达到 98%,可对网络故障进行有效预警。  相似文献   

9.
离群点又称特异点、兴趣点、偏离点、新颖点、异常点等。通过离群点识别可发现异常事件与新现象。随着信息技术的发展和信息量爆炸式增长,通过识别数据中的离群点获得潜在信息成为研究热点。首先简要介绍几种主要的离群点识别方法,并分析各种方法的优缺点,为相关使用者学习、选择和改进算法提供参考。阐述离群点识别的研究热点和应用邻域,并分析现有算法在识别高维、空间和时序数据离群点的难点,便于研究者提出新的相关离群点识别方法。  相似文献   

10.
提出了一种基于机器视觉的轨距点定位算法能较好地适应并解决这一问题,该算法在基于机器视觉的基础上获得轨道断面光带图像,并结合LabVIEW软件对图像进行处理得到轨道截面轮廓的测点数据;其次,对轨头测点数据进行曲线拟合得到轨道顶面曲线,应用冒泡算法排序得到轨头测点到顶面曲线切线平移值的距离,选取距离较小的值做二次曲线拟合,求取曲线与切线平移后直线的交点达到对轨距点定位;最终实现对轨距的准确检测。试验结果表明:该算法能够实现轨道轨距点的快速精确定位,捕捉精度可达到1 mm,有效地对轨道轨距进行了检测。  相似文献   

11.
k'-means是对k-means算法的一种改进,它引入了竞争惩罚学习机制,可以在无监督的情况下确定聚类数目.本文提出了两种新的基于频率敏感差异度量的k'-means算法,新算法利用竞争惩罚学习机制确定聚类数目.针对一组合成数据进行对比实验,结果表明新的k'-means算法可以成功地对数据集进行分类.最后,本文将新算法应用于图像分割.  相似文献   

12.
网上购物系统具有强大的交互功能,它的主要特点就是改变了购物只有到现实商场的惯常做法,这种全新的交易方式采用Web技术,借助于Internet互联网广泛应用,达到资源共享,实现公司间文档与资金的无纸化交换,并使商家和用户方便地传递信息,完成电子贸易或EDI交易。  相似文献   

13.
一种改进的k-means聚类算法   总被引:2,自引:0,他引:2  
针对k-means算法事先必须获知聚类数目以及难以确定初始中心的缺点,提出了一种改进的k-means聚类算法.首先引入轮廓系数的概念,通过计算不同K值下簇集中各对象的轮廓系数确定事先未知分类信息的数据集中所包含的最优聚类数Kopt;然后通过凝聚层次聚类的方法获得数据集的分布,确定初始聚类中心;最后利用传统的k-means方法完成聚类.理论分析表明,所提出的算法具有适度的计算复杂度.IRIS测试数据集的实验结果表明了该算法能够合理区分不同类型的簇集,且可以有效地识别离群点,聚合后的结果簇集具有较低的熵值.  相似文献   

14.
指数分布多个异常数据的检验   总被引:2,自引:2,他引:0  
利用样本分位数构造检验统计量,给出来自于指数分布总体异常数据的一种检测方法.求出了检验统计量精确的概率密度函数和大样本情形下的近似分布,从而得到了检验临界值简洁的近似表达式.检验统计量中的核心统计量——样本分位数,对于异常数据的干扰具有一定的抵抗力,因此该方法可有效地达到检测效果.  相似文献   

15.
Recently a new clustering algorithm called 'affinity propagation' (AP) has been proposed, which efficiently clustered sparsely related data by passing messages between data points. However, we want to cluster large scale data where the similarities are not sparse in many cases. This paper presents two variants of AP for grouping large scale data with a dense similarity matrix. The local approach is partition affinity propagation (PAP) and the global method is landmark affinity propagation (LAP). PAP passes messages in the subsets of data first and then merges them as the number of initial step of iterations; it can effectively reduce the number of iterations of clustering. LAP passes messages between the landmark data points first and then clusters non-landmark data points; it is a large global approximation method to speed up clustering. Experiments are conducted on many datasets, such as random data points, manifold subspaces, images of faces and Chinese calligraphy, and the results demonstrate that the two approaches are feasible and practicable.  相似文献   

16.
OCSVM适合无监督情况下的孤立点检测,与入侵检测问题有很大的相似性.文章研究了OCSVM在网络入侵检测中的应用,探讨了模型优化的两个主要方面.提出的二阶段模型参数选取方法,能够比GA算法更快地搜索到近似全局最优参数;采用GA算法提取出22个TCP/IP连接的重要特征,比较了采用特征子集和全部特征的OCSVM的检测精度、训练测试时问.实验表明,给出的OCSVM模型优化方法,能够获得优异检测性能,具有更优的训练和检测效率,意味着可以应用到实时网络入侵检测系统.  相似文献   

17.
INTRODUCTION Clustering groups dataset data into meaning-ful subclasses in such a way that minimizes theintra-differences and maximizes the in-ter-differences of these subclasses; and is one ofthe most widely studied problems in data mining.There are many application areas for clusteringtechniques, such as statistical data analysis, patternrecognition, image processing, and other businessprocesses etc. Many clustering algorithms havebeen proposed, in part…  相似文献   

18.
The density-based clustering algorithm presented is different from the classical Density-Based Spatial Clustering of Applications with Noise(DBSCAN)(Ester et al.,1996),and has the following advantages: first,Greedy algorithm substitutes for R*-tree(Bechmann et al.,1990)in DBSCAN to index the clustering space so that the clustering time cost is decreased to great extent and I/O memory load is reduced as well; second,the merging condition to approach to arbitrary-shaped clusters is designed carefully so that a single threshold can distinguish correctly all clusters in a large spatial dataset though some density-skewed clusters live in it. Finally,authors investigate a robotic navigation and test two artificial datasets by the proposed algorithm to verify its effectiveness and efficiency.  相似文献   

19.
在对3维模型2维投影图利用区域的Fourier变换提取其形状特征的基础上,提出了一种新的基于特征序列为训练模型的异常检测算法。首先对高维特征序列进行约减至低维序列;其次,引入序列局部模式的相似度和异常值的定义对任意的测试集区分异常。通过PSB数据集实验证明了该方法的有效性和合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号