首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 19 毫秒
1.
针对传统离群点检测算法的局限性进行研究,利用数据对象之间的相邻关系,提出了一种基于密度和距离相结合的离群检测算法,该算法解决了基于距离的离群检测算法不能准确识别局部离群点的问题,有效避免由于稀疏和密集簇过于邻近的而出现离群点误判的情况。通过在人工模拟数据及真实数据集上的实验测试证明改进算法的可行性,该算法能更有效地检测出数据集中的离群对象。  相似文献   

2.
电类实验教学在高等院校中覆盖面广,实验过程中学生所测数据量大,人工评判数据工作繁琐。随着在线实验教学的普及,迫切需要一种实验数据智能评判的方法。依据Mean Shift思想提出一种基于距离的离群点检测(MSOD)算法,以理论计算值作为初始点,沿着概率密度梯度的方向寻找数据集最稠密的位置,与该位置的距离大于某一特定值的数据为离群点,离群点数据即为测量有误的数据。实验结果表明,MSOD算法识别错误实验数据的效果较好,可以有效地减少实验教学中重复繁琐的人工评判数据的工作,节约人力成本,提高实验教学效率。与现有的离群点检测算法比较,MSOD算法提高了错误数据识别的正确率,并且降低了时间成本。  相似文献   

3.
离群数据检测是找出与正常数据不一致的数据。学生评教中由于某种原因,会出现一些评教噪声数据。针对学生评教中噪声数据的特征,提出了一个基于熵值距离的离群点检测算法,该算法通过比较每个数据点所对应的熵值和整个数据集的熵值,来判断数据点的离群程度。仿真结果表明该算法对学生评教中出现的噪声数据具有较好的过滤效果。  相似文献   

4.
随着网络规模的不断扩大,为了保障网络安全、稳定运行,需要一种更高效的网络故障预警算法。通过对传统网络故障预警算法优缺点的分析,针对其缺点进行优化改进,采用离群点检测算法建立网络故障预警模型。对异常检测算法数据进行预处理,在 Hadoop 平台上计算数据异常指数,并不断调整阈值参数。实验结果表明,改进型离群点检测算法故障检测率达到 98%,可对网络故障进行有效预警。  相似文献   

5.
为降低风电场的运营成本和提高设备维护效率,提出了基于离群点检测和PSO-BP的风速预测模型。将基于距离和统计学的离群点检测方法结合,并通过分组剔除风速数据中的异常值;然后利用小波阈值去噪算法对风速数据进行去噪;最后使用粒子群算法优化后的BP神经网络进行预测。仿真结果证明,改进的离群点检测方法和小波阈值去噪降低了风速数据的波动性和随机性;对于3组不同风速数据,基于离群点检测和PSO-BP预测模型的预测精度均高于其他对比模型。  相似文献   

6.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

7.
K-means算法作为较为普遍的聚类算法,聚类效果受孤立点、噪声点和初始聚类中心影响较大。结合Isolation Forest算法计算数据中每个样本的异常度系数,根据离群值过滤比例计算得到异常度系数阈值,对高度异常值加以隔离,并对隔离后的数据集使用平均插值法求得初始聚类中心。运用改进K-means算法对真实数据集进行聚类分析,与此同时,通过比较多个离群值过滤比例下的聚类结果,找到离群值过滤比例的最优取值。仿真结果表明,相比于原始算法,新算法显著提升了聚类准确性,聚类效果更佳。  相似文献   

8.
目前,许多入侵检测系统都是采用误用检测模式,无法检测出未知的攻击;而一些基于数据挖掘的异常检测系统,虽然对未知攻击具有较高检测率,但普遍的缺点是误报警率很高,导致真正的攻击湮没在大量的误报警之中.通过对误用检测和异常检测的研究,结合它们的优点,提出了一种基于随机森林算法的混合入侵检测系统:首先使用基于Snort的误用检测组件过滤掉网络数据中的已知攻击;之后,数据被送人异常检测组件.在此组件中,通过对随机森林算法的改进,设计了一种无监督的离群点检测方式,可以有效检测出新的攻击,并且在误报警率很低的时候,也能得到较高的检测率.  相似文献   

9.
冷链运输过程中需要对温度信息进行实时监控,但由于传感器本身的特性,很容易采集到错误的数据。为了解决这一问题,根据冷链运输过程中温度数据呈正太分布的特点,将正太分布离群算法应用于冷链温度监测中,并通过模拟的冷链运输环境进行实验。结果表明,基于正太分布离群算法的温度监测方法能够准确剔除温度数据中不正常的数据,准确性达到了100%。  相似文献   

10.
城市照明监控历史运行数据往往蕴含着大量的潜在信息和知识,人们迫切需要对有价值的数据进行深度挖掘,并将获得的成果应用于运行状况评估、异常预警和运营参数调优中。基于城市照明监控历史运行数据,提出了一种基于大数据分析技术的应用方法,对海量运行数据进行聚类分析,以及对场景模式进行划分得到判别决策树,并对实时监测过程中的动态数据进行离群点分析,从而判别当前设备运行状况。结合应用实例对模型进行合理性验证,证明了该方法的可行性。  相似文献   

11.
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

12.
网上购物系统具有强大的交互功能,它的主要特点就是改变了购物只有到现实商场的惯常做法,这种全新的交易方式采用Web技术,借助于Internet互联网广泛应用,达到资源共享,实现公司间文档与资金的无纸化交换,并使商家和用户方便地传递信息,完成电子贸易或EDI交易。  相似文献   

13.
随着智慧农业的发展,农业生产中海量数据不断涌现。在海量数据中难免存在噪声数据,这些数据不仅难以提供有效价值,还会影响信息挖掘。针对该问题,采用基于密度的DBSCAN聚类算法进行异常数据处理。鉴于DBSCAN算法对参数敏感,结合数据集本身特性与统计学思想以绘制各点之间的距离升序曲线,预估出DBSCAN的Eps参数。仿真实验结果表明,改进算法平均准确率达到99.6%,较传统算法提高了1.7个百分点,并且在10次检测中,改进算法只有3个数据判定错误,证明该参数设置方法对异常数据处理准确率更高,稳定性也更好。  相似文献   

14.
贾宝玉和默而索这两个形象之所以成为局外人,是因为他们都存在着精神家园的缺失,并且正是由于他们对家园的追求和向往导致了他们的局外人地位。本文通过对二人局外人形象的成因追溯,探讨这两个局外人形象的社会意义。  相似文献   

15.
针对传统的数据频繁项集挖掘技术无法快速有效地获取不确定数据中有价值信息的缺点,通过分析不确定数据产生的原因和当前已开展不确定数据挖掘的相关工作,在结合传统频繁项集挖掘算法的基础上,提出需要明确不确定数据特点,运用几种比较高效的新方法来进行不确定数据的频繁项集挖掘,从而为后续做更深入研究奠定扎实基础。  相似文献   

16.
从分布形状、趋中度以及离散程度来看,反应时都具有区别于其他数据类型的非常鲜明的特点。 因此,反应时数据的统计分析处理往往也有不同的技术要求和门槛。基于R 语言的混合效应模型为反应时分布上的正偏斜、各数据点之间强关联以及异常值等问题提供了很好的解决方案。本文在回顾传统的反应时数据分析方法后,以一项具体的研究为实例介绍了使用“混合效应模型”来拟合反应时数据的基本原理、概念内涵以及如何拟合最佳模型等问题。  相似文献   

17.
针对不完全样本观测数据,讨论了一类均匀分布总体参数的区间估计问题.利用样本中位数给出了构造置信区间的一个新枢轴量,推导出了枢轴量的概率密度函数表达式,并且在大样本场合,讨论了总体参数的近似置信区间.该方法不仅适用于不完全数据场合,而且还适用于样本中可能存在异常数据的情形,具有稳健性.  相似文献   

18.
A new method to detect multiple outliers in multivariate data is proposed. It is a combination of minimum subsets, resampling and self-organizing map (SOM) algorithm introduced by Kohonen,which provides a robust way with neural network. In this method, the number and organization of the neurons are selected by the characteristics of the spectra, e. g., the spectra data are often changed linearly with the concentration of the components and are often measured repeatedly, etc. So the spatial distribution of the neurons can be arranged by this characteristic. With this method, all the outliers in the spectra can be detected, which cannot be solved by the traditional method, and the speed of computation is higher than that of the traditional neural network method. The results of the simulation and the experiment show that this method is simple, effective, intuitionistic and all the outliers in the spectra can be detected in a short time. It is useful when associated with the regression model in the near infra-red research.  相似文献   

19.
Most clustering algorithms need to describe the similarity of objects by a predefined distance function. Three distance functions which are widely used in two traditional clustering algorithms k-means and hierarchical clustering were investigated.Both theoretical analysis and detailed experimental results were given. It is shown that a distance function greatly affects clustering results and can be used to detect the outlier of a cluster by the comparison of such different results and give the shape information of clusters. In practice situation, it is suggested to use different distance function separately, compare the clustering results and pick out the "swing points". And such points may leak out more information for data analysts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号