共查询到20条相似文献,搜索用时 15 毫秒
1.
基于朴素贝叶斯分类的可疑金融交易识别研究 总被引:3,自引:0,他引:3
随着我国反洗钱活动中大额与可疑交易报告制度的不断完善,面对不断增长的交易报告数据,如何有效地从中检测出可疑交易是当前我国反洗钱工作中面临的核心问题之一。朴素贝叶斯分类是数据挖掘方法的一种,通过对案例数据的训练学习达到对未知类标识的样本分类。基于朴素贝叶斯分类的思想设计了适用于反洗钱中可疑交易识别的贝叶斯分类算法及模型,用数据对该算法进行了实验验证,并提出了与聚类算法相结合的综合运用设想。 相似文献
2.
"新浪爱问"和"百度知道"这类问答服务系统的主要任务之一是对问题进行分类,以便于组织用户产生的问题数据,并进行进一步的分析处理。问答服务系统的实际应用需求对问题分类算法在分类效果、计算复杂度以及对噪声数据敏感度等方面提出了较高的要求。基于信息检索思想,本文提出一种基于类文档排名的分类算法,并从语言模型的角度对该算法进行分析和改进。通过在一个大尺度的问题数据集合进行的一系列实验,表明本文提出的算法在问题分类任务中可以取得优于传统算法的分类效果;同时,该算法计算量较小,适用于处理大规模数据,可以很好的满足问答服务系统中对于问题分类算法的要求。 相似文献
3.
4.
提出基于半监督混合模型的海量入侵数据检测方法。利用蚁群算法进行入侵数据的特征选择,在结合半监督的混合模型分类方法进行入侵数据的分类,利用混合模型对数据样本空间的聚类分布进行描述,利用数据函数将聚类的信息与分类算法相结合,进行数据分类时对没有标示的数据样本进行考虑,对入侵数据进行检测。克服传统方法存在的弊端,提高了分类器的泛化能力,保证数据分类的效果,提高了入侵数据检测的准确性,完成对大数据环境下网络主动入侵海量数据检测的研究。实验的结果表明,利用本文方法能有效地提高入侵数据检测的准确性。 相似文献
5.
根据新疆喀什市探空观测站在L波段雷达数据审核中常见的问题,本文从地面人工数据的采集审核、施放点的审核和施放后数据采集及数据处理等方面总结了常见问题的处理。 相似文献
6.
提出基于图的半监督学习算法,即类别传播算,结合K均值算法改进,用于网页分类。该K均值类别传播方法使用欧式距离的建立带权∈NN图。在这个图中,图节点表示已标记或未标记的网页,边上的权重表示节点的相似度,已标记节点的类别沿着边向邻居节点传播,从而将网页分类问题形式化为类别在图上的传播。结合K均值方法,提高了计算速度以及图方法的归纳能力,经UCI数据集测试,结果表明,此算法比类别传播算法有更好的性能,能够有效地用于半监督网页分类。 相似文献
7.
8.
针对医学中癌细胞与正常细胞的正确分类率不高的问题,提出BP神经网络对其进行分类。本文介绍了BP神经网络的基本算法及几种改进算法。为了提高癌细胞的检测正确率,本文分别采用四种改进算法训练BP神经网络并进行测试。通过分析其训练效果的关键数据及测试结果,可以得到较高的癌细胞分类准确率。实验表明,采取合适的算法对BP网络进行训练,可以达到较好的分类效果。 相似文献
9.
10.
11.
在大数据时代背景之下,数据的分类和集成已经成为一种趋势,工业传感网也不例外。然而工业传感网数据有着数据量庞大,数据内容丰富的特点,对其进行人工分类费时费力。因此如何对工业传感网数据进行智能分类是工业领域中非常重要的一个模块。本文针对工业传感网数据的特性,在原有朴素贝叶斯算法(NB)的基础上,引入特有属性和公有属性的概念,并对两类属性赋予不同的权重,提出了一种基于特有公有属性的朴素贝叶斯(S-P-PNB)改进算法,并且用能够代表工业传感网数据的不同家电测试数据来进行实验。通过多次实验表明,该算法的改进能够有效提高不同家电测试数据的分类正确率,为其后续的数据集成做了铺垫,也为工业传感网数据分类提供了一种新的可行性算法。 相似文献
12.
13.
14.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。 相似文献
15.
许多现实应用中,由于数据流的特性,使人们难以获得全部数据的类标签。为了解决类标签不完整数据流的分类问题,本文首先分析了有标签数据集对基于聚类假设半监督分类算法分类误差的影响;然后,利用分类误差影响分析以及数据流的特点,提出一种基于聚类假设半监督数据流集成分类器算法(semi-supervised data stream ensemble classifiers under the cluster assumption,SSDSEC),并针对个体分类器的权值设定进行了探讨;最后,利用仿真实验验证本文算法的有效性。 相似文献
16.
路由交换数据在线时间复杂度根本上制约Web服务器跨站脚本链路漏洞检测性能,影响网络安全,传统的链路漏洞检测算法采用链路信息流自相关波束形成算法,当交换数据出现动态污点时,漏洞检测效果不好。提出一种基于路由交换数据在线时间复杂度预测的链路漏洞检测算法,基于污点数据传播模型,进行漏洞对象分布式阵元域分析,采用路由交换数据的在线时间预测,对动态污点数据在传播全程标记、监控,HTML页面中的链路漏洞信息流通过旋转矢量特征约束处理,对漏洞网页进行爬取分析,最后构建模型DOM-XSScaner模型实现链路漏洞检测。实验结果表明,采用该算法实现对预测链路安全分析和漏洞检测,检测效率具有较大的提高,准确性、覆盖率有所改进,在信息安全中有较高应用价值。 相似文献
17.
基于改进SVM的网络异常数据优化分类方法研究 总被引:1,自引:0,他引:1
《科技通报》2016,(2)
对网络异常数据进行准确分类能够为网络入侵分类、保障网络安全提供准确的依据。传统算法没有考虑网络异常数据分布的不均衡性和高动态变化性,从而降低了分类的准确率和效率。为此,提出一种基于改进SVM的网络异常数据分类方法。在确定网络异常数据隶属度的时候考虑到其与类中心的关系,对传统的SVM进行了改进,在构建SVM分类器的过程中,引入了模糊隶属度函数,并将网络异常数据的分类问题转换为二次规划问题,最终实现网络异常数据的准确分类。仿真实验结果表明,利用改进算法进行网络异常数据分类,能够提高网络异常数据分类的准确率和分类效率,效果令人满意。 相似文献
18.
19.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。 相似文献
20.
随机森林是一种优秀的分类算法,然而随机森林算法不能有效的判断冗余属性,因此影响了在含有冗余属性的数据集上的分类效果。针对这一问题,本文提出了一种基于局部线性嵌入的随机森林算法。该算法利用局部线性嵌入算法对冗余属性数据集进行降维,然后利用随机森林算法进行分类学习。在UCI标准数据集上的仿真实验说明,本文算法是一种优秀的含冗余属性数据集分类算法。 相似文献