首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于朴素贝叶斯分类的可疑金融交易识别研究   总被引:3,自引:0,他引:3  
张成虎  高薇 《情报杂志》2006,25(11):46-47,51
随着我国反洗钱活动中大额与可疑交易报告制度的不断完善,面对不断增长的交易报告数据,如何有效地从中检测出可疑交易是当前我国反洗钱工作中面临的核心问题之一。朴素贝叶斯分类是数据挖掘方法的一种,通过对案例数据的训练学习达到对未知类标识的样本分类。基于朴素贝叶斯分类的思想设计了适用于反洗钱中可疑交易识别的贝叶斯分类算法及模型,用数据对该算法进行了实验验证,并提出了与聚类算法相结合的综合运用设想。  相似文献   

2.
"新浪爱问"和"百度知道"这类问答服务系统的主要任务之一是对问题进行分类,以便于组织用户产生的问题数据,并进行进一步的分析处理。问答服务系统的实际应用需求对问题分类算法在分类效果、计算复杂度以及对噪声数据敏感度等方面提出了较高的要求。基于信息检索思想,本文提出一种基于类文档排名的分类算法,并从语言模型的角度对该算法进行分析和改进。通过在一个大尺度的问题数据集合进行的一系列实验,表明本文提出的算法在问题分类任务中可以取得优于传统算法的分类效果;同时,该算法计算量较小,适用于处理大规模数据,可以很好的满足问答服务系统中对于问题分类算法的要求。  相似文献   

3.
针对各种变形的Web攻击行为难以检测的问题,本文提出了基于TF-IDF逻辑回归算法的Web攻击检测方法,利用数据统计方法 TF-IDF算法将无规律数据集转换成固定维数的特征矩阵,同时利用逻辑回归算法进行训练和分类。并借助三种分类模型评估方法验证该检测方法的可行性。  相似文献   

4.
提出基于半监督混合模型的海量入侵数据检测方法。利用蚁群算法进行入侵数据的特征选择,在结合半监督的混合模型分类方法进行入侵数据的分类,利用混合模型对数据样本空间的聚类分布进行描述,利用数据函数将聚类的信息与分类算法相结合,进行数据分类时对没有标示的数据样本进行考虑,对入侵数据进行检测。克服传统方法存在的弊端,提高了分类器的泛化能力,保证数据分类的效果,提高了入侵数据检测的准确性,完成对大数据环境下网络主动入侵海量数据检测的研究。实验的结果表明,利用本文方法能有效地提高入侵数据检测的准确性。  相似文献   

5.
根据新疆喀什市探空观测站在L波段雷达数据审核中常见的问题,本文从地面人工数据的采集审核、施放点的审核和施放后数据采集及数据处理等方面总结了常见问题的处理。  相似文献   

6.
提出基于图的半监督学习算法,即类别传播算,结合K均值算法改进,用于网页分类。该K均值类别传播方法使用欧式距离的建立带权∈NN图。在这个图中,图节点表示已标记或未标记的网页,边上的权重表示节点的相似度,已标记节点的类别沿着边向邻居节点传播,从而将网页分类问题形式化为类别在图上的传播。结合K均值方法,提高了计算速度以及图方法的归纳能力,经UCI数据集测试,结果表明,此算法比类别传播算法有更好的性能,能够有效地用于半监督网页分类。  相似文献   

7.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入了统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用MapReduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,本文算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和大数据处理能力。  相似文献   

8.
芦鸿雁 《黑龙江科技信息》2013,(4):89+133-89,133
针对医学中癌细胞与正常细胞的正确分类率不高的问题,提出BP神经网络对其进行分类。本文介绍了BP神经网络的基本算法及几种改进算法。为了提高癌细胞的检测正确率,本文分别采用四种改进算法训练BP神经网络并进行测试。通过分析其训练效果的关键数据及测试结果,可以得到较高的癌细胞分类准确率。实验表明,采取合适的算法对BP网络进行训练,可以达到较好的分类效果。  相似文献   

9.
为了解决传统网络攻击检测算法存在的检测准确率低等问题,提出了一种基于SVM和DS证据理论的网络攻击检测算法。该算法首先利用样本主特征进行检测,当数据出现模糊分类时,利用辅助特征和DS证据理论对数据的隶属度进行重新划分,有效改善了经典SVM算法的模糊分类问题。仿真结果表明,带有修正机制的SVM算法对于网络攻击检测,尤其是攻击类型未知的数据,检测准确率明显提高,平均到了95%以上,算法的整体性能表现优良。  相似文献   

10.
决策树分类算法研究综述   总被引:4,自引:0,他引:4  
本文基于决策树分类算法的研究现状,重点介绍了一些极具代表性的算法,包括ID3、C4.5等,对各种决策树分类算法的基本思想进行阐述,分析比较各种典型算法的优点和不足,并对决策树分类算法所面临的问题进行了简要的阐述,为数据分类研究者提供借鉴。  相似文献   

11.
在大数据时代背景之下,数据的分类和集成已经成为一种趋势,工业传感网也不例外。然而工业传感网数据有着数据量庞大,数据内容丰富的特点,对其进行人工分类费时费力。因此如何对工业传感网数据进行智能分类是工业领域中非常重要的一个模块。本文针对工业传感网数据的特性,在原有朴素贝叶斯算法(NB)的基础上,引入特有属性和公有属性的概念,并对两类属性赋予不同的权重,提出了一种基于特有公有属性的朴素贝叶斯(S-P-PNB)改进算法,并且用能够代表工业传感网数据的不同家电测试数据来进行实验。通过多次实验表明,该算法的改进能够有效提高不同家电测试数据的分类正确率,为其后续的数据集成做了铺垫,也为工业传感网数据分类提供了一种新的可行性算法。  相似文献   

12.
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是相同的,同时对于大数据集的处理也存在性能低下的缺点。针对如上问题,本文提出了一种基于TFIDFCF特征加权的并行化朴素贝叶斯文本分类算法,该算法通过Map Reduce并行框架实现。利用THUCNews新闻文本数据开展文本分类处理,实验结果表明,并行框架下的TFIDFCF特征加权的朴素贝叶斯算法在训练速度和预测精度上都有提高。  相似文献   

13.
直升机巡检架空输电线路与传统人工相比,具有效率高、效果好等优势。巡检作业将会产生大量巡检数据,以往依靠人工进行整理分类,工作量巨大,且无法对接机巡数据管理系统。为解决巡检数据整理分类效率低下问题,在规范吊舱系统巡检数据接口的基础上,提出了用于可见光相机和吊舱系统互联的数据同步方法,提出了基于导航精确定位的巡检数据自动整理分类方法和基于数据分割点设定的巡检数据半自动整理分类方法,全面解决了巡检数据人工整理分类的问题,有效提升了架空输电线路直升机巡检应用效果。  相似文献   

14.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

15.
许多现实应用中,由于数据流的特性,使人们难以获得全部数据的类标签。为了解决类标签不完整数据流的分类问题,本文首先分析了有标签数据集对基于聚类假设半监督分类算法分类误差的影响;然后,利用分类误差影响分析以及数据流的特点,提出一种基于聚类假设半监督数据流集成分类器算法(semi-supervised data stream ensemble classifiers under the cluster assumption,SSDSEC),并针对个体分类器的权值设定进行了探讨;最后,利用仿真实验验证本文算法的有效性。  相似文献   

16.
路由交换数据在线时间复杂度根本上制约Web服务器跨站脚本链路漏洞检测性能,影响网络安全,传统的链路漏洞检测算法采用链路信息流自相关波束形成算法,当交换数据出现动态污点时,漏洞检测效果不好。提出一种基于路由交换数据在线时间复杂度预测的链路漏洞检测算法,基于污点数据传播模型,进行漏洞对象分布式阵元域分析,采用路由交换数据的在线时间预测,对动态污点数据在传播全程标记、监控,HTML页面中的链路漏洞信息流通过旋转矢量特征约束处理,对漏洞网页进行爬取分析,最后构建模型DOM-XSScaner模型实现链路漏洞检测。实验结果表明,采用该算法实现对预测链路安全分析和漏洞检测,检测效率具有较大的提高,准确性、覆盖率有所改进,在信息安全中有较高应用价值。  相似文献   

17.
基于改进SVM的网络异常数据优化分类方法研究   总被引:1,自引:0,他引:1  
对网络异常数据进行准确分类能够为网络入侵分类、保障网络安全提供准确的依据。传统算法没有考虑网络异常数据分布的不均衡性和高动态变化性,从而降低了分类的准确率和效率。为此,提出一种基于改进SVM的网络异常数据分类方法。在确定网络异常数据隶属度的时候考虑到其与类中心的关系,对传统的SVM进行了改进,在构建SVM分类器的过程中,引入了模糊隶属度函数,并将网络异常数据的分类问题转换为二次规划问题,最终实现网络异常数据的准确分类。仿真实验结果表明,利用改进算法进行网络异常数据分类,能够提高网络异常数据分类的准确率和分类效率,效果令人满意。  相似文献   

18.
目前,通过电子邮件泄漏和违规使用个人身份信息的行为已经成为所有组织所面临的迫切需要解决的问题。基于此,本文提出一种基于数据挖掘的个人身份信息识别模型,来自动识别电子邮件中是否包含个人身份信息,设计了分类分析识别算法,并通过实验验证了该模型及算法的可行性和有效性。  相似文献   

19.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

20.
随机森林是一种优秀的分类算法,然而随机森林算法不能有效的判断冗余属性,因此影响了在含有冗余属性的数据集上的分类效果。针对这一问题,本文提出了一种基于局部线性嵌入的随机森林算法。该算法利用局部线性嵌入算法对冗余属性数据集进行降维,然后利用随机森林算法进行分类学习。在UCI标准数据集上的仿真实验说明,本文算法是一种优秀的含冗余属性数据集分类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号