首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
贝叶斯文本分类方法研究   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是当前流行的一种文本分类算法 ,它的简易性使其适合于处理属性个数较多的分类问题 ;TAN (TreeAugmentedNaiveBayes)综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力 ,使其能容纳属性间存在的某种依赖关系。通过实验比较朴素贝叶斯和TAN ,可以发现TAN方法具有较好的分类性能。  相似文献   

2.
朴素贝叶斯分类算法应用于毕业生就业预测分析,关键是建立有效的分类模型.文章提出了一种有效分类模型的发现算法,并研究了该算法实施中的零值属性计数、缺失数据问题及解决方法,能有效解决毕业生就业预测的可靠性问题.  相似文献   

3.
旅游突发事件自动分类能快速地为旅游产业链中的各行业提供决策依据,介绍文本分类技术中朴素贝叶斯分类方法的基本原理,利用Java语言调用开源的机器学习软件Weka相关算法,构建一个朴素贝叶斯分类器,实验数据表明,朴素贝叶斯分类器在旅游突发事件自动分类中有较好的性能。  相似文献   

4.
朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法,为了对海量的视频进行分类,提出了一种基于朴素贝叶斯分类器的视频分类方法。首先,对视频进行特征提取,提取纹理、颜色以及亮度三种反映其类别的特征。在提取到视频的颜色、亮度以及纹理特征之后,然后进行基于朴素贝叶斯分类器的视频分类。对于输入的几种特征,采用极大似然估计,直至完成最终的分类。实验结果表明,提出的视频分类方法取得了较为准确的分类结果,对篮球、足球、斯诺克等5个运动项目均取得了90%以上的分类准确性。  相似文献   

5.
传统的机器学习和数据挖掘分类算法是在假设数据是完整精确的前提下进行的,然而在实际的应用中,由于数据存在不确定性,使这种假设很难成立.数据的不确定性可能是由多种原因导致的,比如测量错误、隐私保护以及传感器搜集的不确定信息等等.本文研究在不确定数据中使用朴素贝叶斯分类方法进行分类问题.  相似文献   

6.
基于朴素贝叶斯的学生信息分类预测研究   总被引:1,自引:0,他引:1  
为从学生数据信息中挖掘有价值的信息为高校教学管理、人才培养等提供决策支持,本文采用朴素贝叶斯分类的方法,对学生信息数据进行分类与预测。通过分类的详细工作过程,可知朴素贝叶斯算法是一种简单而高效的分类算法,虽然其条件独立性假设并不总符合客观实际,但在学生信息分类预测研究中还是取得了很好的效果。  相似文献   

7.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。  相似文献   

8.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

9.
针对Android平台下恶意软件侵扰问题,提出一种基于权限—敏感API特征的加权朴素贝叶斯分类算法的检测方案。首先对Android应用程序中的配置文件进行解析,然后利用Apktool工具对APK文件进行反编译,提取出权限—敏感API特征集,并通过信息增益算法和卡方检验算法过滤冗余数据,最后利用加权朴素贝叶斯分类算法的恶意软件检测模型进行分类判断。实验结果证明,该系统能有效提高分类器的效率和恶意软件的检测率。  相似文献   

10.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题。为此提出AAM算法,定位关键点提取人脸表情几何特征。将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类。在CK+数据和JAFFE数据集上实验,识别率分别达到90%和86%。与传统的朴素贝叶斯算法比较,改进后的算法识别率分别提高6%和30%。  相似文献   

11.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

12.
对数据挖掘技术在研究生信息库中的应用进行了初步分析探讨,目的是从海量的学生数据库中提取人们感兴趣的数据信息,并创建数据挖掘模型。运用朴素贝叶斯分类的方法,对所给数据进行分类和预测,并指出了其技术难点及构建算法,最后,通过一个实例给出了该算法对于预测数据进行分类的详细过程。  相似文献   

13.
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。  相似文献   

14.
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。  相似文献   

15.
为了弥补传统朴素贝叶斯分类器在实际应用中代价不敏感的缺点,基于最小风险准则构建朴素贝叶斯模型和树增强朴素贝叶斯网模型,通过预先设置损失矩阵,分类器可以区分各种误判情形产生的代价,利用1 000条德国信用卡样本数据进行实验。研究发现,在以损失最小为导向的用户信用评估方面,基于最小风险准则构建分类器产生的总损失更小,综合性能更好;在分类性能上,简单的朴素贝叶斯模型可与复杂的基于爬山算法建立的贝叶斯网络模型相媲美;从整体经济效益看,朴素贝叶斯模型更胜一筹。  相似文献   

16.
RSS是一种基于RDF/XML描述的全新的互联网信息获取方式。但目前,RSS文档的分类完全依赖于预先设定,对于适应用户多变的需求存在着明显的不足。朴素贝叶斯分类器是解决自然语言文本文档分类问题的最有效的方法之一。通过构造朴素贝叶斯学习器,用户可以构造出符合自己要求的RSS分类结构。实验结果表明,这种基于朴素贝叶斯方法的分类器。可以很好地实现对RSS文档的自动分类。  相似文献   

17.
提出使用TF IDF算法与朴素贝叶斯算法相结合,实现图书的自动分类。首先需从互联网中爬取图书信息,主要包括图书基本信息、图书简介、图书目录等;其次,需要对爬取到的图书信息进行预处理,将同类图书的基本信息聚在一起,并进行分词去噪;然后使用TF IDF算法对每一类图书进行特征提取,获得每一类图书的特征;最后使用朴素贝叶斯算法,并利用训练好的分类特征,计算某本新书的具体分类。实验结果表明,该方法可以简化复杂的图书自动分类过程,提高分类效率,也能保证图书分类的准确性。  相似文献   

18.
出了一种可伸缩的朴素贝叶斯分类算法。算法针对大数据集的训练数据,通过构建雨林框架,能在有限主存里存储训练数据,训练生成概率矩阵,进而对测试样本进行分类。算法仅对整库一次扫描。实验表明,该算法能够获得与整库读入主存相同的分类准确率.并且有较高的处理效率。  相似文献   

19.
通过分析树扩张型朴素贝叶斯(TAN)分类器,提出了一种选定根节点方法,此方法基于概率论的观点,构造生成树时选择两依赖属性中个数较大的属性作为根节点.依此对TAN分类器的构造方法进行了改进(改进的分类器简称CRTAN),将该分类方法与朴素贝叶斯分类器和TAN分类器进行了实验比较.实验结果表明,此分类方法的分类性能要优于TAN分类器.  相似文献   

20.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号