首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
刘星毅  黄月秀 《大众科技》2007,(10):213-214
决策树分类过程中,最关键的是结点分裂属性的选择.文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法.  相似文献   

2.
针对C4.5算法在构建决策树过程中将条件属性与决策属性之间的信息增益率作为选择分裂属性的标准,而未考虑条件属性间相关性对结果影响这一缺点,提出了一种修正信息增益率的改进算法。首先计算当前分裂属性与各个条件特征间的平均信息增益,将其作为计算修正信息增益率的影响因素之一;然后使用高等数学中Taylor中值定理和Maclaurin公式的近似式,对修正后的信息增益率公式进行去除对数化简。将改进后的算法分别同原始算法和其他优化算法进行仿真实验,对比结果表明,本文改进后的C4.5决策树算法既提高了平均分类准确率,同时又提高了算法运行效率。  相似文献   

3.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

4.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。  相似文献   

5.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

6.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

7.
针对传统的异常信息流检测方法的不足,设计了一个异常信息流检测模型,该模型采用了数据挖掘中的决策树算法对信息流进行归纳分类,采用信息增益作为分类属性选择标准来构造规则决策树,针对网络流量进行分析,能提高检测速度.开辟了一条检测异常信息流的新途径.  相似文献   

8.
李勇男 《情报科学》2018,36(4):80-84
【目的/意义】利用数据挖掘技术分析涉恐人员的物流、资金流、信息流等数据进行反恐预警可以有效提高 反恐工作效率和优化资源配置。【方法/过程】本文将研究如何利用信息增益决策树对涉恐情报信息进行快速分 类。分类过程为从根节点的涉恐人员属性开始不断产生新的分支。产生每个分支都需要计算不同属性的信息增 益并选择分裂属性。【结果/结论】文中的方法可以对大量涉恐情报基础数据进行快速分类,在实际工作中可以与关 联分析、聚类分析、异常检测等其他数据挖掘方法组合使用。该方法既可以应用于公安情报学专业本科生的课堂 教学,也可以应用于情报分析人员的培训。  相似文献   

9.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。  相似文献   

10.
王玉贤 《科技通报》2014,(4):176-178
建立虚拟软件数据分类的数据仓库,提取数据后对数据进行预处理,对分列属性进行惩罚-分配图分类,在分裂过程中使用信息增益比作为属性的分裂准则来对次要属性进行惩罚,保证惩罚-分配图细化准确。实验证明,能够提高虚拟软件分类的准确率,为用户正确的选择提供保证,具有很强的实用性。  相似文献   

11.
利用家庭业务捆绑争夺客户已成为新兴全业务运营商发展客户的主要方式,如何确定归属于同一家庭的固定电话及移动电话是制定家庭业务捆绑方案过程中业务人员会遇到的核心问题.由此应用数据挖掘技术中的分类方法将归属于不同家庭的电话区分开来,并针对传统分类方法的不足提出一种经过改进的RBF神经网络与决策树结合的分类方法.实验证明,由C5.0决策树及BP神经网络分别建立的两种分类模型均可有效对电话分类,而经过改进的RBF神经网络与决策树结合的分类模型在条件属性减少的基础上提高了分类精度.  相似文献   

12.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

13.
文章对竞争对手识别的本质进行了分析,认为竞争对手识别是一个动态分类过程,指出该过程有3个难点.现有的竞争对手识别方法存在3个缺陷,因而无法有效地支持竞争对手识别过程.认为数据挖掘决策树算法可以应用于竞争对手识别,并详细描述了应用的过程,包括以下4个步骤:竞争对手属性选择、竞争对手数据准备、竞争对手数据预处理和建立竞争对手识别决策树.  相似文献   

14.
归纳学习训练样本能够产生决策规则或决策树,通过决策规则或决策树分类新数据的方法称为决策树。本文以大连市旅顺口区为研究区域,分析该区影像信息选取分类样本,选取合适的特征,统计分析样本的特征值,运用基于特征的决策树分类方法,设计决策树分类器,来解决该区域土地利用分类问题。  相似文献   

15.
刘平兰 《情报杂志》2004,23(3):45-47
介绍了一种基于机器学习的手写汉字识别方法。针对写汉字的特点,选择并提取了横竖笔划特征、用边特征、结构划分特征、分区特征点、黑点重量等作为分类特征。在分类策略中采取了先粗分类后细分类的多级分类方法.并将决策树算法ID3成功地应用到分类策略中,在识别中利用决策树引导特征提取。减少了特征提取的数量,从而大大提高了识别速度。  相似文献   

16.
一种改进的SVM决策树文本分类算法   总被引:1,自引:0,他引:1  
将SVM和二叉决策树结合起来构成SVM决策树的方法能够较好地解决多类文本分类问题,在此基础上引入了一种基于支持向量数据描述(SVDD)的类间可分性度量方法,对SVM决策树分类器进行改进,实验表明,该方法有效地提高了SVM决策树多类分类器的分类精度和速度.  相似文献   

17.
探讨C4. 5决策树、支持向量机分类器在新疆地方性肝包虫CT图像分类中的应用。使用sym4小波变换方法对预处理的图像进行特征提取,运用统计学方法筛选出最优的特征子集,并构建C4. 5决策树分类模型和支持向量机分类模型,进一步对模型的准确性、召回率等进行评估。结果显示,3种CT图像两两分类和综合分类时,C4. 5决策树分类模型的分类精度都明显高于支持向量机分类模型,C4. 5决策树分类模型的分类精度均达到87%以上,分类效果较好。实验结果表明,将C4. 5决策树分类器应用于肝包虫CT图像的分型中,为肝包虫病影像学诊断提供了一定的依据,也为后续新疆地方性肝包虫病计算机辅助诊断系统的研发奠定了基础。  相似文献   

18.
目前井筒完整性研究主要围绕当前态的风险量化与评估,尚未形成对未来井筒完整性失效的预判技术。为了研究井筒完整性失效预判方法,基于目标油气田中生产井的7项关键属性形成大数据矩阵,随机抽取和建立数据子集,利用随机森林机器学习算法挖掘各属性与井筒完整性之间的隐含联系,研发了井筒完整性预判方法,分别针对3项离散型和4项连续型属性,详细阐述了随机森林决策树的产生步骤、分裂原理和核心算法。通过引入随机参数加强算法的鲁棒性;通过引入生产时间属性,实现了预判未来发生井筒完整性失效时间的目的,最后结合实例分析,验证了基于随机森林的井筒完整失效预判方法的可行性,具备实践指导意义。  相似文献   

19.
犯罪预测一直是公安部门亟待解决的突出问题。基于随机森林这种模型组合分类器,结合机器学习技术在犯罪预测中的应用现状,提出了一种用于预测犯罪的新的分类方法,并通过模拟实验来展示这种分类方法比一般的随机森林分类会有更高的可信度。创新之处在于提出的这种随机森林分类器的每一棵树都是退化的决策树,并且根据在线学习的结果在下一轮的分类中选择区分度更高的决策树。最终给出一个应用于犯罪预测的较为成功的分类器的思路和模式,得出准确有效的预测结论。  相似文献   

20.
以四川省青衣江流域乐山灌区为研究区域,Sentinel 2光学影像为数据源,采用分类方法最大似然法、CART决策树法和基于多时相归一化植被指数(Normalized Difference Vegetation Index,NDVI)决策树分类方法,实现了研究区域大春土地利用的分类提取,对各种分类结果的精度评定结果表明基于相应多时相NDVI数据集的决策树分类方法在3种分类方法中精度最高,总体分类精度85.22%,Kappa系数0.81。最终本研究技术方法成功提取了青衣江流域建筑、水、森林的分布信息及大春作物水稻、红苕、大春蔬菜的作物种植信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号