首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
文章主要采用数据挖掘技术中的决策树C4.5算法,对本校学生成绩中的大量数据进行处理,从中选取决策属性,构造决策树,并提取分类规则,从而获取不同类型的学生与成绩之间的关系.试验结果表明,C4.5算法能够将数据进行准确分类和预测,最终得到有价值的结论,供教师决策分析.  相似文献   

2.
历年学生就业积累的大量数据信息,运用数据挖掘算法中的C4.5决策树算法对所给数据进行分类和预测。通过实例给出了该算法在高职高专就业工作中的应用,找出影响学生就业的主要因素。  相似文献   

3.
以现有的数据挖掘决策树算法作为理论支撑,从就业数据出发,按照数据挖掘的基本步骤和方法,执行C4.5决策树算法对数据进行分类和预测,从积累的大量数据中得到以就业类别为属性的分类规则,以此为学校领导机构提供决策支持,提高就业水平,对就业指导工作具有一定的现实意义。  相似文献   

4.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

5.
为了提高C4.5决策树算法的有效性,提出一种改进的C4.5决策树算法。结合粗糙集理论的属性约简算法和Fayyad边界点判定定理,对C4.5算法进行了改进,利用UCI数据集进行了实验。结果表明,改进的C4.5算法不仅提高了准确率,而且缩小了决策树规模,减少了分类时间。  相似文献   

6.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。  相似文献   

7.
企业在经营活动中经常需要根据以往经营的数据来预测客户数量,但数据的规模往往非常巨大,难以通过人力来进行分析.所以必须利用计算机,通过数据挖掘的方法来进行分析.C4.5决策树算法是一种流行的用于数据挖掘的方法,可以快速准确地将数据分类.  相似文献   

8.
C4.5 算法是数据分类的经典数据挖掘算法。整合并规范了临床确诊病例中的糖尿病并发症数据,同时进行了粗糙集约简,并运用C4.5算法实现了分类。研究表明,该方法能很好地实现决策分类,以辅助临床诊断。  相似文献   

9.
一种代价敏感学习方法在电信业流失预测中的应用   总被引:1,自引:0,他引:1  
根据已有的流失预测方法,提出新的流失预测方法解决数据挖掘中的非对称错分代价问题.该方法以传统C4.5决策树算法为基准分类器,融合代价调整方法实现代价敏感学习.相比之下,C4.5决策树算法仅是基于样本错分代价相同假定,建立了一种错分率最低而非总错分代价最低的预测模型.基于某电信企业的客户数据,及流失客户和非流失客户代价非对称的实际,实证研究结果表明,CS-C4.5通过调整流失类和非流失类样本的比例,大大降低了传统分类算法的样本错分总代价.该方法对于提高电信企业的核心竞争力具有重要的现实意义.  相似文献   

10.
交通事故的形成常涉及多种因素,如驾驶人本身、车辆、环境等.以数据挖掘技术中的ID3分类决策树算法对交通事故数据进行分析和研究,得出蕴含在数据中的有益模式,决策树构造结果显示,分类决策树应用于交通事故成因分析中具有可行性与有效性.  相似文献   

11.
决策树通过对获取的样本数据属性使用信息论知识原理进行解析和归纳,最终形成类似于流程图的树型结构形式。ID3算法是典型采用贪心算法的归纳学习算法,其使用递归方式采用贪心算法来生成决策树。与其他分类技术算法比较,ID3算法有着自己的优势,但在实际应用中,采用决策树ID3算法进行分类时,需要先对数据进行一些处理或改进。  相似文献   

12.
针对国内高职学生首次职业类型选择状况进行了研究,介绍了数据挖掘、决策树、C4.5算法,对高职学生职业类型选择数据进行预处理,应用 C4.5算法构造高职学生首次职业类型选择决策树并使用事后修剪法对其进行了修剪,从中抽取出高职学生首次职业类型选择与大学阶段习得的德、体、智、能和专五个方面能力之间的潜在规则并对其做了验证分析,挖掘出的规则为高职学生首次职业类型选择进行动态预测并对其就业提供指导。  相似文献   

13.
经典决策树算法不能处理树构建和分类过程中的不确定数据,针对这一局限,提出基于概率分布的方法,把决策树分类技术扩展到含有不确定数据的环境中。然后,针对软件外包评价中普遍存在着不确定数据,应用决策树分类方法,对软件外包公司进行客观评价。实验表明,本文提出的基于不确定数据的决策树分类算法能够实现对软件外包评价的定量研究。  相似文献   

14.
为了解决服务器运行过程中由于性能故障造成服务质量下降的问题,提出一种基于决策树的日志分析方法,以服务器日志文件中记录服务器关键性能指标的数据为研究对象,利用决策树中常用的ID3、C4.5和CART 3种算法预测服务器未来性能指标发展趋势。实验结果表明,在实际运行过程中,C4.5算法对服务器性能指标数据预测的准确率和召回率最好,分别达到了92.23%和95.37%,在3种决策树算法中拥有最高的准确率与召回率,且相比传统开发人员从日志文件中寻找故障的方法,准确率提高了20%左右,因此能够更好地预测服务器系统性能指标发展趋势。通过该方法可提前感知系统运行状况,并及时作出调整,从而有效降低实际生产过程中服务器故障发生概率,提高服务质量。  相似文献   

15.
将数据挖掘中的C4.5算法应用于应用型本科院校的就业管理信息系统中,有利于发掘出应用型毕业生就业中隐藏的有用因素和内在联系,对促进学校进行教学改革,指导学生提高自身素质和知识结构,从而最大程度的提高毕业生的就业率。  相似文献   

16.
增强突发事件研判、预警与快速响应能力,对加强网络舆情监管与引导,维护社会安全和稳定具有重要意义。首先基于网络舆情演化机制与特征建立科学、合理的指标体系;然后选取重要程度与分类性能均比较优异的末级指标作为特征属性,构造 C4.5 决策树风险预警模型;最后将突发事件网络舆情相关数据带入风险预警模型,得到预警风险等级。实验结果表明,该方法能够对突发事件网络舆情进行风险预警,预警准确率高达94.7%。  相似文献   

17.
王琴竹 《运城学院学报》2011,29(2):53-54,57
决策树算法广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树算法中的过度拟合会在很大程度上影响到最终的分类结果。针对过度拟合产生的原因,采用悲观错误剪枝方法,对学生成绩决策数据进行分析,得出影响学生成绩的重要因素。实验表明,该方法可以得到尽可能短的分类规则,有效地提高了决策树的性能。  相似文献   

18.
为了进一步提高决策树模型的交通事件检测性能,且避免噪音和过拟合现象,提出了基于随机森林的交通事件检测方法.从分类强度和相关性2个角度进行分析,并构建了3组实验:与不同数目决策树的对比、与不同决策树的对比及与神经网络的对比.实验数据采用实测的高速公路交通参数数据库(I-880数据库);实验的评价指标采用检测率、误警率、平均检测时间、分类率和ROC曲线下的面积.实验结果表明,基于随机森林的交通事件检测模型可以提高检测率、减少检测时间、提高分类正确率,和多层前馈神经网络相比具有很好的竞争力.  相似文献   

19.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号