共查询到19条相似文献,搜索用时 328 毫秒
1.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。 相似文献
2.
本文分析了基于正区域的决策树生成算法的不足,针对这些不足,提出了基于正区域及其分类纯度的决策树算法。该方法计算简单,易于理解,并用实例说明了该方法的优越性。 相似文献
3.
4.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。 相似文献
5.
《淮北师范大学学报》2015,(2)
中医药领域不完整的数据普遍存在,而数据的不完整很大程度地降低分类模型的学习效果.大多数已有的处理不完整数据的分类算法只关注在其学习阶段处理不完整数据,而对于不完整数据出现在分类阶段则不能处理或效果不好.文章提出一种新的分类算法用于处理不完整数据的分类问题.首先给出一个新的用于处理不完整数据的决策树算法,并针对传统的Boosting算法在迭代过程中使用确定性决策方法而没有充分考虑到数据集中的不完整数据,进一步提出改进的Boosting算法,在迭代过程中对每一个假设使用模糊决策方法,权重的更新机制是增加错误分类样本的权重和减少正确分类样本的权重,最终使用加权投票的方式得出最优的分类结果.最后,通过两组实验证明提出的算法策略在处理不完整数据问题时的优越性. 相似文献
6.
针对决策树算法C4.5在处理数据挖掘分类问题中出现的算法低效以及过拟合问题,提出一种改进的TM-C4.5算法。该算法主要改进了C4.5算法的分支和剪枝策略。首先,将升序排序后的属性按照边界定理,得出分割类别可能分布的切点,比较各点的信息增益和通过贝叶斯分类器得到的概率,使用条件判断确定最佳分割阈值;其次,使用简化的CCP(Cost-Complexity Pruning)方法和评价标准,对已生成决策树的子树根节点计算其表面误差率增益值和S值,从而判断是否删除决策树节点和分支。实验结果表明,用该算法生成的决策树进行分类更为精确、合理,表明TM-C4.5算法有效。 相似文献
7.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。 相似文献
8.
9.
HTTP隧道是各种木马和间谍软件进行网络通信的主要途径,严重威胁了网络安全。比较有效的算法主要是统计指印方法,统计指印采用的特征较少,对训练集的依赖程度较高,算法的稳定性较差。决策树分类算法提取了网络数据流更多的有效特征。使用决策树分类算法对HTTP隧道数据进行了检测,通过实验结果对比,决策树算法的稳定性更好,精确度和效率更高。 相似文献
10.
针对现有决策树中ID3算法倾向于取值较多的属性的缺点,提出一种利用优化法的思想来改进信患增益的算法。用ID3算法及改进后的算法建立金融企业决策树分类模型,利用某银行提供的客户信息和银行业务信息等数据,通过客户存款情况,探讨对金融客户进行分类,研究忠实客户的特征。实验中两个方案的比较表明,利用优化法算法来选择决策树分支取值,不但可以加快决策树的生长,而且最重要的是可以得到结构好的决策树,便于从中挖掘好的规则信息。特别是在使用决策树算法来挖掘的数据越多,算法的效率和性能就越好,算法的优越性就越明显。 相似文献
11.
马伟杰 《河南广播电视大学学报》2012,(3):108-110
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。对网络课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,获取每一个知识点与不同类型的学生之间的关系。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。 相似文献
12.
决策树通过对获取的样本数据属性使用信息论知识原理进行解析和归纳,最终形成类似于流程图的树型结构形式。ID3算法是典型采用贪心算法的归纳学习算法,其使用递归方式采用贪心算法来生成决策树。与其他分类技术算法比较,ID3算法有着自己的优势,但在实际应用中,采用决策树ID3算法进行分类时,需要先对数据进行一些处理或改进。 相似文献
13.
倪海鸥 《宁波广播电视大学学报》2008,6(3):113-115
分类在数据挖掘中是一项非常重要的任务,决策树方法是一种常用的方法。本文重点介绍了决策树建立的基本原理,对算法所面临的问题进行了阐述,为数据分类研究者提供借鉴. 相似文献
14.
以南京南部高淳县为研究区,采用2010年ETM+多光谱遥感影像作为遥感信息源,选择影像的地形因素、植被指数(NDVI)作为辅助分类特征,基于改进CRUISE算法构建决策树,实现了研究区的地物分类,并与其他分类方法的结果相比较。实验结果表明,与普通的决策树分类相比,基于改进CRUISE算法的分类可以有效地提高土地分类结果精度,具有良好的适用性。 相似文献
15.
决策树ID3算法在学生成绩中的应用 总被引:2,自引:0,他引:2
姜红艳 《鞍山师范学院学报》2008,10(4)
介绍了数据挖掘中决策树的分类方法和概念,以及著名的ID3算法,同时也介绍了ID3算法在学生成绩中的应用. 相似文献
16.
决策树算法广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树算法中的过度拟合会在很大程度上影响到最终的分类结果。针对过度拟合产生的原因,采用悲观错误剪枝方法,对学生成绩决策数据进行分析,得出影响学生成绩的重要因素。实验表明,该方法可以得到尽可能短的分类规则,有效地提高了决策树的性能。 相似文献
17.
社交网络的快速发展,微博成为主要的社交媒体平台,针对如何预测微博文本的未来互动数,对微博进行有效的分发控制的问题,提出一种基于并行决策树的微博互动数所属级数预测的方法。首先,对用户以往发表的微博进行用户特征和微博文本特征的处理;然后,使用并行决策树分类算法对训练数据进行分类模型的构建;最后使用得到的分类模型对新微博文本的互动数所属级数进行分类预测。通过对比算法的实验,验证了所提方法具有较高的分类精度和较好的可扩展性,能够对微博所属级数进行有效的分类预测。 相似文献
18.
决策树是数据挖掘中的一种重要分类方法.在此以粗糙集理论中的正域为启发式函数,设计了一种新的、有效的决策树构造方法.该算法具有较大的灵活性.能从测试属性空间逐次删除已使用过的属性.避免对这些属性进行重复测试,减少测试空间,降低了树的复杂性,从而提高了分类效率.最后,实例验证了算法的可行性与有效性. 相似文献
19.
张志强 《顺德职业技术学院学报》2007,5(4):39-41
该文提出一种基于决策树的分类挖掘技术,在论述分类挖掘的基础上分析决策树分类挖掘系统的建立思想、步骤及算法,并把该系统应用到优化学生资源管理的实验中,实验结果证明了该方法的可行性。 相似文献