首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
决策树分类算法研究综述   总被引:4,自引:0,他引:4  
本文基于决策树分类算法的研究现状,重点介绍了一些极具代表性的算法,包括ID3、C4.5等,对各种决策树分类算法的基本思想进行阐述,分析比较各种典型算法的优点和不足,并对决策树分类算法所面临的问题进行了简要的阐述,为数据分类研究者提供借鉴。  相似文献   

2.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

3.
本文详细介绍机器学习分类算法中的决策树算法,并详解如何构造,表示,保存决策树,以及如何使用决策树进行分类问题。  相似文献   

4.
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

5.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

6.
决策树算法是数据挖掘领域的核心分类算法之一,ID3算法则是最为经典的决策树算法。本文以ID3数据挖掘算法在债务管理中的应用为例,验证了算法的性能。  相似文献   

7.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。  相似文献   

8.
从一个新的思路对基于最小Gini指标的决策树分类算法进行了讨论。简单介绍了CART算法和Gini指标的定义,并且对SLIQ和SPRINT决策树分类技术进行深入的分析。同时对SLIQ算法的时间复杂性和这两种算法的内存管理和性能方面进行了比较和分析。  相似文献   

9.
自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着机器学习技术的发展,决策树算法已经在文本分类中取得了较好的分类效果。本文针对短文本分类问题,利用TFIDF提取文本特征后,结合梯度提升决策树算法进行文本分类,并与朴素贝叶斯、逻辑回归和支持向量机的分类效果进行对比分析,验证了梯度提升决策树用于短文本分类的可行性。  相似文献   

10.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

11.
<正>point高维数据中很多特征所含有的分类信息少,面对这些数据,随机森林算法会产生很多分类能力弱的决策树,而其在集成决策树时无法差异化区分每一棵决策树,造成分类能力弱的决策树影响算法整体的分类性能。针对这一问题,提出一种权重树随机森林算法,依据权重对树进行集成,增强分类能力强的树对分类决策的权重,同时削弱分类能力弱的树对分类决策的权重,从而提高整个随机森林的分类决策性能。单机运行模式不能满足高效分类高维数据的需求,开源集群计算框架Spark能够内存  相似文献   

12.
决策树算法是数据挖掘技术中常用的方法,在分类和预测方面有着广泛的应用。本文简要地介绍了决策树ID3算法的基本思想,通过数据实例说明了构造决策树的实现过程,实现了对学生成绩的预测。  相似文献   

13.
传统过滤方法构建的信息决策树,采用多次过滤的方法过滤敏感信息,但其过滤效果并不理想,因此研究基于K近邻分类算法的敏感信息过滤方法。此次研究按照敏感词内容进行分类,并划分敏感词汇等级;基于K近邻分类算法,创建具有多层结构的敏感信息决策树,并利用K近邻分类算法,设置决策树的过滤逻辑。实验结果表明:与传统敏感信息过滤方法相比,此次研究的过滤方法,对不同等级的敏感信息,都有较好的过滤效果。  相似文献   

14.
讨论了基于互信息的决策树分类算法——ID3算法。  相似文献   

15.
运用分类数据挖掘技术中决策树算法和神经网络算法,建立适合地面战场复杂背景下的情报数据分类算法模型,并将该算法模型运用于情报分析系统,对实现目标情报分析处理的自动化进行了有益的探讨.  相似文献   

16.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。  相似文献   

17.
崔丽 《科技通报》2013,29(2):45-47
在医疗系统中,人们通常使用决策树对患者的发病类型以及概率进行有效地分类预测.随着信息技术的普及,医疗系统中产生了大量的历史医疗记录,处理和分析这些海量的医疗数据给医疗系统带来了极大地挑战.本文针对海量医疗数据问题,提出了分布式构建决策树算法.该算法分布式逐层构建决策树,可以高效地构建决策树,快速有效地完成医疗系统中的预测工作.该算法是基于现有流行的云计算平台,使用MapReduce分布式框架设计的分布式算法.实验结果表明,该算法具有很好的扩展性和高效性.  相似文献   

18.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

19.
提出一种基于云理论和神经网络构造决策树的文本分类方法。运用云神经网络学习变量间的云映射关系,从中生成云决策树。这种方法结合了神经网络的学习算法和决策树的推理方法,具有神经网络的学习能力,并且应用了云发生器对处理不确定性的能力。更符合人类的思维方式,从而进一步提高了文本分类的效率、准确性和可靠性。  相似文献   

20.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号