首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

2.
针对C4.5算法在构建决策树过程中将条件属性与决策属性之间的信息增益率作为选择分裂属性的标准,而未考虑条件属性间相关性对结果影响这一缺点,提出了一种修正信息增益率的改进算法。首先计算当前分裂属性与各个条件特征间的平均信息增益,将其作为计算修正信息增益率的影响因素之一;然后使用高等数学中Taylor中值定理和Maclaurin公式的近似式,对修正后的信息增益率公式进行去除对数化简。将改进后的算法分别同原始算法和其他优化算法进行仿真实验,对比结果表明,本文改进后的C4.5决策树算法既提高了平均分类准确率,同时又提高了算法运行效率。  相似文献   

3.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。  相似文献   

4.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。  相似文献   

5.
提出了一种基于信息熵的可伸缩决策树生成算法SDT(AAScalableDecisionTreeAlgorithm)。与SPRINT算法不同,该算法使用基于信息熵增益的思想分割训练样本集,引入了新的数据结构:基于类别的属性表。该表记录存储了计算分割属性的所有信息,并且该表的大小不会随样本集的增大而增大,可以常贮主存。与SLIQ算法相比,SDTA算法彻底摆脱了主存容量对算法效率的限制。实验表明,SDTA算法能生成正确的决策树,而且具有良好的可伸缩性。  相似文献   

6.
针对标准C4.5算法在词性分析的应用中表现出精确性不高、运算速度不快的问题,本文提出了一种基于候选属性规则优化C4.5算法的词性分析模型,首先以信息增益的思想为鉴,辅之以关联规则,制定一个与参数支持度和可信度相近的评价标准,由此来对候选属性规则进行优化,之后再在信息增益率计算过程中,降低决策树的计算成本由此来节省决策树的生成时间。本研究还进行了专门的仿真试验,实验结果表明,与标准算法相比,本文设计的改进模型在精确性和运算速度方面都有更好的效果。  相似文献   

7.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

8.
决策树分类过程中,最关键的是结点分裂属性的选择。文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法。  相似文献   

9.
王文誉 《科技风》2014,(10):23-23
本系统基于网站的形式建立一个网络应用,通过用户输入他们的专业兴趣和自身的学术条件,此项网络应用会智能地匹配可能的研究生学校同时将结果以略高于自身学术条件,与自身学术条件相当和低于自身学术条件三类呈现给用户。该网络应用使用的培训数据是从一些已经被某些学校录取的学生手里获得的原始数据,然后使用分析工具Weka来处理并分析这些数据。分析过程中使用了三种数据挖掘方法–决策树算法,朴素贝叶斯算法和临近取样算法来分别建立模型。模型建立成功之后,通过主观和客观的比较方法找到决策树算法是最适合的算法。最后,用C4.5决策树算法来建立模型作为数据挖掘引擎的核心并实现此项网络应用。  相似文献   

10.
决策树方法因其简单、直观、准确率高等特点在数据挖掘及数据分析中得到了广泛的应用。介绍了决策树中最基本的算法——ID3算法的一般知识后,根据实例深入分析了该算法的设计思想、程序实现及优缺点,并针对其缺点进行改进。  相似文献   

11.
刘星毅  黄月秀 《大众科技》2007,(10):213-214
决策树分类过程中,最关键的是结点分裂属性的选择.文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法.  相似文献   

12.
利用家庭业务捆绑争夺客户已成为新兴全业务运营商发展客户的主要方式,如何确定归属于同一家庭的固定电话及移动电话是制定家庭业务捆绑方案过程中业务人员会遇到的核心问题.由此应用数据挖掘技术中的分类方法将归属于不同家庭的电话区分开来,并针对传统分类方法的不足提出一种经过改进的RBF神经网络与决策树结合的分类方法.实验证明,由C5.0决策树及BP神经网络分别建立的两种分类模型均可有效对电话分类,而经过改进的RBF神经网络与决策树结合的分类模型在条件属性减少的基础上提高了分类精度.  相似文献   

13.
通过探讨数据挖掘决策树技术,提出构建决策树的过程,并基于C4.5算法,对数据挖掘在客户获取中的应用进行实例分析,验证其可行性.  相似文献   

14.
利用数据挖掘技术对Demeter卫星数据进行分析从而发现异常数据已成为当前研究的重点,为了进一步提高异常数据发现的质量,本文提出了一种改进的聚类算法,对Demeter卫星电场数据进行异常检测,该算法首先将数据随机取样,引入信息熵理论,对PAM算法进行改进,并对卫星数据进行划分,以找到聚类中心,最后对改进算法进行了分析与比较,实验结果证明了算法的有效性。  相似文献   

15.
决策树算法是数据挖掘技术中常用的方法,在分类和预测方面有着广泛的应用。本文简要地介绍了决策树ID3算法的基本思想,通过数据实例说明了构造决策树的实现过程,实现了对学生成绩的预测。  相似文献   

16.
文章对竞争对手识别的本质进行了分析,认为竞争对手识别是一个动态分类过程,指出该过程有3个难点.现有的竞争对手识别方法存在3个缺陷,因而无法有效地支持竞争对手识别过程.认为数据挖掘决策树算法可以应用于竞争对手识别,并详细描述了应用的过程,包括以下4个步骤:竞争对手属性选择、竞争对手数据准备、竞争对手数据预处理和建立竞争对手识别决策树.  相似文献   

17.
C4.5算法是数据分类的经典数据挖掘算法。整合并规范了临床确诊病例中的糖尿病并发症数据,同时进行了粗糙集约简,并运用C4.5算法实现了分类。研究表明,该方法能很好地实现决策分类,以辅助临床诊断。  相似文献   

18.
决策树是一种有效的数据分类方法。粗糙集理论把知识和分类紧密联系起来,为处理不精确、不完全数据的分类问题提供了一种更符合人类认知的数学工具。提出了把后继节点的变精度加权平均粗糙度和值作为属性选择标准构造决策树的改进新算法。新算法用变精度代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强。  相似文献   

19.
基于现行数据隐私问题日益严重,如何防止数据挖掘过程中隐私信息的泄漏,将是一个重要的研究议题。就此提出了一个多单位合作的决策树隐私保护方法,并重点分析了该方法所具有的安全性和通讯量,方法以C4.5算法为基础并利用垂直属性分割在水平数据库环境下进行挖掘,方法主要是保护不同单位间挖掘出的规则不被其它单位获取,同时又能达到准确无误差的共同挖掘结果。  相似文献   

20.
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号