共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。 相似文献
4.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。 相似文献
5.
提出了一种基于信息熵的可伸缩决策树生成算法SDT(AAScalableDecisionTreeAlgorithm)。与SPRINT算法不同,该算法使用基于信息熵增益的思想分割训练样本集,引入了新的数据结构:基于类别的属性表。该表记录存储了计算分割属性的所有信息,并且该表的大小不会随样本集的增大而增大,可以常贮主存。与SLIQ算法相比,SDTA算法彻底摆脱了主存容量对算法效率的限制。实验表明,SDTA算法能生成正确的决策树,而且具有良好的可伸缩性。 相似文献
6.
7.
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。 相似文献
8.
9.
本系统基于网站的形式建立一个网络应用,通过用户输入他们的专业兴趣和自身的学术条件,此项网络应用会智能地匹配可能的研究生学校同时将结果以略高于自身学术条件,与自身学术条件相当和低于自身学术条件三类呈现给用户。该网络应用使用的培训数据是从一些已经被某些学校录取的学生手里获得的原始数据,然后使用分析工具Weka来处理并分析这些数据。分析过程中使用了三种数据挖掘方法–决策树算法,朴素贝叶斯算法和临近取样算法来分别建立模型。模型建立成功之后,通过主观和客观的比较方法找到决策树算法是最适合的算法。最后,用C4.5决策树算法来建立模型作为数据挖掘引擎的核心并实现此项网络应用。 相似文献
10.
11.
决策树分类过程中,最关键的是结点分裂属性的选择.文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法. 相似文献
12.
13.
14.
15.
16.
17.
C4.5算法是数据分类的经典数据挖掘算法。整合并规范了临床确诊病例中的糖尿病并发症数据,同时进行了粗糙集约简,并运用C4.5算法实现了分类。研究表明,该方法能很好地实现决策分类,以辅助临床诊断。 相似文献
18.
19.
基于现行数据隐私问题日益严重,如何防止数据挖掘过程中隐私信息的泄漏,将是一个重要的研究议题。就此提出了一个多单位合作的决策树隐私保护方法,并重点分析了该方法所具有的安全性和通讯量,方法以C4.5算法为基础并利用垂直属性分割在水平数据库环境下进行挖掘,方法主要是保护不同单位间挖掘出的规则不被其它单位获取,同时又能达到准确无误差的共同挖掘结果。 相似文献
20.
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。 相似文献