共查询到20条相似文献,搜索用时 31 毫秒
1.
决策树分类过程中,最关键的是结点分裂属性的选择.文章分析了目前常见选择分裂属性方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,实验显示该方法在分类错误率方面好于以信息熵为基础的方法. 相似文献
2.
3.
4.
决策树算法是数据挖掘系统中一个重要的分类算法,选择合理而有效的测试属性以及对决策树进行适当的修剪是决策树算法的关键内容之一。将决策树算法引入教务管理挖掘系统,并对决策树测试属性的选择算法以及预剪枝算法进行改进。以九江学院学生四级考试信息为例,结果表明改进的决策树算法对于数据挖掘更具可靠性和有效性。 相似文献
5.
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。 相似文献
6.
7.
针对传统的异常信息流检测方法的不足,设计了一个异常信息流检测模型,该模型采用了数据挖掘中的决策树算法对信息流进行归纳分类,采用信息增益作为分类属性选择标准来构造规则决策树,针对网络流量进行分析,能提高检测速度.开辟了一条检测异常信息流的新途径. 相似文献
8.
【目的/意义】利用数据挖掘技术分析涉恐人员的物流、资金流、信息流等数据进行反恐预警可以有效提高
反恐工作效率和优化资源配置。【方法/过程】本文将研究如何利用信息增益决策树对涉恐情报信息进行快速分
类。分类过程为从根节点的涉恐人员属性开始不断产生新的分支。产生每个分支都需要计算不同属性的信息增
益并选择分裂属性。【结果/结论】文中的方法可以对大量涉恐情报基础数据进行快速分类,在实际工作中可以与关
联分析、聚类分析、异常检测等其他数据挖掘方法组合使用。该方法既可以应用于公安情报学专业本科生的课堂
教学,也可以应用于情报分析人员的培训。 相似文献
9.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。 相似文献
10.
建立虚拟软件数据分类的数据仓库,提取数据后对数据进行预处理,对分列属性进行惩罚-分配图分类,在分裂过程中使用信息增益比作为属性的分裂准则来对次要属性进行惩罚,保证惩罚-分配图细化准确。实验证明,能够提高虚拟软件分类的准确率,为用户正确的选择提供保证,具有很强的实用性。 相似文献
11.
12.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。 相似文献
13.
14.
归纳学习训练样本能够产生决策规则或决策树,通过决策规则或决策树分类新数据的方法称为决策树。本文以大连市旅顺口区为研究区域,分析该区影像信息选取分类样本,选取合适的特征,统计分析样本的特征值,运用基于特征的决策树分类方法,设计决策树分类器,来解决该区域土地利用分类问题。 相似文献
15.
介绍了一种基于机器学习的手写汉字识别方法。针对写汉字的特点,选择并提取了横竖笔划特征、用边特征、结构划分特征、分区特征点、黑点重量等作为分类特征。在分类策略中采取了先粗分类后细分类的多级分类方法.并将决策树算法ID3成功地应用到分类策略中,在识别中利用决策树引导特征提取。减少了特征提取的数量,从而大大提高了识别速度。 相似文献
16.
一种改进的SVM决策树文本分类算法 总被引:1,自引:0,他引:1
将SVM和二叉决策树结合起来构成SVM决策树的方法能够较好地解决多类文本分类问题,在此基础上引入了一种基于支持向量数据描述(SVDD)的类间可分性度量方法,对SVM决策树分类器进行改进,实验表明,该方法有效地提高了SVM决策树多类分类器的分类精度和速度. 相似文献
17.
探讨C4. 5决策树、支持向量机分类器在新疆地方性肝包虫CT图像分类中的应用。使用sym4小波变换方法对预处理的图像进行特征提取,运用统计学方法筛选出最优的特征子集,并构建C4. 5决策树分类模型和支持向量机分类模型,进一步对模型的准确性、召回率等进行评估。结果显示,3种CT图像两两分类和综合分类时,C4. 5决策树分类模型的分类精度都明显高于支持向量机分类模型,C4. 5决策树分类模型的分类精度均达到87%以上,分类效果较好。实验结果表明,将C4. 5决策树分类器应用于肝包虫CT图像的分型中,为肝包虫病影像学诊断提供了一定的依据,也为后续新疆地方性肝包虫病计算机辅助诊断系统的研发奠定了基础。 相似文献
18.
目前井筒完整性研究主要围绕当前态的风险量化与评估,尚未形成对未来井筒完整性失效的预判技术。为了研究井筒完整性失效预判方法,基于目标油气田中生产井的7项关键属性形成大数据矩阵,随机抽取和建立数据子集,利用随机森林机器学习算法挖掘各属性与井筒完整性之间的隐含联系,研发了井筒完整性预判方法,分别针对3项离散型和4项连续型属性,详细阐述了随机森林决策树的产生步骤、分裂原理和核心算法。通过引入随机参数加强算法的鲁棒性;通过引入生产时间属性,实现了预判未来发生井筒完整性失效时间的目的,最后结合实例分析,验证了基于随机森林的井筒完整失效预判方法的可行性,具备实践指导意义。 相似文献
19.
20.