首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随机森林算法随机选择多个决策树构成森林,算法分类结果由这些决策树投票得到,在运算量没有显著增加的前提下提高了预测精度,是一种目前比较流行的组合分类器算法。随机森林算法不仅可以用来做分类,也可用来做回归预测,是机器学习、计算机视觉等领域内应用极为广泛的一个算法。该文将随机森林分类算法用于交通状态判别,利用实测数据进行模型训练和验证,并用袋外数据计算判别正确率,实验结果表明该方法具有可行性,为交通状态判别提供了一种新思路。  相似文献   

2.
企业偷漏税手段呈多样化、专业化、普遍化、隐蔽化趋势。为更好地识别企业是否存在偷漏税行为,基于Python语言,在Anaconda集成开发环境下通过机器学习的Scikit-Learn包构建随机森林模型,通过交叉验证算法选择最优模型。对汽车销售行业纳税人是否存在偷漏税行为进行自动识别。结果表明,基于随机森林模型的偷漏税行为自动识别相对于其它常见的分类模型(k-近邻算法、逻辑回归模型、决策树模型和Adaboost算法),具有较高的准确率,分类性能更好,可以满足偷漏税行为的自动识别需求。  相似文献   

3.
利用红外光谱与随机森林相结合的方法对不同产地蕨麻进行分类鉴别,测定了42个来自青海省不同产地的蕨麻样品的红外光谱。小波变换对红外光谱原始谱图数据进行了预处理,红外光谱数据压缩到原来的1/8,其分析精度与原始光谱数据基本相当。将42个样品划分为有30个样品的训练集和12个样品的测试集,建立随机森林预测蕨麻产地模型。使用内部交叉验证和外部数据进行验证,采用R语言实现随机森林算法,并对模型的参数进行了优化。结果表明,所建立的判别模型中训练样本和测试样本判别正确率均为100%。建立的模型能够正确地对蕨麻样品快速进行产地鉴别,红外光谱法结合随机森林可作为中药材产域分类鉴别的一种新的尝试。  相似文献   

4.
税收是国家重要的财政收入来源且具有强制性,某些纳税人会以各种手段避免税款或者不足额缴纳税款,这样极易造成税收风险。以随机森林算法和税收风险理论为基础,采用约简决策树的方式进一步提高了随机森林算法的分类性能,构建了对房地产行业的企业所得税税收风险识别模型。模型在性能检测实验中获得了90.20%的正确率和88.70%的F1分数,且运行时间较原始的随机森林算法减少了33.33%。实验结果表明:对随机森林算法作出的改进是正确、有效的,且证实了构建的税收风险识别模型用于企业所得税税收风险的可行性和优越性,一方面为税务机关进行企业风险管理提供了借鉴;另一方面也为规范企业涉税风险管理提供了支撑。  相似文献   

5.
针对银行客户信用评估模型不健全不完善等问题,在对比随机森林(RF)、GBDT和XGBoost三种集成算法基础上,提出基于XGBoost算法的金融客户信用评估模型。从知名的UCI数据库中选取德国某银行客户信用数据集,在对数据进行缺失值、标准化等预处理后,分别对随机森林(RF)、GBDT算法和XGBoost三种集成算法建立个人信用评估模型,然后依据计算得到的相关多元评价指标对个人信用评估进行对比研究。实证结果表明,建立在XGBoost集成算法上的个人信用评估模型性能最优,在准确率指标上比随机森林(RF)高出6%,比GBDT算法高0.8%。  相似文献   

6.
为了实现教育领域的“个性化”,无论是自由组卷的个性化,还是试题推荐的个性化,都首先需要确定试题难易度。研究目标为寻找新的方法解决基于试题难易度的分类问题,提高分类准确率。以高中数学为例,采用2018年多套高考数学试题作为实验数据,对原始数据各个特征进行相关性分析,剔除影响较小的特征,再采用随机森林算法探索试题难易度分类问题,对参数进行改进优化,并与其它分类方法进行对比。实验结果证明,采用随机森林的高中数学试题分类准确率高达90%,而其它3种分类算法准确率分别为72%、74%、74%。因此得出结论,随机森林算法在高中数学试题难易度分类上有较好表现,能够大幅提高分类准确率。  相似文献   

7.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

8.
将随机森林引入图像分类研究.首先利用MR8滤波器组进行纹理过滤,然后用随机子窗口对这些响应提取纹理特征,用随机森林进行训练.对待测图像采样后导入已训练完成的随机森林,用投票的方式为其预测类别.引入MR8滤波器组,将随机森林扩展为能处理滤波图像块,用于纹理图像的分类.在CURe T图像库上的实验表明,该方法能够取得优良的分类精度,并具有较高的分类效率.  相似文献   

9.
为降低经济指标众多及外部因素给经济预测准确度带来的影响,有效提高区域经济预测性能,借助元学习算法的小样本分析优势,提高随机森林算法的适用性,实现区域经济预测。根据区域经济统计数据选取多个数据样本,构建随机森林算法的经济预测模型,通过多个弱分类器投票获得经济预测结果;考虑弱分类器权重数量较少,借助元学习算法对权重进行优化;采用优化的随机森林算法模型完成区域经济预测,并选取中等城市和区不同数量规模的经济样本进行多个经济指标预测仿真。结果表明,经过元学习优化后,随机森林算法在区域生产总值、进口额增长率和居民消费价格指数等方面的预测误差率均有大幅下降,元学习对随机森林算法的优化效果显著。  相似文献   

10.
针对目前三维人脸模型的语义标记和分割研究较少的问题,提出一种基于正方形切平面描述符的三维人脸模型区域标记算法。这种新的描述符由三维人脸模型顶点的正方形切平面区域内的几何信息编码而成。随后通过随机森林算法对其进行学习,对模型上的所有顶点进行分类,从而实现对三维人脸模型上眉毛、眼睛、鼻子、嘴巴等区域的识别和标记。在定位仿真实验中,分类准确率可达94.46%。该描述符具有旋转、头部姿势与三维模型分辨率不变性,对模型噪声具有鲁棒性。实验结果表明,该方法能有效标记三维人脸模型区域。  相似文献   

11.
为及时发现并处理智能电表故障,延长其使用寿命,依据某地级市用电大数据进行数据挖掘和分析,基于随机森林(Random Forest,RF)算法建立智能电表故障诊断及寿命预测模型,并与其他模型进行实验比较。结果表明,构建的预测模型能实现智能电表的故障诊断与使用寿命预测,且有效性和准确性优于其他模型,具有工程应用价值。  相似文献   

12.
为了解决电费回收问题,采用机器学习算法,通过对电力客户历史数据进行分析和研究,选择精确度普遍较高的随机森林算法,采用用电客户的基本信息、缴费行为、用电特征等多个维度确定模型指标,构建用户欠费模型,在分析用户欠费行为的同时对客户的欠费行为进行风险评级,提高对欠费用户的识别效率,降低电费回收的风险,通过该方法可以有效预测用...  相似文献   

13.
王鹏  葛红 《教育技术导刊》2013,12(5):139-141
提出了一种人脸关键点检测方法,该方法用了少量的正面图像,不用归一化人脸图像,而传统的人脸关键点检测方法需要对图像进行严格预处理。随机森林是一种分类器融合算法,可以很好地解决多类分类问题,虽然LBP特征简单,但其可以包含大量的纹理信息。利用改进的LBP特征与随机森林相结合,构成一种对人脸关键点检测的方法。通过高斯平滑图像的LBP特征的提取,对每个点生成特征,计算出有用的特征作为正例,并且与反例集合变为训练集。通过随机森林分类器进行分类,误差率较低,仅在10%左右。  相似文献   

14.
现代数字化工业生产中,制造、组装和测试过程会产生大量数据,这些数据中隐藏着决定产品质量的信息和知识。使用传统抽检手段发现质量问题后再加以修改往往为时已晚。数据挖掘中用生产参数预测产品质量,可以预先获取产品质量信息,据此进行调整以提高产品质量。采用CRISP-DM流程,使用集成学习算法(随机森林、XGBoost),利用回归与分类模型进行数据挖掘,经参数调节获得精确的优化模型,在生产中运用该模型有助于提升产品质量。  相似文献   

15.
基于在线学习行为预测学生成绩可以辅助教师动态掌握学情,制定差异化的教学策略,然而在混合课程中仅仅依据在线数据对学生成绩迸行预测难度很大,尚处于探索中.文章选取某高校2018秋季学期和2020春季学期的"高活跃型混合课程"学生在线行为数据,采用增量学习的随机森林算法构建学生成绩预测模型,研究发现:(1)增量学习随机森林算法在混合课程样本最多的数据集中,获得预测结果准确率最高(75.1%);(2)相较于批量学习随机森林算法,增量学习算法在数据样本量较多的数据集中预测结果准确率更高;(3)当样本数量达到一定规模后,预测结果准确率波动减小、稳定性增强.本研究采用增量学习随机森林算法预测混合课程中的学生成绩,不仅取得了较好的预测准确率,而且解决了新增数据后模型的稳定性问题,将有助于模型的迭代优化,提高模型的通用性,以及可持续追踪学生在不同学期的学习行为特征.  相似文献   

16.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

17.
为了进一步提高决策树模型的交通事件检测性能,且避免噪音和过拟合现象,提出了基于随机森林的交通事件检测方法.从分类强度和相关性2个角度进行分析,并构建了3组实验:与不同数目决策树的对比、与不同决策树的对比及与神经网络的对比.实验数据采用实测的高速公路交通参数数据库(I-880数据库);实验的评价指标采用检测率、误警率、平均检测时间、分类率和ROC曲线下的面积.实验结果表明,基于随机森林的交通事件检测模型可以提高检测率、减少检测时间、提高分类正确率,和多层前馈神经网络相比具有很好的竞争力.  相似文献   

18.
《宜宾学院学报》2019,(12):72-78
由于数据集里类别分布不均,传统随机森林(Random Forest)分类器的性能受到一定程度制约,面对学业数据集中成绩较差人数占少数比例的非平衡性问题,为了在一定程度提高模型预测性能,提出SMOTEENN混合采样方式结合随机森林分类器的组合分类预测模型的方法(SER)对学生学业表现进行分类;同时基于10种非平衡性数据集采样方法,对比分析了包括随机森林在内的5种模型的性能.实验结果表明,使用SER方法对学生学业表现情况预测最优,分类器性能指标F1-Score和Recall的值分别为0.98和0.97,达到了预期目的.  相似文献   

19.
可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。  相似文献   

20.
不透水面是影响山区生态环境的重要因素.多源遥感数据融合是不透水面提取的重要方法,但容易造成分类特征冗余,需要进行特征优选.现有研究尚缺乏对不同特征优选方法在不透水面遥感提取中的对比分析.首先使用Sentinel-1和Sentinel-2影像等数据提取特征,然后分别基于JM距离、随机森林(RF)模型和ReliefF算法进...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号