首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 222 毫秒
1.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

2.
不平衡分类是当今机器学习中的研究热点与难点.为提高不平衡数据的分类效果,提出MetaCost与重采样结合的不平衡分类算法——RS-MetaCost.首先在MetaCost划分子集前对不平衡数据集进行重采样,即过采样少数类或欠采样多数类,以降低或消除数据不平衡程度;其次在预测概率阶段,利用m-estimation提高少数...  相似文献   

3.
为了提高个人信用评分模型算法预测精准率,受视觉领域数据增广思路启发,提出融合数据增广技术与机器学习算法的个人信用评分模型。该模型首先对原始个人信用数据进行数据增广处理,然后基于机器学习分类算法训练一个二分类个人信用评分模型,最后基于公开个人信用数据集,分别建立未经过数据增广和经过数据增广处理后的个人信用评分模型。对比准确率、精确率、召回率、F1 得分、AUC 值和 ROC 曲线等 6 个性能评价指标,结果显示,相较于仅基于机器学习算法的个人信用评分模型,融合了数据增广技术与机器学习算法的个人信用评分模型使得分类性能得到了一定提升,分类准确率平均高出 5%。  相似文献   

4.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

5.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。  相似文献   

6.
数据缺失是临床试验中常见但又不可避免的问题之一。由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上。提出一种基于随机森林与聚类方法结合的算法——双随机森林回归法,并将该算法应用于估计白蛋白缺失值。在准确率和鲁棒性方面,双随机森林回归法相比于最近邻法、决策树与随机森林方法,均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。  相似文献   

7.
不同的聚类算法都可以完成对无标签数据的分类,而Kmeans聚类算法是一种无监督静态数据分析机器学习方法,已被广泛应用于机器学习、模式识别、数据挖掘等领域.但对维度数据准确率不高,本文引入深度自动编码器完成对输入样本的特征自动学习和重构,实现对数据的降维和特征提取,代替原始数据通过Kmeans算法进行聚类分析.实验结果证明,改进后的AE Kmeans(Auto Encoder Kmeans)算法与单独使用Kmeans算法完成聚类相比,准确率得到明显提高.  相似文献   

8.
随机森林算法随机选择多个决策树构成森林,算法分类结果由这些决策树投票得到,在运算量没有显著增加的前提下提高了预测精度,是一种目前比较流行的组合分类器算法。随机森林算法不仅可以用来做分类,也可用来做回归预测,是机器学习、计算机视觉等领域内应用极为广泛的一个算法。该文将随机森林分类算法用于交通状态判别,利用实测数据进行模型训练和验证,并用袋外数据计算判别正确率,实验结果表明该方法具有可行性,为交通状态判别提供了一种新思路。  相似文献   

9.
《宜宾学院学报》2019,(12):72-78
由于数据集里类别分布不均,传统随机森林(Random Forest)分类器的性能受到一定程度制约,面对学业数据集中成绩较差人数占少数比例的非平衡性问题,为了在一定程度提高模型预测性能,提出SMOTEENN混合采样方式结合随机森林分类器的组合分类预测模型的方法(SER)对学生学业表现进行分类;同时基于10种非平衡性数据集采样方法,对比分析了包括随机森林在内的5种模型的性能.实验结果表明,使用SER方法对学生学业表现情况预测最优,分类器性能指标F1-Score和Recall的值分别为0.98和0.97,达到了预期目的.  相似文献   

10.
提升链路预测精度是复杂网路研究的基础问题之一。传统基于局部信息相似性、基于全局信息相似性与基于随机游走相似性的链路预测都是基于单个相似性指标进行预测的,而没有充分利用这些相似性指标的综合信息。将链路预测问题看作机器学习中的二分类问题,将有连接的样本标签记为1,无连接的样本标签记为0,将基于局部信息、基于全局信息与基于随机游走相似性等15个指标作为样本特征。综合考虑以上信息,使用XGBoost算法,选取AUC作为模型评价准则,在facebook真实数据集上进行实验。结果表明,该算法在测试集上的AUC高于基于单个相似性指标链路预测的AUC。  相似文献   

11.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

12.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

13.
采用机器学习中的随机森林算法对葡萄酒的化学特性与葡萄酒的品质之间的关系进行学习,并建立了有效的模型对葡萄酒品质进行预测。该方法具有预测准确率高、预测精度稳定以及葡萄酒分级详细等特点,在葡萄酒行业品质预测的应用中,能够有效地减少因品酒师个人因素带来的评级波动。还将实验结果与已经存在的一些工作进行量化比较,特别是在成本(风险)比较中,所提供的方法明显优于已有的方法。  相似文献   

14.
为了实现教育领域的“个性化”,无论是自由组卷的个性化,还是试题推荐的个性化,都首先需要确定试题难易度。研究目标为寻找新的方法解决基于试题难易度的分类问题,提高分类准确率。以高中数学为例,采用2018年多套高考数学试题作为实验数据,对原始数据各个特征进行相关性分析,剔除影响较小的特征,再采用随机森林算法探索试题难易度分类问题,对参数进行改进优化,并与其它分类方法进行对比。实验结果证明,采用随机森林的高中数学试题分类准确率高达90%,而其它3种分类算法准确率分别为72%、74%、74%。因此得出结论,随机森林算法在高中数学试题难易度分类上有较好表现,能够大幅提高分类准确率。  相似文献   

15.
如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。  相似文献   

16.
为了提高脑力负荷分类准确率,提出一种将Bagging和极限学习机相结合的集成算法。用极限学习机(ELM)作为底层弱分类器,通过多数投票方式决定最终类别的标签,从而构建最终强分类器。实验结果表明,在脑力负荷识别研究问题上,该集成算法的分类准确率在4个被试数据集上分别达到了96.17%、96.02%、92.50%和93.50%。相较于传统的ELM算法,分类准确率在4个被试数据集上分别提升了1.59%、1.34%、2.86%和1.80%。并且新算法在精确率、灵敏度和特异度等评估标准上均高于传统ELM分类器。  相似文献   

17.
利用“薄料”色髹技法可以制造色彩光泽度较高的脱胎漆器工艺品,改变了传统脱胎漆器采用大漆原料导致色彩暗沉,仅有红、黑两种主色的情况。本文采用金箔、银箔、铜箔和广油研磨得到色泥,将色泥和透明漆、大漆等进行调和制备“薄料”。利用傅里叶红外光谱(FTIR)对“薄料”成膜化学结构的变化进行分析,采用扫描电镜(SEM)对“薄料”彩髹样品的界面厚度和银泥、银色“薄料”表面形貌进行检测。结果表明,细小的金属箔片对“薄料”的干燥成膜的化学结构没有影响;“薄料”平均厚度在7~30 μm左右,研磨的银泥中银箔片粒径为10 μm,且在银色“薄料”中,银箔主要起镜面反射作用,可以使得脱胎漆器的光泽度提高。  相似文献   

18.
为了提高南京某所某型雷达伺服系统故障诊断准确率,考虑到传统故障诊断算法的局限性,提出一种基于 Stacking 集成算法的雷达伺服系统故障诊断方法。针对某所某型雷达伺服系统的历史监测数据,首先采用孤立森林算法识别异常样本|然后基于原始数据构造出新的特征,使用卡方检验进行特征选择,并使用SMOTE 算法解决样本不平衡问题|最后,通过建立一种新颖、准确的基于 XGBoost、随机森林和 BP 神经网络的Stacking 集成模型进行故障诊断。实验结果表明,该方法在测试集上的诊断准确率达到了 96.2%,比传统方法诊断准确率提高了 1.8%,证明该方法能够很好地完成雷达伺服系统故障诊断任务。  相似文献   

19.
李冰  陈龙 《教育技术导刊》2009,19(10):121-124
为避免接触式疲劳检测方法给驾驶员带来干扰,解决单一信号源对于反映疲劳程度可靠性低的问题,实现对疲劳状态高精度、高速度的检测,提出一种基于正则极限学习机的驾驶员疲劳状态分类方法。该方法通过多普勒雷达模块采集驾驶员生理信号,包括呼吸信号和心跳信号,作为神经网络输入数据。通过多源信息结合的方式提高疲劳状态检测可靠性。设计正则极限学习机(RELM)模型对数据集进行训练。实验结果显示,基于RELM算法模型检测驾驶员疲劳状态的准确率达92%。RELM算法可实现对训练数据的快速计算和学习,同时通过特征变换消除个体差异,实现对驾驶员疲劳状态较高的检测率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号