首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
不平衡数据在各个应用领域普遍存在。在处理不平衡数据时,破坏原始数据的分布特点和丢弃多数类样本的潜在信息都会降低分类精度,为此,提出一种不平衡数据集成分类方法。从多数类样本中依据计算得到的综合权重进行随机采样,并与少数类样本组成新的训练样本子集|为了保证基分类器的差异性,将投影得到的不同样本子集作为各个基分类器的训练样本,通过多分类器集成学习获得最终分类结果|在UCI数据集下进行实验。结果表明,该方法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类精度。  相似文献   

2.
为了消除近红外光谱波长变量数量多,强度弱以及重叠严重等因素对预测结果的影响,提出了基于波长变量聚类与剪枝的集成学习模型.对波长变量进行聚类,在此基础上根据预测值与真实值的最大绝对误差和方差进行剪枝,有效减少变量的个数.从剪枝后的聚类中多次抽取子训练集并构建集成学习模型CTV-PLS.数值实验中,四种方法的比较表明CTV-PLS在大多数情况下其预测精确度占优,真实值与预测值的相关性均超过94%.  相似文献   

3.
集成学习是构造一系列的分类器,然后对新的样本预测其类别的学习算法。最原始的集成方法是贝叶斯平均,最近的算法包括Error-Correcting output coding、Bagging和Boosting。阐述了集成后的分类器效果优于单个分类器的原因,结合实验对一些集成学习的研究结果进行了说明。  相似文献   

4.
集成学习算法的效果取决于各个基分类器,如何构造有效的基分类器是关键。对集成学习算法中的Bagging算法进行了研究,提出了一种基于层次抽样构造SVM基分类器的方法进行P2P流分类,并通过实验验证了该方法的有效性。  相似文献   

5.
为提高早期糖尿病患病风险的预测准确性,基于集成学习算法建立糖尿病患病风险预测模型.分别基于集成学习算法随机森林、GBDT和XGBoost建立糖尿病预测模型,并比较以上3种方法与单一分类器支持向量机和BP神经网络的分类预测性能.在UCI数据库的早期糖尿病数据集上进行验证试验,使用准确率、精确率、召回率、F1分数和AUC ...  相似文献   

6.
针对高职院校学生存在的心理健康问题现状,提出一种利用集成学习算法——Adaboost进行心理健康预测的方法。该方法首先抽取心理健康测试数据特征,经过数据清洗和规范化处理后,以决策树为分类器对数据进行挖掘分析,运用Adaboost算法对决策树分类器进行多轮迭代训练以提高分类器的分类效能,建立起一种心理健康预测模型。利用该模型对某高校2015级2 780名学生的心理健康测试数据进行了分析。实验结果表明,该方法能够实现对敏感心理问题的有效识别,从而为高职院校心理健康教育提供规划和决策依据。  相似文献   

7.
视频概念检测领域一直存在语义鸿沟难以跨越的问题。针对该问题,提出了基于多核属性学习方法,将属性概念引入视频概念分类中,利用属性的高级语义表达能力,降低语义鸿沟影响,同时结合多核学习,提高多特征下属性分类器性能。在公有数据集上进行对比实验表明,该方法可以有效提高视频概念检测正确率。  相似文献   

8.
为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K 均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K 均值聚类方法对数据集进行聚类。用上述方法研究了访客在某网站各栏目的平均停留时间,结果表明,基于预测强度的聚类方法较常规聚类方法更适宜于大数据的聚类分析。  相似文献   

9.
对单属性时态特征聚类进行了研究,提出了一种基于SOM网络(自组织特征映射)聚类提取单属性时态数据特征的方法,通过实验表明此算法是有效的.  相似文献   

10.
在大数据时代,数据是由不同来源生成的,或者是从不同视图中观察得到的,这些数据被称为多视图数据。在数据挖掘与分析中,充分发挥知识在多视图数据中的作用是非常重要的,因此需要在融合相关数据的同时,考虑不同视图的多样性。近年来,多视图聚类(MvC)受到越来越多学者关注,根据其涉及的机制和原则,将多视图聚类算法分为5类,即协同训练算法、多核学习、多视图聚类、多视图子空间聚类与多任务多视图聚类。对多视图聚类算法进行介绍,并重点介绍了协同训练算法与多核学习。  相似文献   

11.
聚类是指按照事物间的相似性对事物进行区分和分类的过程。对网络个性化学习行为中的大量数据,首先对样本数据进行了预处理,然后运用数据挖掘算法中的K-means算法进行分类,获取各类与网络学习行为属性的关系。在Clementine中的实验结果表明,该算法能够将数据准确聚类,为教师教学培养目标的制定提供一定的决策支持。  相似文献   

12.
针对移动通信基站选型的问题,提出基于多标签分类技术移动通信基站选型的一种新方法。引入多标签分类技术中的BR方法,基于基站建设的历史数据进行自动选型,通过数据的分解、分类器的处理和集成,最后建立基站选型的预测模型。实验结果表明,多标签分类技术在移动通信基站建设中基站选型的预测上有较好的预测能力,优于传统的经验选型方法。  相似文献   

13.
粗糙集和神经网络作为不确定性计算的两种重要工具,它们具有很强的互补性。在分析了两种理论的特点之后,得出了一种多神经网络分类器的组合方法,新方法根据对数据集进行约简的结果得到多个与数据相关的且相互独立的神经网络分类器,然后根据属性重要性概念将多个分类器组合起来。对比实验证明,该分类器具有较好的分类效果和性能。  相似文献   

14.
为了改善传统K-Modes聚类算法相异度度量公式弱化了类内相似性,忽略了属性间差异,以及单一属性值的Modes忽视了某一属性可能存在多属性值组合,且算法受初始中心点影响很大的缺点,基于多属性值Modes的相异度度量方法提出MAV-K-Modes算法,并采用一种基于预聚类的初始中心选取方法。使用UCI数据集进行实验,结果表明,MAV-K-Modes算法相比于传统K-Modes算法,其正确率、类精度和召回率都有明显提升,且MAV-K-Modes算法适合于并行化改造。  相似文献   

15.
传统的基于支持向量机的文本分类器需要大量的人工标注的正类训练文档和负类训练文档。当前流行的文档标注库中,文档通常仅仅是划入不同的类别。为了解决在负类训练数据缺乏的情况下建立文本分类器的问题,提出了一种高效的方法,它结合了Rocchio方法和K均值聚类算法来获取充足的负类训练数据。  相似文献   

16.
隐藏层中心点参数的选择和权值向量的快速计算是径向基函数神经网络设计的关键问题.基于"半月"数据集,论文提出了一种上下半月单独计算聚类中心的K-均值聚类、递归最小二乘算法计算权值向量的混合学习算法.基于三层RBF神经网络结构,以支持向量机作为分类器,开展了K-均值+最小均方算法及K-均值+递归最小二乘算法2种混合模式的对比实验.实验结果表明,"K-均值+RLS"算法相比"K-均值+LMS"算法具有更快的收敛性,在应对线性不可分的情况,上下半月单独作用的K-均值聚类算法表现更优越,综合考虑收敛速度及分类精度两个指标,论文提出的上下半月单独计算中心点的K-均值聚类+RLS的混合学习算法获得较优的性能.  相似文献   

17.
负荷预测是电力系统分析与运行的基础,对机组组合、经济调度、安全校核等均具有重要意义。随着电网规模不断增大,数据库时间跨度也随之变大,对不良数据及冗余数据的处理造成影响,负荷预测精度和速度的提高难度显著增大。针对这一问题,提出基于懒惰学习与聚类算法的组合模型。该模型以懒惰学习(Lazy Learning, LL)算法为基础,通过选择相似样本对负荷进行差异性预测建模。在预测应用中,为缩小样本库数量,减小 LL算法的预测时间,利用模糊C均值聚类(Fuzzy C-means,FCM)对用电特征进行聚类从而生成局部训练集,以改进LL算法局部建模。实验结果表明, FCM-LL组合算法不仅能高效精确地预测负荷,而且能实现数据库的实时更新。  相似文献   

18.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。  相似文献   

19.
为了解决数据高维、海量导致聚类算法处理效果不佳的问题,提出将流形学习理论引入客户关系管理进行聚类研究。为了较好的分析客户价值,在Kmeans聚类的基础上引入流形学习理论。客户价值分析一般包含数据的抽取、探索以及预处理、模型建立几个步骤。在模型建立过程中一般采用Kmeans聚类实现。使用流形学习的谱聚类来替代Kmeans聚类。使用泰迪杯数据挖掘大赛中的数据进行试验,通过实验的雷达图可以看出,谱聚类与Kmeans聚类具有相似的分类构成。同时对于分类后的数据进行规约并绘制散点图,比较后发现,谱聚类后的数据类间相似度比Kmeans高,表明将流形学习方法引入客户价值分析,对于聚类稳定性有一定改善。  相似文献   

20.
提出一种基于深度学习的高光谱图像多标签分类算法。采用深度学习算法中的堆叠降噪自动编码器方法对每个像素的深层特征进行抽取,该方法可以有效表现高维特征空间中的非线性混合像素。使用多标签逻辑回归方法为每个像素预测并分配多个类标签。通过对合成数据和实际高光谱数据的大量对比实验,实验结果表明:该算法能够有效地为高光谱图像的像素精确地分配多类标签。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号