共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 相似文献
3.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。 相似文献
4.
针对传统网络入侵检测方法在实时性响应和入侵行为识别率上存在的不足,本文提出了一种抽取多数类边界样本的入侵检测算法。该算法首先根据中心距离确定网络链接行为中多数类样本的边界样本,然后将多数类样本的边界样本与少数类样本合并构成新的训练集合,最后进行分类学习。该算法有效地降低了类别之间的不平衡度和减少了训练样本数目,具有更好的入侵检测性能。在KDD CUP 99数据集上的仿真实验,充分验证了该算法的有效性。 相似文献
5.
针对核心专利识别准确率低的问题,重构指标体系;针对传统核心专利识别方法处理不平衡数据效果欠佳,提出重采样技术与集成算法的组合模型。首先,在传统指标构建基础上加入专利发明人相关指标;其次,使用合成少数类过采样算法(SMOTE)增加少数类样本解决数据不平衡问题,采用局部离群因子(LOF)算法对新生成样本进行降噪处理,并与自适应集成算法(Adaboost)组合成SMOTE-LOF-Adaboost模型;最后,以智慧芽专利数据库中2012—2016年共22077条光伏领域专利数据为例,使用SVM、Adaboost、SMOTE-Adaboost、SMOTE-LOFAdaboost进行实证分析。结果显示SMOTE-LOF-Adaboost模型AUC均值0.977 6,Recall均值0.986 0,均优于其他3种模型,表明该模型能够提高核心专利预测的准确性。 相似文献
6.
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。 相似文献
7.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。 相似文献
8.
不平衡数据集分类方法研究 总被引:1,自引:0,他引:1
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。 相似文献
9.
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价PPP项目可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本识别能力,针对CPPPC库中PPP案例样本数据非平衡性及高噪声异质性,提出Borderline-SMOTE Bagging算法,对四组PPP项目进行可融资性评价。研究结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;针对PPP非平衡数据集问题,Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力。 相似文献
10.
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性.通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资本合作中心库中PPP案例样本数据存在非平衡性及高噪声异质性问题,提出Borderline-SMOTE Bagging算法,按照不同领域对其中4组项目进行可融资性评价.结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力.最后结合实证过程遇到的问题,对未来PPP数据化发展,提出政府部门应增强PPP项目数据收集能力并逐步实现数据开放共享,借助大数据技术提升PPP项目管理效率和精准度等建议. 相似文献
11.
针对FCM算法主要应用于点数据聚类,不能直接处理关系型数据的缺点。本文提出了一种基于Web日志的数据挖掘聚类算法,首先对FCM算法进行改进使其能够处理关系型数据,并对算法进行了健壮性改进。然后针对传统FCM算法需要在没有先验知识的基础上,事先确定聚类类别数的缺点,引入了竞争凝聚算法(CA),与FCM算法相结合,形成了CA-FCM算法,使之能够自动确定最佳分类类别数。实验表明,CA-FCM算法的挖掘结果与FCM算法的结果相近,在用户访问会话数量不太大时性能优于FCM算法。 相似文献
12.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。 相似文献
13.
[研究目的]通过从评论文本和评论者两个维度对在线评论的特征进行挖掘,探究电商平台如何有效提高虚假评论识别的准确性,增加用户在线商品评论可信度,为消费决策提供参考。[研究方法]提出一种基于多维特征和SMOTE-RF模型的虚假评论识别方法。首先,通过识别商品虚假评论线索,构建多维特征向量,引入情感极性等特征并进行单调化处理;其次,在评分偏离度中添加了商品得分均值等统计指标来全面刻画虚假评论;最后,针对在线评论数据集中真实评论与虚假评论类不平衡问题,运用SMOTE算法优化随机森林分类模型,从而达到提高虚假评论识别准确性的目的。[研究结论]实验结果显示该方法在正负样本不平衡的虚假评论识别中具有更高的准确率、召回率及F1值。其中评分偏离度特征对虚假评论识别的影响最大,情感极性可作为识别的次要参考特征。因此,综合考虑在线评论多维特征和正负样本不平衡可帮助电商平台对虚假评论进行有效的过滤,为消费者提供更为可靠的评论数据。 相似文献
14.
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了改进,提出了Apriori改进算法.Apriori改进算法采用二进制数据垂直表示方法,只用扫描事务数据库一次得到一阶大项集的二进制数据垂直表示.K阶候选项集的操作只要基于这个一阶大项集,而不需重复扫描数据库,从而提高了挖掘算法的效率. 相似文献
15.
针对PSVM没有考虑不平衡数据的情况,提出一个基于改进PSVM的分类方法(PSVM-2).首先用PSVM对输入集数据进行初次训练,并得到分类超平面的法向量,做输入集在法向量上的投影,利用投影样本点提供的数据改进PSVM,并对输入集数据进行再次分类.实验证明本方法在处理不平衡数据时性能表现良好. 相似文献
16.
17.
在MATLAB环境下,取ORL人脸数据库的部分人脸样本集,基于PCA方法提取人脸特征,形成特征脸空间,然后将每个人脸样本投影到该空间得到一投影系数向量,该投影系数向量在一个低维空间表述了一个人脸样本,这样就得到了训练样本集。同时将另一部分ORL人脸数据库的人脸作同样处理得到测试样本集。然后基于最近邻算法进行分类,得到识别率,接下来使用BP神经网络算法进行人脸识别,最后通过基于神经网络算法和最近邻算法进行综合决策,对待识别的人脸进行分类。 相似文献
18.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。 相似文献
19.
随着的计算能力的不断提高和计算机体系结构的可编程性,将向着多核,众核的异质形核的方向继续发展。针对这一问题,本文对KFCM算法的类别间可分性优化进行了分析,通过对于FCM算法的数据集C划分、FCM算法和HCM算法的理论知识,解释了KFCM算法,对于样本的特征进行优化,将高维特征空间内的数据映射到内核函数中,将样本的有益特征扩大,到达快而准的聚类效果。经过仿真测试显示,KFCM算法模型聚类效果可以准确区分二者。 相似文献
20.
针对高斯混合模型算法(GMM)对初始参数敏感、易陷入局部最优的问题,本文提出一种基于改进海洋捕食者算法优化的GMM算法(MMPA-GMM)。首先基于混沌序列和伪对立学习策略初始化种群,引入非线性收敛因子平衡MPA算法的全局与局部搜索,同时提出融入社会等级制度的位置更新策略;然后从搜索能力和收敛速度对改进的MPA进行分析;最后以S_Dbw指标作为算法的适应度函数,利用改进的MPA优化GMM算法的初始参数。实验结果表明,改进的MPA在4种测试函数上表现良好,并且MMPA-GMM算法对4个数据集的聚类效果均有改善,有效避免了GMM算法陷入局部最优的问题。 相似文献