首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与SMOTE算法、C_SMOTE算法分别对5个不平衡数据集进行扩充分类对比实验,基于AUC、OOB、F值与G值评价指标及成对样本T检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。  相似文献   

2.
有效评估药物专利价值有必要考虑制药基础技术细节以及新药专利保护期限较长的特殊性等有关实际,同时,利用机器学习方法开展专利价值评估的研究仍有待进一步完善,因此,针对生物制药产业专利价值评估准确性问题,结合产业技术因素及其专利特点,以及专利价值评估的共性指标和生物制药产业特征与专利技术特点的个性指标,引入自编码器(AE)模型和谱聚类算法(SC)构建专利价值评估算法模型,以药智专利通数据库的相关专利数据为样本进行实证分析,通过提取专利指标特征、专利聚类来进行专利价值评估,并运用支持向量机方法对专利价值进行分类,以验证AE-SC评估模型的有效性。结果表明:AE-SC评估模型通过自编码器提取专利特征后的专利价值聚类准确度优于谱聚类和传统K-means聚类;专利存在年数、药物专利类型、适应证类别等是评价生物制药产业专利价值必要考虑因素。  相似文献   

3.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。  相似文献   

4.
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。  相似文献   

5.
针对传统网络入侵检测方法在实时性响应和入侵行为识别率上存在的不足,本文提出了一种抽取多数类边界样本的入侵检测算法。该算法首先根据中心距离确定网络链接行为中多数类样本的边界样本,然后将多数类样本的边界样本与少数类样本合并构成新的训练集合,最后进行分类学习。该算法有效地降低了类别之间的不平衡度和减少了训练样本数目,具有更好的入侵检测性能。在KDD CUP 99数据集上的仿真实验,充分验证了该算法的有效性。  相似文献   

6.
针对传统Adaboost人脸检测算法中光照不均匀、图像检测正确率低的问题,提出一种基于Adaboost算法的人脸光照补偿检测方法。介绍Adaboost人脸检测算法的处理流程以及直方图均衡化原理,并将Adaboost算法和直方图均衡化相结合,实现人脸检测。检测结果表明,与传统的Adaboost人脸检测方法相比,新方法对于光照不均匀图像的人脸检测有很好的效果。  相似文献   

7.
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价PPP项目可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本识别能力,针对CPPPC库中PPP案例样本数据非平衡性及高噪声异质性,提出Borderline-SMOTE Bagging算法,对四组PPP项目进行可融资性评价。研究结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;针对PPP非平衡数据集问题,Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力。  相似文献   

8.
黄静  薛书田  肖进 《软科学》2017,(7):131-134
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能.该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果.在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性.  相似文献   

9.
针对高科技企业的特点,指出其财务危机预警必须做到及时、准确;支持向量机算法(SVM)对小样本问题具有良好的学习能力和泛化能力,但应用到数据分布不平衡的高科技企业财务危机预警问题时,对"正例"的识别效果不佳;模糊C均值(FCM)聚类能够在保持原有样本数据信息的同时较好的实现"正例"和"反例"的平衡.在PCA、FCM实现数据预处理的基础上,应用SVM方法对高科技企业财务危机进行识别,实证分析证明这种方法在是有效的.  相似文献   

10.
针对现有的数据资源价值评估与定价方法主观性强、定量标准缺乏的问题,提出基于模型堆叠集成GBDT(Stacked-GBDT)算法的数据资源价值评估方法。首先,基于敏感性分析,从数据自身和市场两个维度归纳并建立了数据资源价值评估指标体系;然后,基于GBDT机器学习算法与Stacking集成学习算法,提出了基于StackedGBDT的数据资源价值评估算法,并与Random Forest和XGBoost算法进行对比以验证所提方法的正确性及有效性;最后,应用Stacked-GBDT模型对数据集进行动态定价。结果表明,Stacked-GBDT算法构建的数据资源价值评估模型可为数据价值测算及动态定价提供精确可靠的依据与支撑。  相似文献   

11.
沈俊鑫  程墙  吴以 《科技管理研究》2021,41(16):218-226
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性.通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资本合作中心库中PPP案例样本数据存在非平衡性及高噪声异质性问题,提出Borderline-SMOTE Bagging算法,按照不同领域对其中4组项目进行可融资性评价.结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力.最后结合实证过程遇到的问题,对未来PPP数据化发展,提出政府部门应增强PPP项目数据收集能力并逐步实现数据开放共享,借助大数据技术提升PPP项目管理效率和精准度等建议.  相似文献   

12.
[目的/意义]针对现有数据资源定价标准模糊、交易规则缺失、买卖双方信息不对称的问题,提出基于Stacking多算法融合模型的数据资源定价方法。[方法/过程]首先,基于四分位法及Box-Cox方法对样本数据进行预处理,剔除异常数据的同时调整数据分布,并基于Lasso算法以均方根误差最小为目标完成特征筛选;其次,基于Pearson系数选取最优算法组合,构建基于Stacking集成学习融合多种机器学习算法的数据资源价格预测模型;最后,以国信优易数据平台交易数据为样本进行算例分析。[结果/结论]相较于单算法模型及其他集成算法模型,XGBoost、SVR、KNN、MLP融合模型的预测精度及性能均明显提升;实现了数据资源自身和市场的双向反馈平衡,形成闭环的价值链,为数据资源定价提供参考。  相似文献   

13.
运用集成分类算法bagging的改进模型——subagging试图建立一个专门针对个人信用评估的方法,以期取得更好的预测分类效果.针对个人信用评估中单一分类器的不足,提出了利用分类器的集成进行个人信用评估的方法.利用UCI上的信用数据对单个分类器、bagging集成分类器以及subagging集成分类器进行实验比较,结果表明,subagging -决策树和subagging -K近邻在样本不独立和不平衡的情况下有效地提高了模型的精准性.结果显示,它们对商业银行控制消费信贷风险具有更好的适用性.  相似文献   

14.
基于专利计量法的核心业务测度研究   总被引:4,自引:0,他引:4       下载免费PDF全文
孙大鹏  苏敬勤  仲小云 《科研管理》2006,27(2):122-127,101
本文针对目前核心业务测度方法不系统的问题,运用专利计量法,提出了分别从专利和销售收入两个指标对企业的业务进行评价假设。通过以国内外公司近五年的专利和销售收入数据为样本进行实证检验,证明了这种方法的客观性和有效性。  相似文献   

15.
针对传统BP神经网络存在收敛速度慢和容易陷入局部极小值缺点,影响建筑能耗预测精度的问题,引入Adaboost算法对BP神经网络进行改良,提出一种基于BP-Adaboost算法的建筑能耗预测方法。该方法充分结合BP神经网络良好学习能力和Adaboost算法预测精度高的优点,通过Adaboost算法将BP神经网络训练所得的弱预测器组合集成为BP-Adaboost强预测器,完成对建筑能耗的预测。案例仿真结果表明:与传统BP神经网络预测比较,该算法预测速度快、预测精度较高,其预测结果可为建筑节能方案的实施提供参考依据。  相似文献   

16.
针对K均值算法在聚类分析中还存在对初始值异常的敏感、容易陷入局部最优等问题,本文提出了一种基于相似度计算优化和指标加权优化的改进算法,首先采用欧式距离度量方式对传统K均值算法中的相似度计算进行优化,避免其进入局部最优,然后根据实际问题对聚类的指标进行加权优化。实例仿真试验结果表明,本文提出的基于相似度计算优化和指标加权优化的改进K均值算法在烟草零售终端数据聚类分析中效果良好,有利于提高货源投放的精准化。  相似文献   

17.
用深度学习(DL)的方法对蛋白质O-糖基化位点进行了预测。首先用SMOTE方法处理非平衡数据集,对较少一类的样本用"近亲繁殖"的方法产生新的样本,弥补"欠采样"或"过采样"造成的预测误差;然后用深度学习中的深度玻尔兹曼机神经网络(DBM)进行分类(预测),并用多数投票法对结果进行集成。实验结果表明,DBM是预测O-糖基化位点的行之有效的方法。  相似文献   

18.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。  相似文献   

19.
黄旭  马凯 《大众科技》2011,(2):65-66
传统的聚类算法在处理复杂特征数据时效果不理想,为此提出使用高斯径向基核函数将原空间上的数据映射到高维特征空间后,再用蚂蚁算法进行第一次聚类,针对第一次聚类结果得到较多簇等问题,提出再用马赛克算法进行二次聚类,得到较为接近真实情况的簇数目。  相似文献   

20.
技术融合是实现技术创新的主要途径之一。技术融合测度可以识别融合过程中发挥关键作用的技术,对于引导创新主体确立研发路径起着重要作用。针对大数据背景下研究效率不高、粒度较粗以及精准性差的问题,引入机器学习领域的LDA-SVM分类算法,通过LDA从专利中提取主题特征,并结合SVM分类器进行技术分类,筛选出融合特征较强的专利子数据集;在此基础上,选用融合度指标和中介中心性指标进行测算专利子集中技术的融合程度和识别融合过程中的关键技术。以智能手机为例,选取电池、微处理器、相机和触屏4类技术,运用LDA-SVM算法筛选出具有多类技术特征的专利数据,并通过2个指标的测算,识别出智能手机领域的W01-C01G8(功能电话和智能手机)与W01-C01P2(个人数字助理)融合度最高;微处理器技术中W01-C01Q6A(图形和显示处理技术)、相机技术的W01-C01P6C(数码相机)、W04-M01B1(电子静态相机)和电池技术中的W01-C01E5B(电池省电供电技术)等均是融合过程中的关键技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号