共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
有效评估药物专利价值有必要考虑制药基础技术细节以及新药专利保护期限较长的特殊性等有关实际,同时,利用机器学习方法开展专利价值评估的研究仍有待进一步完善,因此,针对生物制药产业专利价值评估准确性问题,结合产业技术因素及其专利特点,以及专利价值评估的共性指标和生物制药产业特征与专利技术特点的个性指标,引入自编码器(AE)模型和谱聚类算法(SC)构建专利价值评估算法模型,以药智专利通数据库的相关专利数据为样本进行实证分析,通过提取专利指标特征、专利聚类来进行专利价值评估,并运用支持向量机方法对专利价值进行分类,以验证AE-SC评估模型的有效性。结果表明:AE-SC评估模型通过自编码器提取专利特征后的专利价值聚类准确度优于谱聚类和传统K-means聚类;专利存在年数、药物专利类型、适应证类别等是评价生物制药产业专利价值必要考虑因素。 相似文献
3.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 相似文献
4.
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。 相似文献
5.
针对传统网络入侵检测方法在实时性响应和入侵行为识别率上存在的不足,本文提出了一种抽取多数类边界样本的入侵检测算法。该算法首先根据中心距离确定网络链接行为中多数类样本的边界样本,然后将多数类样本的边界样本与少数类样本合并构成新的训练集合,最后进行分类学习。该算法有效地降低了类别之间的不平衡度和减少了训练样本数目,具有更好的入侵检测性能。在KDD CUP 99数据集上的仿真实验,充分验证了该算法的有效性。 相似文献
6.
7.
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价PPP项目可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本识别能力,针对CPPPC库中PPP案例样本数据非平衡性及高噪声异质性,提出Borderline-SMOTE Bagging算法,对四组PPP项目进行可融资性评价。研究结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;针对PPP非平衡数据集问题,Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力。 相似文献
8.
9.
10.
针对现有的数据资源价值评估与定价方法主观性强、定量标准缺乏的问题,提出基于模型堆叠集成GBDT(Stacked-GBDT)算法的数据资源价值评估方法。首先,基于敏感性分析,从数据自身和市场两个维度归纳并建立了数据资源价值评估指标体系;然后,基于GBDT机器学习算法与Stacking集成学习算法,提出了基于StackedGBDT的数据资源价值评估算法,并与Random Forest和XGBoost算法进行对比以验证所提方法的正确性及有效性;最后,应用Stacked-GBDT模型对数据集进行动态定价。结果表明,Stacked-GBDT算法构建的数据资源价值评估模型可为数据价值测算及动态定价提供精确可靠的依据与支撑。 相似文献
11.
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性.通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资本合作中心库中PPP案例样本数据存在非平衡性及高噪声异质性问题,提出Borderline-SMOTE Bagging算法,按照不同领域对其中4组项目进行可融资性评价.结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力.最后结合实证过程遇到的问题,对未来PPP数据化发展,提出政府部门应增强PPP项目数据收集能力并逐步实现数据开放共享,借助大数据技术提升PPP项目管理效率和精准度等建议. 相似文献
12.
[目的/意义]针对现有数据资源定价标准模糊、交易规则缺失、买卖双方信息不对称的问题,提出基于Stacking多算法融合模型的数据资源定价方法。[方法/过程]首先,基于四分位法及Box-Cox方法对样本数据进行预处理,剔除异常数据的同时调整数据分布,并基于Lasso算法以均方根误差最小为目标完成特征筛选;其次,基于Pearson系数选取最优算法组合,构建基于Stacking集成学习融合多种机器学习算法的数据资源价格预测模型;最后,以国信优易数据平台交易数据为样本进行算例分析。[结果/结论]相较于单算法模型及其他集成算法模型,XGBoost、SVR、KNN、MLP融合模型的预测精度及性能均明显提升;实现了数据资源自身和市场的双向反馈平衡,形成闭环的价值链,为数据资源定价提供参考。 相似文献
13.
运用集成分类算法bagging的改进模型——subagging试图建立一个专门针对个人信用评估的方法,以期取得更好的预测分类效果.针对个人信用评估中单一分类器的不足,提出了利用分类器的集成进行个人信用评估的方法.利用UCI上的信用数据对单个分类器、bagging集成分类器以及subagging集成分类器进行实验比较,结果表明,subagging -决策树和subagging -K近邻在样本不独立和不平衡的情况下有效地提高了模型的精准性.结果显示,它们对商业银行控制消费信贷风险具有更好的适用性. 相似文献
14.
15.
16.
17.
18.
非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。 相似文献
19.
传统的聚类算法在处理复杂特征数据时效果不理想,为此提出使用高斯径向基核函数将原空间上的数据映射到高维特征空间后,再用蚂蚁算法进行第一次聚类,针对第一次聚类结果得到较多簇等问题,提出再用马赛克算法进行二次聚类,得到较为接近真实情况的簇数目。 相似文献
20.
《科学学与科学技术管理》2018,(10)
技术融合是实现技术创新的主要途径之一。技术融合测度可以识别融合过程中发挥关键作用的技术,对于引导创新主体确立研发路径起着重要作用。针对大数据背景下研究效率不高、粒度较粗以及精准性差的问题,引入机器学习领域的LDA-SVM分类算法,通过LDA从专利中提取主题特征,并结合SVM分类器进行技术分类,筛选出融合特征较强的专利子数据集;在此基础上,选用融合度指标和中介中心性指标进行测算专利子集中技术的融合程度和识别融合过程中的关键技术。以智能手机为例,选取电池、微处理器、相机和触屏4类技术,运用LDA-SVM算法筛选出具有多类技术特征的专利数据,并通过2个指标的测算,识别出智能手机领域的W01-C01G8(功能电话和智能手机)与W01-C01P2(个人数字助理)融合度最高;微处理器技术中W01-C01Q6A(图形和显示处理技术)、相机技术的W01-C01P6C(数码相机)、W04-M01B1(电子静态相机)和电池技术中的W01-C01E5B(电池省电供电技术)等均是融合过程中的关键技术。 相似文献