共查询到20条相似文献,搜索用时 46 毫秒
1.
针对数据库结构越来越复杂,数据特征呈现出多样性,数据属性分化较为严重,给数据的查询带来了较大的困难这一问题,提出一种基于多特征属性约束机制的数据库优化查询算法。通过对数据属性进行有效地分类,运用边界约束理论对数据查询过程中产生的边界模糊问题进行有效地抑制。仿真实验证实,该算法在数据库查询过程中,能够较好地克服冗余多属性数据的干扰,效率较高。 相似文献
2.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。 相似文献
3.
针对以大型烟草智能管理数据系统中冗余信息过大,搜索效率过低的问题,本文提出一种基于烟草兴趣属性的数据分类算法.该算法对烟草正常数据和冗余数据进行判断分类,运用朴素贝叶斯决策理论对冗余数据进行过滤,保证烟草数据检索的高效性.实验结果表明,在以云计算为基础的烟草数据库实验平台上,该方法大幅提高了数据搜索的效率. 相似文献
4.
5.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。 相似文献
6.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。 相似文献
7.
8.
9.
神经网络算法是一种非常经典的分类算法,然而神经网络的一个不足之处就是容易陷入过拟合。针对这种不足,正则化神经网路算法与提前终止迭代算法被提了出来。为了进一步研究这两种算法性能的差异,本文通过20个UCI标准数据集上对着这两种方法进行了性能测试。实验显示在分类准确率上正则化神经网路算法要更优秀一些,但是在分类速度上提前终止迭代算法更占优势。 相似文献
10.
传统的关联规则挖掘技术过于依赖数据之间的关联属性,造成挖掘算法在高冗余知识空间关联规则不明显或者较弱的情况下挖掘耗时。本文提出一种应用与高冗余知识空间的优化数据挖掘算法。该算法首先找出最大频繁项集和频繁1-项集进行区域分类,然后利用已有频繁项集找出所有的其它频繁项集,去除冗余关联环境,节省了计算频繁项集的时间,节约了存储空间,使算法的效率得到提高。仿真实验结果证明了改进算法的可行性和有效性。 相似文献
11.
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。 相似文献
12.
针对目前在局部放电模式识别领域中常用的分类器算法的缺陷,本文研究随机森林(random forest,RF)算法在局部电放模式识别领域的应用。首先对局部放电试验数据提取统计特征量,构建放电的学习样本。利用十折法对算法分类性能进行评判,并比较常见分类算法BP神经网络、支持向量机(support vector machine,SVM))、KNN、分类回归树算法(classification and regression tree,CART)以及RF算法的识别准确率。结果表明:利用RF算法构建放电模式分类器的识别准确率最高。此外,利用组成RF的基分类算法CART可分析不同放电模式间的主要区别。 相似文献
13.
【目的/意义】数据分类是数据挖掘研究的重要内容之一。数据分类时,由于单一分类算法分类性能的差异 性,使其不能很好地解决大部分的分类问题,探讨一种基于多类型分类器装袋技术的数据分类方法具有重要理论 意义和应用价值。【方法/过程】基于分类性能评价的准确率,使用五种不同类型的分类算法作为分类器,随机抽取 训练集后分别训练得到若干个弱分类器,然后采用自动优化加权方式,组合构建一个强的分类器。通过实验对五 种分类算法和装袋算法的分类准确率均值和标准差分别进行对比,得出各分类算法在四种数据集上分类性能的优 劣和稳定性。【结果/结论】在四个UCI数据集上的实验结果表明,与五种不同类型的分类算法相比,装袋算法不仅 在大部分数据集上都表现出很好的稳定性,而且具有更好的泛化能力。 相似文献
14.
15.
《科技通报》2017,(10)
目的:研究数据挖掘算法对乳腺肿瘤超声图像特征的属性选择优化,探讨适用于乳腺肿瘤良恶性分类的数据挖掘分类算法。方法:对乳腺肿瘤超声图像进行预处理,获取病灶区形状,提取病灶区图像形态、形状、纹理特征。应用数据挖掘算法进行图像特征属性选择,形成优化的乳腺肿瘤超声图像混合特征。应用分类算法评价其分类性能,筛选适用于乳腺肿瘤良恶性判定的数据挖掘分类算法。结果:利用混合特征结合随机森林算法对图像进行分类,其ROC曲线下面积AUC为0.7914,平均查准率达到了79%。结论:属性选择优化后的混合特征对乳腺肿瘤良恶性分类性能高于其他特征。在混合特征条件下,随机森林分类算法性能与Bayes网络相近,分类准确率高且性能稳定,更适于乳腺肿瘤良恶性分类评价。 相似文献
16.
在大数据时代背景之下,数据的分类和集成已经成为一种趋势,工业传感网也不例外。然而工业传感网数据有着数据量庞大,数据内容丰富的特点,对其进行人工分类费时费力。因此如何对工业传感网数据进行智能分类是工业领域中非常重要的一个模块。本文针对工业传感网数据的特性,在原有朴素贝叶斯算法(NB)的基础上,引入特有属性和公有属性的概念,并对两类属性赋予不同的权重,提出了一种基于特有公有属性的朴素贝叶斯(S-P-PNB)改进算法,并且用能够代表工业传感网数据的不同家电测试数据来进行实验。通过多次实验表明,该算法的改进能够有效提高不同家电测试数据的分类正确率,为其后续的数据集成做了铺垫,也为工业传感网数据分类提供了一种新的可行性算法。 相似文献
17.
提出了一种人脸关键点检测方法,该方法用了少量的正面图像,不用归一化人脸图像,而传统的人脸关键点检测方法需要对图像进行严格预处理。随机森林是一种分类器融合算法,可以很好地解决多类分类问题,虽然LBP特征简单,但其可以包含大量的纹理信息。利用改进的LBP特征与随机森林相结合,构成一种对人脸关键点检测的方法。通过高斯平滑图像的LBP特征的提取,对每个点生成特征,计算出有用的特征作为正例,并且与反例集合变为训练集。通过随机森林分类器进行分类,误差率较低,仅在10%左右。 相似文献
18.