首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对数据库结构越来越复杂,数据特征呈现出多样性,数据属性分化较为严重,给数据的查询带来了较大的困难这一问题,提出一种基于多特征属性约束机制的数据库优化查询算法。通过对数据属性进行有效地分类,运用边界约束理论对数据查询过程中产生的边界模糊问题进行有效地抑制。仿真实验证实,该算法在数据库查询过程中,能够较好地克服冗余多属性数据的干扰,效率较高。  相似文献   

2.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

3.
针对以大型烟草智能管理数据系统中冗余信息过大,搜索效率过低的问题,本文提出一种基于烟草兴趣属性的数据分类算法.该算法对烟草正常数据和冗余数据进行判断分类,运用朴素贝叶斯决策理论对冗余数据进行过滤,保证烟草数据检索的高效性.实验结果表明,在以云计算为基础的烟草数据库实验平台上,该方法大幅提高了数据搜索的效率.  相似文献   

4.
商业智能分析诸多算法是基于离散化数据的,但商业分析的中数据类型不一,将连续属性离散化是商业智能分析中数据预处理中非常重要的内容之一。通过对连续属性的分布特征和不同类别在同一属性下的分布特点分析,提出基于正态分布特征的连续属性无监督离散化方法,并研究了经该离散化方法对连续属性数据预处理后测试数据分类精度与断点个数设置之间的关系,确定统计意义上较为合理的断点个数,实现对连续数据的离散化处理。数值对比实验结果表明:本文所提出的离散化方法在一定程度上可以提高数据集分类精度。  相似文献   

5.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。  相似文献   

6.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。  相似文献   

7.
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是相同的,同时对于大数据集的处理也存在性能低下的缺点。针对如上问题,本文提出了一种基于TFIDFCF特征加权的并行化朴素贝叶斯文本分类算法,该算法通过Map Reduce并行框架实现。利用THUCNews新闻文本数据开展文本分类处理,实验结果表明,并行框架下的TFIDFCF特征加权的朴素贝叶斯算法在训练速度和预测精度上都有提高。  相似文献   

8.
针对传统支持向量机(SVM)多分类算法分类效果欠佳的问题,研究基于粗糙集(RS)理论和模糊支持向量机(FSVM)多类算法的模式分类新方法。首先用RS属性约简方法去除冗余信息,然后用FSVM结合三叉分类树多类算法对约简后的样本分类。用本文方法在UCI数据库的数据集上做实验,与其他方法相比分类速度和精度显著提高,说明该方法是有效的。  相似文献   

9.
神经网络算法是一种非常经典的分类算法,然而神经网络的一个不足之处就是容易陷入过拟合。针对这种不足,正则化神经网路算法与提前终止迭代算法被提了出来。为了进一步研究这两种算法性能的差异,本文通过20个UCI标准数据集上对着这两种方法进行了性能测试。实验显示在分类准确率上正则化神经网路算法要更优秀一些,但是在分类速度上提前终止迭代算法更占优势。  相似文献   

10.
传统的关联规则挖掘技术过于依赖数据之间的关联属性,造成挖掘算法在高冗余知识空间关联规则不明显或者较弱的情况下挖掘耗时。本文提出一种应用与高冗余知识空间的优化数据挖掘算法。该算法首先找出最大频繁项集和频繁1-项集进行区域分类,然后利用已有频繁项集找出所有的其它频繁项集,去除冗余关联环境,节省了计算频繁项集的时间,节约了存储空间,使算法的效率得到提高。仿真实验结果证明了改进算法的可行性和有效性。  相似文献   

11.
石东贤 《科技风》2012,(2):277-278
旅游景点信用评估是一种典型的分类问题,本文概述了粗糙集和决策树的理论,基于这两种理论,提出了一个基于数据挖掘粗糙集理论与决策树分类技术相结合的信用评估方法来建立旅行景点的信用评估模型,利用粗糙集的知识约简的概念,对样本数据进行预处理,去除冗余属性对分类模型的影响,然后用决策树方法建立分类模型。最后通过Pawlak重要度的属性约简算法和ID3决策树算法实现了该模型。  相似文献   

12.
王仕俊  平常  薛国斌 《科技通报》2019,35(11):135-138,142
针对目前在局部放电模式识别领域中常用的分类器算法的缺陷,本文研究随机森林(random forest,RF)算法在局部电放模式识别领域的应用。首先对局部放电试验数据提取统计特征量,构建放电的学习样本。利用十折法对算法分类性能进行评判,并比较常见分类算法BP神经网络、支持向量机(support vector machine,SVM))、KNN、分类回归树算法(classification and regression tree,CART)以及RF算法的识别准确率。结果表明:利用RF算法构建放电模式分类器的识别准确率最高。此外,利用组成RF的基分类算法CART可分析不同放电模式间的主要区别。  相似文献   

13.
【目的/意义】数据分类是数据挖掘研究的重要内容之一。数据分类时,由于单一分类算法分类性能的差异 性,使其不能很好地解决大部分的分类问题,探讨一种基于多类型分类器装袋技术的数据分类方法具有重要理论 意义和应用价值。【方法/过程】基于分类性能评价的准确率,使用五种不同类型的分类算法作为分类器,随机抽取 训练集后分别训练得到若干个弱分类器,然后采用自动优化加权方式,组合构建一个强的分类器。通过实验对五 种分类算法和装袋算法的分类准确率均值和标准差分别进行对比,得出各分类算法在四种数据集上分类性能的优 劣和稳定性。【结果/结论】在四个UCI数据集上的实验结果表明,与五种不同类型的分类算法相比,装袋算法不仅 在大部分数据集上都表现出很好的稳定性,而且具有更好的泛化能力。  相似文献   

14.
针对专网通信计费系统中,由于互联信息存在大量的冗余特征,导致大幅降低了数据联系特征属性,使得计费信息查询效率较低的问题.本文提出一种改进关联规则的专网通信计费分析数据的挖掘算法.通过计费数据属性扩展算法,对计费数据属性间的关联性进行扩展,有效排除冗余数据的干扰,增强数据间的联系性.实验与仿真结果证明,这种算法能够有效地消除冗余数据的干扰,计费数据查询的准确率较高,耗时降低.  相似文献   

15.
目的:研究数据挖掘算法对乳腺肿瘤超声图像特征的属性选择优化,探讨适用于乳腺肿瘤良恶性分类的数据挖掘分类算法。方法:对乳腺肿瘤超声图像进行预处理,获取病灶区形状,提取病灶区图像形态、形状、纹理特征。应用数据挖掘算法进行图像特征属性选择,形成优化的乳腺肿瘤超声图像混合特征。应用分类算法评价其分类性能,筛选适用于乳腺肿瘤良恶性判定的数据挖掘分类算法。结果:利用混合特征结合随机森林算法对图像进行分类,其ROC曲线下面积AUC为0.7914,平均查准率达到了79%。结论:属性选择优化后的混合特征对乳腺肿瘤良恶性分类性能高于其他特征。在混合特征条件下,随机森林分类算法性能与Bayes网络相近,分类准确率高且性能稳定,更适于乳腺肿瘤良恶性分类评价。  相似文献   

16.
在大数据时代背景之下,数据的分类和集成已经成为一种趋势,工业传感网也不例外。然而工业传感网数据有着数据量庞大,数据内容丰富的特点,对其进行人工分类费时费力。因此如何对工业传感网数据进行智能分类是工业领域中非常重要的一个模块。本文针对工业传感网数据的特性,在原有朴素贝叶斯算法(NB)的基础上,引入特有属性和公有属性的概念,并对两类属性赋予不同的权重,提出了一种基于特有公有属性的朴素贝叶斯(S-P-PNB)改进算法,并且用能够代表工业传感网数据的不同家电测试数据来进行实验。通过多次实验表明,该算法的改进能够有效提高不同家电测试数据的分类正确率,为其后续的数据集成做了铺垫,也为工业传感网数据分类提供了一种新的可行性算法。  相似文献   

17.
提出了一种人脸关键点检测方法,该方法用了少量的正面图像,不用归一化人脸图像,而传统的人脸关键点检测方法需要对图像进行严格预处理。随机森林是一种分类器融合算法,可以很好地解决多类分类问题,虽然LBP特征简单,但其可以包含大量的纹理信息。利用改进的LBP特征与随机森林相结合,构成一种对人脸关键点检测的方法。通过高斯平滑图像的LBP特征的提取,对每个点生成特征,计算出有用的特征作为正例,并且与反例集合变为训练集。通过随机森林分类器进行分类,误差率较低,仅在10%左右。  相似文献   

18.
接边是GIS中数据整合的重要环节,本文在分析了传统接边算法后,针对一些环节提出了一种实用高效的接边算法,该算法通过计算属性相似度并对数据进行整理分类,建立属性匹配集,然后创建多重缓冲区,防止误接边,同时也对接边要素进行筛选过滤,之后根据道格拉斯-普克(Douglas-Peuck-er)法与贝塞尔曲线(Bézier curve)对接边线进行平滑处理,最后通过实际地图数据对比分析,在GIS平台下验证了该算法的高效与实用性。  相似文献   

19.
针对目前社会随着数据共享技术的不断发展所导致的个人隐私数据不断被泄露的问题,本文提出一种新的数据隐私保护算法,该算法具备自身独特的优势,在弱泛化较为重要的属性的操作过程中,特别引入了信息增益、信息增益比率两个参数。此外,还引入了属性权重,通过这个参数可以确定在分类时数据集内对应属性的重要性,并且在匿名化操作中可以对元组数据间距离进行合理的调整。仿真实验结果表明,本文提出的数据隐私保护算法相较以往经典的数据隐私保护算法在处理数据精度以及运行效率方面更加具有优势。  相似文献   

20.
针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与SMOTE算法、C_SMOTE算法分别对5个不平衡数据集进行扩充分类对比实验,基于AUC、OOB、F值与G值评价指标及成对样本T检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号