共查询到20条相似文献,搜索用时 781 毫秒
1.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。 相似文献
2.
3.
针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。 相似文献
4.
利用MCEM加速算法,在定数截尾场合下给出了对数正态分布的参数估计,并通过数据模拟进一步验证了MCEM加速算法在参数估计中比EM算法更有效,收敛速度更快。 相似文献
5.
在热能表计量方式下,如何保证热能表计量数据的准确是非常重要的环节。本文提出了一种基于数学模型算法的异常数据挖掘方法,该方法能够及时地发现异常的用户数据,并在庞大的数据库中提高异常数据挖掘的准确度。通过分析实际测试数据,结果表明该方法能够有效的挖掘异常数据,缩短了发现异常数据的时间,保证了高精度热能表采样数据的准确性,提高了工作效率,创造了经济价值。 相似文献
6.
C4.5算法是数据分类的经典数据挖掘算法。整合并规范了临床确诊病例中的糖尿病并发症数据,同时进行了粗糙集约简,并运用C4.5算法实现了分类。研究表明,该方法能很好地实现决策分类,以辅助临床诊断。 相似文献
7.
企业积累了大量的客户消费数据,如何从大量的数据中发现用户的消费模式,对企业的营销策略具有重要的指导意义,数据挖掘技术正是可以从大量的数据中挖掘出对企业决策有价值的信息。针对客户数据的特点,提出一种基于Kruskal算法的最小生成树模糊聚类算法KTFC,并将其应用在客户关系管理中。实验证明,该模糊聚类算法可以有效地对企业客户群进行分类,并分析出每类客户的特点,动态地选取不同的A值可以获得不同的聚类结果,大大地提高了聚类的灵活性。 相似文献
8.
9.
10.
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。 相似文献
11.
12.
13.
14.
16.
17.
18.
19.
20.