共查询到20条相似文献,搜索用时 31 毫秒
1.
以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。 相似文献
2.
3.
《科技通报》2017,(4)
为了提高BP神经网络算法的分类准确率和运行时间效率,利用PSO算法和并行化设计的思想,提出了Hadoop平台下基于MapReduce的PSO优化BP神经网络的并行化设计及实现方法。利用PSO算法优化BP神经网络的初始权值和阈值,提高算法分类准确率;采用MapReduce并行编程模型实现算法的并行化处理,解决了BP神经网络在处理大规模样本数据集时存在的硬件开销和通信开销大的问题。选用SUN Database场景图像库构造了5个不同规模的数据集,通过与传统的串行PSO-BP神经网络算法实验对比,并行化的PSO-BP神经网络算法分类准确率达92%左右,系统效率在0.85左右,在处理大规模数据集时具有明显的优越性。 相似文献
4.
5.
6.
7.
传统的蚁群算法在迭代过程中产生逆转变异,新的结点与链路也可能在任意时刻加入到云中,给电网系统云数据的云计算和故障数据预测检测带来很大难度,出现拥塞控制,导致聚类效果不好。结合云计算处理数据的特点,对传统的蚁群算法进行改进,提出一种改进的蚁群引导电网系统云数据聚类和故障检测算法,根据基因位随机数大小决定输出概率的精度,更新状态类别充分统计量,得到故障特征观测概率和初始概率,执行聚类中心更新规则。搭建的Hadoop集群云计算原型系统,在开源的云计算平台框架和HBase电网系统数据库下进行数据采集和算法实现。仿真结果表明,算法在数据聚类和故障检测中具有较好的应用性能。 相似文献
8.
9.
10.
围绕如何提高分布式渲染任务执行效率这一目标,重点研究了LSF作业管理系统工作原理以及扩展调度插件机制,设计并实现了依据服务节点负载量及处理能力选择候选主机的分布式渲染调度算法(DRS),并利用LSF调度插件嵌入自定义调度模块,该模块能与系统内置调度模块协同工作。最后构造仿真集群执行环境,通过模型渲染验证了算法的有效性。 相似文献
11.
三维渲染是电影、动画和游戏制作所需的重要工具,耗费大量时间和资源,是计算密集和数据密集的复杂过程。分布式渲染是目前提高渲染效率最有效可行的手段之一。提出了一套基于Spark MapReduce的分布式渲染系统,该系统使用由集群资源管理器Apache Mesos、支持内存驻留的MapReduce计算框架Spark、分布式Hadoop文件系统构成的分布式计算集群。在这个集群之上,设计并实现一个符合MapReduce算法工作模式的渲染接口程序,用于调用外部渲染程序Blender实现单帧渲染任务。测试结果表明,基于Spark MapReduce框架的分布式渲染能够显著提高渲染速度,减轻开发所需工作量。 相似文献
12.
从XBRL维度数据处理的角度,研究大规模半结构化数据处理技术,提出一种基于Map/Reduce并行编程模型的XBRL维度数据解析算法.该算法在Map/Reduce编程模型和StAX流式解析技术的基础上,针对XBRL财务报告中各XML文件之间较复杂的数据引用关系,以整份XBRL财务报告为处理的最小单位,结合并行技术提取维度事项所包含的数据,再处理业务语义数据,从而实现复杂XBRL维度数据的解析.性能比较分析表明,该算法在大规模XBRL数据处理方面具有显著优势. 相似文献
13.
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。 相似文献
14.
【目的/意义】针对互联网时代图书馆的海量业务、文献和用户数据,利用 Spark技术框架有效解决图书馆大
数据挖掘处理下读者更复杂的多重处理需求和低延迟的交互式查询需求问题。【方法/过程】阐述并分析了智慧图
书馆建设发展的相关理念及功能性需求,建立了基于 Spark大数据处理技术的图书馆智慧服务框架,对比 Hadoop
MapReduce框架法,提出和介绍了基于 Spark大数据处理技术的图书馆智慧服务流程和应用实践情况。【结果/结
论】理论分析和实践表明,相较传统 Hadoop MapReduce框架法,Spark在运行速度、易用性、通用性及容错性上都有
更好的表现;基于 Spark技术的大数据处理平台,可优化和改进图书馆大数据处理模型,能更好地满足图书馆智慧
服务的知识共享、使用便利、服务高效功能需求。 相似文献
15.
Hadoop是Apache旗下的开源云计算平台,它通过普通计算机集群的分布式计算实现了对海量数据可靠和高效地处理。随着Hadoop成为当今大数据时代不可缺少的重要工具,更多的企业将机密信息部署在Hadoop云平台上以便完成业务需求,导致Hadoop安全成为了不可忽视的问题。在诸多信息安全新兴技术中,访问控制是最基本也是最核心的一部分,本文通过构建基于用户历史行为和系统安全属性规则的用户画像,并设计相应的属性规则映射算法及用户状态动态评价模型,提出了一种面向Hadoop的自适应权限控制方案,能够实现用户权限的动态调控,从而更加有效保证用户在大数据时代下的信息安全。 相似文献
16.
智能化技术在电气工程自动化控制中的应用主要是通过计算机编程实现的,通过执行设定好的程序,让计算机处理、分析、回馈信息,在模拟人脑的过程中实现自动化控制。从当前智能化技术在电气工程自动化控制的应用成果来看,智能化技术极大的促进了电气工程自动化控制的发展,提高了电气自动化控制中的效率,降低了人工投入,为电力企业了良好的经济效益。 相似文献
17.
18.
本课题利用电力用户用电信息采集平台建立了"四分线损"模式的线损分析智能化模块进行线损的处理计算,并根据供电网络拓扑关系及各供受电点的正向有功无功、反向有功无功的电能数据,按指定周期或固定时间段对线损进行处理计算,从而尽可能降低电网损耗,提高企业用电安全及经济效益。 相似文献
19.
《中国科技信息》2016,(21)
充电汽车的普及和推广,使人们在日常出行方面减少了化石燃料的使用,从一定程度上解决了能源短缺和大气污染的问题,但同时也造成了大规模充电行为对电网产生的巨大冲击,影响了电网的稳定运行。文章借鉴计算机操作系统任务调度算法,提出一种考虑到电网侧负荷以及充电公平性的多级反馈队列优化充电模型。电动汽车在关注的电网中按照以上提出的充电方案来进行充电,既没有违背公平原则,又实现了最优化充电,同时保证电网安全稳定运行,降低了资源浪费。电动汽车充电过程中涉及到了多方面的异构化信息,其中包括车联网、智能电网、充电设备网络和额外的有关信息。而以上模型的实现需要把多方面的数据信息加以融合,并且要解决海量数据带来的大数据处理问题。本文提出的电动汽车充电模型利用Hadoop云计算平台来解决大数据集的并行化计算问题,使用HDFS分布式文件系统和HBase非关系型数据库解决海量数据的存储问题。 相似文献
20.
随着计算机技术的不断向前发展.单机处理能力也在不断提高,尽管如此,其本身难以克服的物理极限仍然是其无法胜任高端应用的主要原因:文章介绍了利用4台高档微机构建一套集群并行计算系统的方法,同时阐述了串行程序并行化的方法,最后给出了计算实例。通过编制的并行计算程序对该集群系统进行了并行效率的实际测试,测试结果表明该系统能够达到很高的并行效率和加速比. 相似文献