首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。  相似文献   

2.
随着计算机技术的发展与信息化的普及,大规模数据处理已经成为计算机产业界的焦点问题和学术界的研究热点。Hadoop是云计算的分布式开源的实现平台,在大规模数据处理方面有着高容量、低成本等优势,也是一个运行在大型集群之上的并行处理系统。Hadoop云平台上的调度算法是对用户作业进行资源分配和调度执行的程序,它的选择合适与否直接关系到用户作业的执行效率。因此,对Hadoop上作业调度算法的研究和改进优化就显得极为重要。本文通过实验验证作业重调度具有更好的响应时间和吞吐量,具有良好的负载均衡,并且大大提高了Hadoop系统在异构平台上的性能。  相似文献   

3.
为了提高BP神经网络算法的分类准确率和运行时间效率,利用PSO算法和并行化设计的思想,提出了Hadoop平台下基于MapReduce的PSO优化BP神经网络的并行化设计及实现方法。利用PSO算法优化BP神经网络的初始权值和阈值,提高算法分类准确率;采用MapReduce并行编程模型实现算法的并行化处理,解决了BP神经网络在处理大规模样本数据集时存在的硬件开销和通信开销大的问题。选用SUN Database场景图像库构造了5个不同规模的数据集,通过与传统的串行PSO-BP神经网络算法实验对比,并行化的PSO-BP神经网络算法分类准确率达92%左右,系统效率在0.85左右,在处理大规模数据集时具有明显的优越性。  相似文献   

4.
文章通过分析传统的空间聚类算法以及新发展的聚类分析方法,最终选K-means算法进行研究。基于Hadoop平台,采用HDFS(分布式文件系统)存储数据,结合MapReduce编程模式,对K-means算法进行设计以及编程实现,最后实现了该算法在Hadoop平台上的并行化。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理空间数据时,该算法有效地减少了时间复杂度,大大提高了实施效率和结果的准确性。  相似文献   

5.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入了统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用MapReduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,本文算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和大数据处理能力。  相似文献   

6.
自动生成Word文档报告功能是办公自动化系统中的重要组成部分。为高效的完成数据处理任务,减少MATLAB数据处理工作中Word报告编制的工作量,可采用Word的编程接口技术利用MATLAB调用其COM组件生成需要的标准文档Word报告。本文提出了一种基于Word模版技术控制光标的位置来插入相应的文件内容并指定格式的方法,从而生成最终报告,并且在文档的处理上更加灵活和多样。应用结果表明,该方法能提高MATLAB数据处理中Word报告编制的效率。  相似文献   

7.
传统的蚁群算法在迭代过程中产生逆转变异,新的结点与链路也可能在任意时刻加入到云中,给电网系统云数据的云计算和故障数据预测检测带来很大难度,出现拥塞控制,导致聚类效果不好。结合云计算处理数据的特点,对传统的蚁群算法进行改进,提出一种改进的蚁群引导电网系统云数据聚类和故障检测算法,根据基因位随机数大小决定输出概率的精度,更新状态类别充分统计量,得到故障特征观测概率和初始概率,执行聚类中心更新规则。搭建的Hadoop集群云计算原型系统,在开源的云计算平台框架和HBase电网系统数据库下进行数据采集和算法实现。仿真结果表明,算法在数据聚类和故障检测中具有较好的应用性能。  相似文献   

8.
针对民俗文化旅游资源信息量大,单机平台存在推荐效果差的缺陷,提出了基于Hadoop平台的民俗文化旅游资源推荐系统,首先采集民俗文化旅游资源信息,信息经预处理后导入Hadoop平台的分布式文件系统中,并采用查询时间和旅游资源一致度的信息权重建立协同过滤推荐算法,然后采用MapReduce编程模型并行实现民俗文化旅游资源推荐算法,从而获得民俗文化旅游资源推荐结果,最后进行了民俗文化旅游资源推荐仿真实验,结果表明,本文系统的民俗文化旅游资源推荐精度高,而且提升了民俗文化旅游资源推荐效率,具有重要的实际应用价值。  相似文献   

9.
《科技风》2016,(22)
随着信息时代的飞速发展。海量数据的应用处理已经成为大家重点关注的首要问题。论文首先对Hadoop技术的产生及特点进行介绍,然后重点分析了Hadoop的两大关键技术分布式文件系统(HDFS)和Map Reduce编程模型,最后对Hadoop的关键技术进行总结并给出一些看法,并对未来发展方向进行了展望。  相似文献   

10.
围绕如何提高分布式渲染任务执行效率这一目标,重点研究了LSF作业管理系统工作原理以及扩展调度插件机制,设计并实现了依据服务节点负载量及处理能力选择候选主机的分布式渲染调度算法(DRS),并利用LSF调度插件嵌入自定义调度模块,该模块能与系统内置调度模块协同工作。最后构造仿真集群执行环境,通过模型渲染验证了算法的有效性。  相似文献   

11.
三维渲染是电影、动画和游戏制作所需的重要工具,耗费大量时间和资源,是计算密集和数据密集的复杂过程。分布式渲染是目前提高渲染效率最有效可行的手段之一。提出了一套基于Spark MapReduce的分布式渲染系统,该系统使用由集群资源管理器Apache Mesos、支持内存驻留的MapReduce计算框架Spark、分布式Hadoop文件系统构成的分布式计算集群。在这个集群之上,设计并实现一个符合MapReduce算法工作模式的渲染接口程序,用于调用外部渲染程序Blender实现单帧渲染任务。测试结果表明,基于Spark MapReduce框架的分布式渲染能够显著提高渲染速度,减轻开发所需工作量。  相似文献   

12.
从XBRL维度数据处理的角度,研究大规模半结构化数据处理技术,提出一种基于Map/Reduce并行编程模型的XBRL维度数据解析算法.该算法在Map/Reduce编程模型和StAX流式解析技术的基础上,针对XBRL财务报告中各XML文件之间较复杂的数据引用关系,以整份XBRL财务报告为处理的最小单位,结合并行技术提取维度事项所包含的数据,再处理业务语义数据,从而实现复杂XBRL维度数据的解析.性能比较分析表明,该算法在大规模XBRL数据处理方面具有显著优势.  相似文献   

13.
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。  相似文献   

14.
【目的/意义】针对互联网时代图书馆的海量业务、文献和用户数据,利用 Spark技术框架有效解决图书馆大 数据挖掘处理下读者更复杂的多重处理需求和低延迟的交互式查询需求问题。【方法/过程】阐述并分析了智慧图 书馆建设发展的相关理念及功能性需求,建立了基于 Spark大数据处理技术的图书馆智慧服务框架,对比 Hadoop MapReduce框架法,提出和介绍了基于 Spark大数据处理技术的图书馆智慧服务流程和应用实践情况。【结果/结 论】理论分析和实践表明,相较传统 Hadoop MapReduce框架法,Spark在运行速度、易用性、通用性及容错性上都有 更好的表现;基于 Spark技术的大数据处理平台,可优化和改进图书馆大数据处理模型,能更好地满足图书馆智慧 服务的知识共享、使用便利、服务高效功能需求。  相似文献   

15.
Hadoop是Apache旗下的开源云计算平台,它通过普通计算机集群的分布式计算实现了对海量数据可靠和高效地处理。随着Hadoop成为当今大数据时代不可缺少的重要工具,更多的企业将机密信息部署在Hadoop云平台上以便完成业务需求,导致Hadoop安全成为了不可忽视的问题。在诸多信息安全新兴技术中,访问控制是最基本也是最核心的一部分,本文通过构建基于用户历史行为和系统安全属性规则的用户画像,并设计相应的属性规则映射算法及用户状态动态评价模型,提出了一种面向Hadoop的自适应权限控制方案,能够实现用户权限的动态调控,从而更加有效保证用户在大数据时代下的信息安全。  相似文献   

16.
智能化技术在电气工程自动化控制中的应用主要是通过计算机编程实现的,通过执行设定好的程序,让计算机处理、分析、回馈信息,在模拟人脑的过程中实现自动化控制。从当前智能化技术在电气工程自动化控制的应用成果来看,智能化技术极大的促进了电气工程自动化控制的发展,提高了电气自动化控制中的效率,降低了人工投入,为电力企业了良好的经济效益。  相似文献   

17.
本文主要针对公共安全领域快速增长的海量数据处理需求,介绍了当前主流的大数据应用平台Hadoop框架,结合公安业务分析了Hadoop框架优势与应用场景,提出了公安大数据平台的建设思路以及RDBMS与Hadoop框架相结合的混合软件体系架构,从而兼顾海量数据的存储处理与OLTP的高实时性需求。  相似文献   

18.
本课题利用电力用户用电信息采集平台建立了"四分线损"模式的线损分析智能化模块进行线损的处理计算,并根据供电网络拓扑关系及各供受电点的正向有功无功、反向有功无功的电能数据,按指定周期或固定时间段对线损进行处理计算,从而尽可能降低电网损耗,提高企业用电安全及经济效益。  相似文献   

19.
充电汽车的普及和推广,使人们在日常出行方面减少了化石燃料的使用,从一定程度上解决了能源短缺和大气污染的问题,但同时也造成了大规模充电行为对电网产生的巨大冲击,影响了电网的稳定运行。文章借鉴计算机操作系统任务调度算法,提出一种考虑到电网侧负荷以及充电公平性的多级反馈队列优化充电模型。电动汽车在关注的电网中按照以上提出的充电方案来进行充电,既没有违背公平原则,又实现了最优化充电,同时保证电网安全稳定运行,降低了资源浪费。电动汽车充电过程中涉及到了多方面的异构化信息,其中包括车联网、智能电网、充电设备网络和额外的有关信息。而以上模型的实现需要把多方面的数据信息加以融合,并且要解决海量数据带来的大数据处理问题。本文提出的电动汽车充电模型利用Hadoop云计算平台来解决大数据集的并行化计算问题,使用HDFS分布式文件系统和HBase非关系型数据库解决海量数据的存储问题。  相似文献   

20.
邵茂敏 《内江科技》2009,30(5):87-87
随着计算机技术的不断向前发展.单机处理能力也在不断提高,尽管如此,其本身难以克服的物理极限仍然是其无法胜任高端应用的主要原因:文章介绍了利用4台高档微机构建一套集群并行计算系统的方法,同时阐述了串行程序并行化的方法,最后给出了计算实例。通过编制的并行计算程序对该集群系统进行了并行效率的实际测试,测试结果表明该系统能够达到很高的并行效率和加速比.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号