首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。  相似文献   

2.
云平台中的作业调度算法一直以来都是研究的热点方向,本文首先描述了Hadoop平台,其次提出了将蚁群算法和差分算法引入到作业调度算法中,通过对信息素的改进,任务搜索,信息素更新操作等措施提高的蚁群算法的性能,将算法运用到作业调度算法,通过仿真实验说明本文的算法与基本蚁群算法相比,在作业任务计算总代价,任务完成时间,经济成本平均值方面都有明显的提高,同时降低了负载均衡,提高了资源利用率。  相似文献   

3.
Hadoop是Apache旗下的开源云计算平台,它通过普通计算机集群的分布式计算实现了对海量数据可靠和高效地处理。随着Hadoop成为当今大数据时代不可缺少的重要工具,更多的企业将机密信息部署在Hadoop云平台上以便完成业务需求,导致Hadoop安全成为了不可忽视的问题。在诸多信息安全新兴技术中,访问控制是最基本也是最核心的一部分,本文通过构建基于用户历史行为和系统安全属性规则的用户画像,并设计相应的属性规则映射算法及用户状态动态评价模型,提出了一种面向Hadoop的自适应权限控制方案,能够实现用户权限的动态调控,从而更加有效保证用户在大数据时代下的信息安全。  相似文献   

4.
电子商务系统随着用户和商品的不断增加,会出现信息过载的问题。用户会浏览到一些与自己购买商品无关的商品,影响用户的购物体验,会造成用户的流失,降低平台的转化率。因此,要想增加用户的黏度,就需要提供一些个性化的服务。为了解决电子商务系统个性化的推荐问题,本文研究了基于Hadoop生态平台构建立的个性化推荐系统。采用Map Reduce离线计算框架实现大数据的集群计算,提高系统的伸缩性和计算性能。采用协同过滤和用户特征标签的融合的算法,提高推荐的精准度。实验的结果表明,在Hadoop平台上可以实现分布式的离线计算,产生个性化的推荐结果,克服了传统爆款模型推荐的单一性,提高了推荐质量。  相似文献   

5.
文章通过分析传统的空间聚类算法以及新发展的聚类分析方法,最终选K-means算法进行研究。基于Hadoop平台,采用HDFS(分布式文件系统)存储数据,结合MapReduce编程模式,对K-means算法进行设计以及编程实现,最后实现了该算法在Hadoop平台上的并行化。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理空间数据时,该算法有效地减少了时间复杂度,大大提高了实施效率和结果的准确性。  相似文献   

6.
通过对云资源平台的自适应调度设计,优化整合云存储空间资源,提高系统的运行效率和资源利用率。在云资源平台任务执行中收到用户行为特征干扰因素较多,调度响应出现时滞,传统方法采用基于时间尺度分析的云资源调度方法,当资源出现随机性干扰时受到网络延迟的影响较大,性能不好。提出一种基于量化特征提取的云资源平台自适应调度方法。构建资源调度平台的总体框架结构,进行资源信息特征提取,采用云资源量化特征提取结果作为调度系统的输入函数,对多源资源信息系统访问特征进行最小方差估计,整个调度过程是一个严平稳的随机过程,通过量化特征提取,能保证对云资源各个调度节点的遍历历经性,提高调度准确性。仿真结果表明,采用个算法能有效实现对云资源平台的自适应调度,抗干扰能力强,资源利用率较高。  相似文献   

7.
大运算量算法的分布式协同实现是解决该算法实现问题的重要途径。提出一种云平台下基于量子度分配的算法协同实现方法,首先将所有的调度任务等效为量子态,采用量子动态来衡量任务的实时调度执行情况,然后通过统一的管理节点实现系统最优化调度。最后采用实际算法进行系统调度测试实验,结果显示,采用云平台下基于量子度分配的算法,相对于传统调度方法,系统整体效率提高了32%,具有很好的应用价值。  相似文献   

8.
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。  相似文献   

9.
提出一种基于自相关匹配滤波和云间相似程度特征提取的云资源调度数据融合算法。设计了基于云资源调度的云计算海量数据处理平台,构建数据融合预处理模型,在云资源调度系统中,设计自相关匹配滤波器,得到融合特征分簇重构空间,对特征进行模式匹配,得到后置处理滤波器的系统函数,实现了对云资源调度自相关匹配数据融合算法的改进。仿真实验表明,该算法能高精度、高平稳地实现云资源调度数据的融合,对云滴数的要求极低,数据处理效果较好,云资源调度执行任务数、云资源调度总任务完成时间、用户满意度等指标优于传统方法,展示了较好的应用价值。  相似文献   

10.
梁锦雄 《科技通报》2014,(5):129-132
传统云计算平台调度方案,存在请求缺失率高、资源空闲时间高以及资源利用率降低等问题,提出了一种应用SssS的模糊弹性云优化调度方案,分析SaaS云平台弹性优化调度指标,避免资源的过量和欠量分配,提供了弹性云平台调度任务量和平均响应时间的匹配关系,依据云平台弹性调度指标和模糊调度算法,将SaaS云平台分配任务集按照不同优先级进行划分,优先级等级高的任务优先调度,确保更多的重要任务得到调度,最大化SaaS云平台的执行任务量,最小化平台的平均响应时间,使云平台处于相对稳定的状态。实验结果表明,该调度方案能够优化云平台资源的使用效率和服务响应时间,提高了总执行效率,节省了云资源,具有较高的节能开销比和用户满意度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号