排序方式: 共有171条查询结果,搜索用时 15 毫秒
91.
Hadoop平台是apche下的一个开源大数据平台,具有分布性、虚拟化、高可靠性、高可伸缩性、通用性等特点。Hadoop平台发展至今,集成组件已从1.0发展到2.0。从Hadoop体系结构入手,分析了Hadoop 平台1.0和2.0平台的基准测试性能并进行了对比。研究了testdfsIO、yarn、hive的基准测试,通过对升级后平台的基准测试,分析了2.0的优势,为集成Hadoop平台提供参考。 相似文献
92.
93.
Hadoop是实现云计算事实标准的开源软件,它包含数十个具有生命力的子项目,构造的数据集群能在数千个节点上运行,处理的数据量和排序时间不断打破世界记录。它的核心为分布式文件系统(HDFS)和 MapReduce 编程模型,能够解决海量数据需求、分析、处理和挖掘及数据的长期保存。可使用大量的廉价PC机通过集群来代替价格昂贵的服务器,使云计算硬件成本大大降低,用户能够按需获取计算力、存储空间和信息服务。 相似文献
94.
随着大数据时代的到来,针对Apriori算法和FP Growth算法在挖掘海量规模数据频繁项集时,存在内存不足、计算效率低等问题,提出一种Aggregating_FP算法。该算法结合MapReduce并行计算框架与FP Growth算法,实现频繁项集的并行挖掘,对每个项进行规约合并处理,仅输出包含该项的前K个频繁项集,提高了海量数据决策价值的有效性。在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验结果表明,该算法适合大规模数据的分析和处理,具有较好的可扩展性。 相似文献
95.
分布全球的气象传感器每隔一段时间就会收集大量的气象数据,历史气象数据更为庞大,如何存储和处理这些数据已成为一个难题。Hadoop的出现给人们提供了存储和分析大数据的一个利器,它利用HDFS分布式文件系统进行大数据存储,用户通过编写MapReduce程序完成大数据的分析处理。然而,对于很多用户而言,熟练掌握Java语言并编写MapReduce程序并不容易。鉴于此,利用Hive来存储和处理气象数据集。Hive是构建在Hadoop上的数据仓库框架,它支持SQL接口,可以让精通SQL技能的分析师对存放在HDFS中的大规模数据集进行查询分析。 相似文献
96.
目前传统网络英语教学方法互动性不足,无法同时满足学生不同的英语学习需求,传统网络英语教学平台采用的是单服务器模式,无法负荷大量学生对教学资源的同时访问。本文通过使用Hadoop平台软件,通过对该平台软件的配置,实现英语辅助教学云平台的搭建,在所搭建的辅助教学云平台中添加优质的英语教学资源,实现大量学生同时访问,有效提高学生的学习兴趣与自主学习能力。 相似文献
97.
民航信息系统日志包含大量信息,但由于日志数据非结构化,不易被读取且数据量巨大,难以通过人工分析得出有价值信息。Hadoop分布式计算技术恰好可以很好地解决这个问题。设计了基于Hadoop的民航日志分析系统,系统结合数据挖掘领域经典的KNN分类算法,对算法进行了并行化改进,给出算法在Hadoop平台的MapReduce编程模型上的执行流程。对系统进行单机和集群测试,集群系统在处理较大规模数据时更高效。实验结果证明,系统具有较高的执行效率和可扩展性,对民航日志分析具有较高的实用价值。 相似文献
98.
《实验室研究与探索》2016,(4)
基于大规模数据的入侵检测分析具有重要的研究意义和实用性。针对现有系统的仿真和离线分析不足,设计和实现一套真实的网站入侵检测综合分析系统,能够将入侵检测系统和大数据分析系统结合起来。通过网络构建和软件设计,可以完成真实网站的入侵检测、数据存储、数据清洗和数据挖掘等功能。通过定时和主动两种方式,系统将入侵检测数据传输到数据库中,然后导入到Hadoop系统中。设计了人机交互软件,能够完成Hadoop系统和Mahout技术的大数据分析。实验结果表明,该系统能够快速完成随机森林模型的构建和测试,获得了满意的检测效果。 相似文献
99.
在介绍WINDOWS2000SERVER提供的分布式文件系统(DFS)的基础上,提出了在局域网中实现对共享资源统一管理的具体方法,使得原本在网络中分散分布的共享资源通过一个中心点便可以全部访问到,从而提高了局域网上共享资源的利用率和网络环境下协同工作的效率。 相似文献
100.
随着城市的发展,传统方式存储与处理不断增多的交通数据暴露出诸多问题。为此,设计并实现了一套基于Hadoop的交通数据存储和处理平台。该平台采用HBase数据库存储数据,Mapreduce实现数据并行处理,Web端展示数据。实验结果证实,该平台在数据存取和数据处理性能方面都优于传统处理方式。 相似文献