首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于Hadoop技术开发了数字化校园海量数据存储系统,提出了基于Hadoop的大数据存储模型。将整个系统设计为系统管理、业务应用、数据处理、数据采集等4个大模块,采用开源分布式数据处理框架,高效处理海量数据。系统具有可伸缩性、高可靠性、低成本和高效性等优点,解决了传统数据处理成本高、数据管理困难、可靠性低、效率低、并行处理程序编写困难等诸多问题。  相似文献   

2.
信息社会是数据爆炸的时代,分布式并行计算在应对海量数据处理等大作业方面非常有效.Apache基金会下的Hadoop正是这样一个开源的分布式系统基础构架.首先介绍了Hadoop平台下作业的分布式运行机制,然后对Hadoop平台自带的3种任务调度器做分析和比较,最后在分析JobTracker类文件的基础上指出了创建自定义任务调度器所需完成的工作.  相似文献   

3.
随着计算机技术的快速发展,目前诸多行业信息化程度越来越高,需要处理的数据量也不断增大。对基于Hadoop的海量情报数据的存储和处理方法进行研究,提出一种基于Hadoop技术的海量情报数据管理系统,优化了情报数据存储和处理效率,对提高战场上海量情报的分析处理能力有着非常重要的作用。  相似文献   

4.
提出了基于HBase的海量钻井数据存储技术。将HBase的分布式存储特点和钻井工程的实际需求相结合,设计了一个快速、高效、安全的海量钻井数据存储方案。介绍了HBase的存储模型以及系统架构,详细描述了钻井数据在HBase分布式存储系统中的存储过程。  相似文献   

5.
为提高压力管道数据存储性能,改善数据存储效率,增强压力管道后期的可维护性,构建一种基于Hadoop的压力管道数据存储系统.该系统利用HDFS分布式存储框架建立压力管道数据的存储模型,采用MapReduce对压力管道海量数据进行分析和处理,从而完成数据写入HBase数据库的低延迟响应.在实验中,采用压力管道数据对MySQL、Oracle、Spark SQL、MongoDB和Rasdaman进行性能对比.结果表明,在相同数据量的情况下,系统运行时间更短,占用内存更少,其在存储压力管道海量数据方面具有较好的优越性.  相似文献   

6.
针对未来物联网农业产生的海量数据采集、管理和挖掘问题,本文提出了基于Hadoop集群分布式存储与传统MySQL数据库相结合的农业大数据云端系统。通过无线传感器网络构建农作物生长环境参数,如温度、湿度、光照度、土壤湿度及图像视频等数据采集和传输平台,数据最后汇聚到云端通过H adoop分布式计算框架和MapReduce编程模型对农业海量数据进行存储、检索、管理和决策,为农作物生长过程实时监测和最优化生产提供指导,实现方便、快捷、高效和低成本的农业管理系统。  相似文献   

7.
针对目前国家教育考试网上评卷海量图像文件的存储管理问题,本文提出基于Hadoop的No Sq L云存储方案,提高评卷海量数据安全性和存储可靠性,构建分布式、可扩展、高可用性和可靠性的云存储平台。通过分析基于Hadoop平台云计算体系和基于HDFS/HBase的云存储技术,结合网上评卷海量图像文件的存储需求和实际,规划基于Hadoop/HDFS/HBase的国家教育考试云存储中心的数据交换平台,并对在国家教育考试中深入应用此平台给出设计方案,提出发展愿景。  相似文献   

8.
开发海量数据处理系统时存在技术框架选择不确定问题。从理论及应用角度对两种主流的海量数据处理架构MPP和Hadoop进行对比,分析各自技术特点,阐述其与传统数据处理的优势。分析结果表明,Hadoop在存储数据规模上可轻松支持PB级别,而MPP架构大多只支持TB级别;Hadoop对海量半结构化、非结构化数据存储和处理有一定优势,但在处理速度和易用性上不及MPP;在结构化数据处理、响应性能和衍生工具等方面MPP 则占优,适用于查询业务场景较多项目。通过分析两大框架底层核心技术以及归纳优缺点,为企业相关应用的技术选型提供参考。  相似文献   

9.
云计算的出现为海量教学资源的分布存储与管理提供了新的思路与技术.为满足教育教学资源共享建设的低成本、高可靠的弹性访问与服务需求,在现有Hadoop云实现技术的框架下,提出了分布式存储、访问与管理的云资源共享平台,并设计了相关的云平台资源存储结构和Web应用程序,为现代教育教学资源共享平台的构建提供了思路.  相似文献   

10.
电子通信信息是当代社会运行的重要信息组成之一,提高电子通信信息存储能力对于各行业高效率处理事务意义重大。基于Hadoop集群环境设计了单节点双层Hadoop结构,分担主节点存储信息的压力;构建MapReduce信息并行计算模型分担海量存储任务,基于动态优先级负载均衡调度算法均衡存储节点的负载量,避免个别或者少数节点负担过重,延长Hadoop存储系统节点的使用寿命。测试结果显示,该方法有效均衡了海量信息存储时间,存储大规模电子通信数据的耗时较少。  相似文献   

11.
互联网的迅速发展产生了各种海量数据,快速有效处理海量数据是云计算的目标。Hadoop作为典型的云计算平台可高效处理海量数据。介绍了Hadoop相关概念,包括HDFS、MapReduce等众多子项目;阐述了Hadoop完全分布式平台搭建,包括环境配置、搭建方法等;通过数据处理实验验证了Hadoop分布式平台的有效性。  相似文献   

12.
海量数据给微博舆情实时监控预警带来了严峻的挑战,将Hadoop关键技术引入微博舆情分析研究领域,以探寻分布式环境下的高效率短文本数据查询与推理方法,以微博数据结构为基础,结合云计算Hadoop关键技术特性,提出了一种海量微博数据分析预警框架.HDFS为海量微博的数据提供了存储,而MapReduce为海量微博的数据提供快速运算.采用Map(映射)和Reduce(规约)规则,对微博用户关系和内容数据的大规模数据集进行并行运算,以实现并行化高效预处理、深度分析和舆情实时五级预警.为验证计算效率与Reduce任务数之间关系,对Reduce任务数进行实验,结果表明,在Map一定的情况下,随微博数据集的增大到2 GB后,多任务数Reduce执行时间相比少任务数Reduce大大缩短.  相似文献   

13.
针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法(MKFOA-Kmeans)。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。  相似文献   

14.
文章分析了高职院校教育资源的现状和面临的问题,介绍了云存储的结构模型和优势,提出了一种基于云存储的数据存储方案.该方案采用Hadoop云平台,将HDFS与现有高职院校教育云平台相结合,有效解决了教育资源云平台上海量数据的存储问题.  相似文献   

15.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。  相似文献   

16.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

17.
为解决传统电能质量监测系统数据接入可靠性不高,海量数据存储和统计分析能力不足的缺点,采用类数据库的事务处理机制设计数据调度采集过程,搭建基于 Cloudera 大数据平台的电能质量监测分析系统,对数据进行分布式存储、计算分析,实现对 TB 级电能质量数据的监测点指标与运行状态统计,以及对暂态事件的统计聚合分析等功能。实验证明该系统可靠、海量数据统计处理能力强,提高了数据存储可拓展性,为供电方提供了解决海量电能质量数据存储与分析的有效方案。  相似文献   

18.
针对数据挖掘实践课程现状和实际教学效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台.架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模.同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发.基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养.  相似文献   

19.
针对Apache web服务器集群产生的海量日志记录进行数据分析,使用Flume-ng从web服务器集群收集日志文件,利用Hadoop云平台的HDFS进行分布式日志数据存储,以MapReduce为日志数据分析编程框架,设计实现了一个web日志分析系统,论文阐述了系统的结构、设计思想和实现方法。  相似文献   

20.
远程教育资源具有数据量大,增长迅速的特点,对这些海量数据资源进行低成本存储和基于内容的高效检索,是远程教育云平台建设面临的一大难题。本文基于Hadoop设计了一套对远程教育海量资源进行存储和检索的方法,解决了这个难题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号