首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
作为深受开发者青睐的主流大数据平台,Hadoop在数据的处理、分析及应用上拥有着其他平台不可比拟的优势。在介绍了大数据定义和Hadoop生态系统架构的基础上,分别对基于Hadoop提出的大数据存储、分析、管理、安全及应用等关键问题的解决方案进行了研究和综述。最后,对基于Hadoop的大数据平台的研究和应用发展方向进行了展望。  相似文献   

2.
分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。  相似文献   

3.
民航信息系统日志包含大量信息,但由于日志数据非结构化,不易被读取且数据量巨大,难以通过人工分析得出有价值信息。Hadoop分布式计算技术恰好可以很好地解决这个问题。设计了基于Hadoop的民航日志分析系统,系统结合数据挖掘领域经典的KNN分类算法,对算法进行了并行化改进,给出算法在Hadoop平台的MapReduce编程模型上的执行流程。对系统进行单机和集群测试,集群系统在处理较大规模数据时更高效。实验结果证明,系统具有较高的执行效率和可扩展性,对民航日志分析具有较高的实用价值。  相似文献   

4.
农产品可追溯系统是保障农产品质量安全的重要措施,系统中的数据体现了海量、异构、多源的大数据特点,因此研究大数据背景下的农产品可追溯系统的框架和关键技术具有重要的理论价值和实践意义.首先构建了大数据背景下农产品可追溯系统的总体框架并介绍了每层的主要功能;然后分析了该框架下的感知数据采集、负载均衡管理和大数据建库等关键技术;最后基于ZigBee技术和Hadoop平台对系统的关键部分进行了原型实现.  相似文献   

5.
基于大规模数据的入侵检测分析具有重要的研究意义和实用性。针对现有系统的仿真和离线分析不足,设计和实现一套真实的网站入侵检测综合分析系统,能够将入侵检测系统和大数据分析系统结合起来。通过网络构建和软件设计,可以完成真实网站的入侵检测、数据存储、数据清洗和数据挖掘等功能。通过定时和主动两种方式,系统将入侵检测数据传输到数据库中,然后导入到Hadoop系统中。设计了人机交互软件,能够完成Hadoop系统和Mahout技术的大数据分析。实验结果表明,该系统能够快速完成随机森林模型的构建和测试,获得了满意的检测效果。  相似文献   

6.
采用传统分布式数据库架构存储和管理海量数据,效率不高且系统的存储能力受制于所依赖的数据库管理系统的能力.Hadoop作为一种开源的架构,适合在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性.本文在研究开源框架Hadoop的基础上,提出了基于Hadoop的海量数据处理模型,并在不同数量的Datanode的情况下对副本系数与块大小对HDFS的I/O性能的影响进行测试,试验结果表明,提供的模型较高效率地实现了对大数据量的日志的快速预处理.  相似文献   

7.
《实验技术与管理》2019,(11):193-196
该文研究了大数据技术课程实验教学环境的构建。在综合考虑已有实验设备和各种影响因素的条件下,提出在Linux虚拟机下安装Hadoop集群,并安装用Scala编程语言编写的Spark计算框架,从而实现Hadoop+Spark的大数据技术实验教学环境构建方案。该实验环境有助于提升大数据技术课程的理论教学效果,有助于学生更好地掌握分析和处理大数据的关键技术,从而有助于达到培养创新型人才的目标。  相似文献   

8.
大数据技术已经成为当下热点问题,Hadoop技术在煤矿领域运用也引起了广泛关注。针对传统监控模式下煤矿视频监控系统图像采集点多、历史留存数据量大、不利于后续查找特征图像等问题,提出一种Hadoop平台下PCA-SIFT算子的图像特征提取算法,研究并改进了MapReduce并行编程模型的任务设计,对传统尺度不变特征转换算法进行了并行化设计,在Hadoop集群下实现了海量煤矿图像的PCA-SIFT并行特征提取。使用汾西矿务局煤矿图像井下数据集进行实验,算法SIFT特征点检测效果好,运行耗时少。在图像数量庞大时,系统加速比几乎呈线性增长趋势,验证了算法处理大规模煤矿图像数据的有效性。  相似文献   

9.
随着计算机技术的快速发展,目前诸多行业信息化程度越来越高,需要处理的数据量也不断增大。对基于Hadoop的海量情报数据的存储和处理方法进行研究,提出一种基于Hadoop技术的海量情报数据管理系统,优化了情报数据存储和处理效率,对提高战场上海量情报的分析处理能力有着非常重要的作用。  相似文献   

10.
大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号