海量数据处理方法研究 |
| |
引用本文: | 刘妍秀,刘明辉,杨永吉.海量数据处理方法研究[J].华章,2012(36). |
| |
作者姓名: | 刘妍秀 刘明辉 杨永吉 |
| |
作者单位: | 长春大学 计算机科学技术学院,吉林 长春,130022 |
| |
摘 要: | 采用传统分布式数据库架构存储和管理海量数据,效率不高且系统的存储能力受制于所依赖的数据库管理系统的能力.Hadoop作为一种开源的架构,适合在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性.本文在研究开源框架Hadoop的基础上,提出了基于Hadoop的海量数据处理模型,并在不同数量的Datanode的情况下对副本系数与块大小对HDFS的I/O性能的影响进行测试,试验结果表明,提供的模型较高效率地实现了对大数据量的日志的快速预处理.
|
关 键 词: | 海量数据处理 Hadoop 分布式数据预处理 |
本文献已被 万方数据 等数据库收录! |
|