首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于hadoop平台的分布式数据挖掘系统研究
引用本文:郭建伟,李瑛,杜丽萍,赵桂芬,蒋继娅.基于hadoop平台的分布式数据挖掘系统研究[J].中国科技信息,2013(13):81-83.
作者姓名:郭建伟  李瑛  杜丽萍  赵桂芬  蒋继娅
作者单位:北京市科学技术情报研究所信息技术部,北京,100044
摘    要:以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统必要组成部分。因此,就是在Hadoop分布式系统上完成数据挖掘任务的一次实践。主要任务是使用Hadoop搭建分布式集群环境,并在该环境上部署数据挖掘任务。研究Hadoop系统架构,对其分布式文件系统HDFS和MapReduce并行编程模型的原理和实现进行深入理解。系统掌握数据挖掘过程,将传统的数据挖掘算法使用MapReduce编程实现,并针对Hadoop平台的数据挖掘算法的执行情况进行研究,主要分析其执行效率和可扩展性。选择数据挖掘中的数据聚类任务作为代表,并选择K-means聚类算法做深入研究,掌握其原理并编写其MapReduce版本,在Hadoop平台上测试并验证其效果。通过不同集群规模和不同数据规模的对比试验得出,使用Hadoop分布式系统进行数据挖掘任务具有良好地加速比和效率,计算能力的扩展性能分析也显示了其具有较大的潜力。

关 键 词:数据挖掘  K-means

Distributed database system based on Hadoop platform Research
Guo Jianwei , Li Ying , Du Liping , Zhao Guifen , Jiang Jiya.Distributed database system based on Hadoop platform Research[J].CHINA SCIENCE AND TECHNOLOGY INFORMATION,2013(13):81-83.
Authors:Guo Jianwei  Li Ying  Du Liping  Zhao Guifen  Jiang Jiya
Institution:Department of Information Technology,Beijing Municipal Institute of Science & Technology Information,Beijing 100044,China
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号