首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Hadoop的分布式主题网络爬虫研究
引用本文:李应.基于Hadoop的分布式主题网络爬虫研究[J].教育技术导刊,2016,15(3):24-26.
作者姓名:李应
作者单位:西安工程大学 计算机科学学院,陕西 西安 710048
摘    要:主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。

关 键 词:Hadoop  MapReduce  分布式架构  主题网络爬虫  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号