首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Hadoop和HBase的Nutch网页排序算法研究
引用本文:施磊磊,施化吉,宋玉平,束长波.基于Hadoop和HBase的Nutch网页排序算法研究[J].人天科学研究,2014(10):53-55.
作者姓名:施磊磊  施化吉  宋玉平  束长波
作者单位:江苏大学计算机科学与通信工程学院,江苏镇江212013
摘    要:针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。

关 键 词:Hadoop集群  MapReduce  Nutch  HBase
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号