基于Hadoop和HBase的Nutch网页排序算法研究 |
| |
引用本文: | 施磊磊,施化吉,宋玉平,束长波.基于Hadoop和HBase的Nutch网页排序算法研究[J].人天科学研究,2014(10):53-55. |
| |
作者姓名: | 施磊磊 施化吉 宋玉平 束长波 |
| |
作者单位: | 江苏大学计算机科学与通信工程学院,江苏镇江212013 |
| |
摘 要: | 针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。
|
关 键 词: | Hadoop集群 MapReduce Nutch HBase |
本文献已被 维普 等数据库收录! |
|