首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多中文搜索引擎的可扩展网络混合爬虫
引用本文:潘志舟,赵靖.基于多中文搜索引擎的可扩展网络混合爬虫[J].安徽科技学院学报,2012,26(6):70-75.
作者姓名:潘志舟  赵靖
作者单位:安徽科技学院理学院,安徽风阳,233100;安徽科技学院理学院,安徽风阳,233100
基金项目:安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD);安徽科技学院第九批大学生创新课题项目基金(12XSZ09)
摘    要:由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。

关 键 词:元搜索引擎  网络爬虫  搜索引擎  网页相似度

An Extensible Web Crawler Framework Based on Multiple Chinese Search Engines
PAN Zhi-zhou,ZHAO Jing.An Extensible Web Crawler Framework Based on Multiple Chinese Search Engines[J].Journal of Anhui Science and Technology University,2012,26(6):70-75.
Authors:PAN Zhi-zhou  ZHAO Jing
Institution:(School of Seience,Anhui Science and Technology University,Fengyang 233100,China)
Abstract:
Keywords:Meta - search  Web crawler  Search engine  Web page similarity
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号