首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网络爬虫软件的研究与开发
引用本文:李琳琢.网络爬虫软件的研究与开发[J].人天科学研究,2011,10(5):142-144.
作者姓名:李琳琢
作者单位:大连大窑湾边防检查站,辽宁大连1166IO
摘    要:作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。

关 键 词:主题爬虫  向量空间模型  主题相关度  爬虫阻止协议

Research and Development of Web Crawlers Software
Abstract:First of all,the paper introduces the historical background and the current domestic and international development condition of Web Crawlers,and the related technical knowledge of topic crawler,such as the HTTP protocol,HTML parsing,Chinese word segmentat
Keywords:Topic Crawler  Vector Space Model  Theme  Crawler Stop Agreement
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号