首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
介绍了网络爬虫技术的运行原理,分析了作为搜索引擎核心技术的通用网络爬虫的搜索策略,进而实现了采用两种搜索策略的网络爬虫,并在互联网中进行了信息爬取,最后比较总结了两种搜索策略的技术特点及优化研究方向。  相似文献   

2.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

3.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

4.
爬虫是搜索引擎的重要组成部分,它决定了搜索引擎的性能,而Larbin正是一种高效的网络爬虫。首先分析了Larbin的设计结构,再由对其核心的算法Bloom Filter进行了研究,并对其提出了改进。最后是关于Larbin优化的实现。  相似文献   

5.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

6.
人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,数量庞大的数据随之产生,作为辅助人们检索信息工具的搜索引擎也存在着一定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,网络爬虫系统应运而生。众所周知,搜索引擎从互联网中靶向性筛选出有用信息,而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于python语言的聚焦网络爬虫,利用关键字匹配技术对目标网站进行扫描,得到所需数据并抓取。  相似文献   

7.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨.  相似文献   

8.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

9.
爬虫系统,被广泛应用于计算机各个领域,对于爬虫系统的研究和改进从来没有停止过。目前对于爬虫系统研究最关注的自然是爬虫系统的效率问题,如何才能够提升爬虫系统的效率,是我们目前为止研究的一个大方向。我们的研究从解剖爬虫系统开始。爬虫系统包括运行机理,构架以及算法组成,要想提升爬虫系统的效率,我们就必须优化它的构架,改进相关算法,针对爬虫系统进行一个全面的优化,从而达到提升爬虫系统效率的目的。在Linux网络环境之下,我们为了提高爬虫系统对页面的抓取效率和爬虫程序的完整性能,我们进行了反复的实验,结果表明,我们的解决方案的确有可行之处。  相似文献   

10.
王彦明 《现代情报》2014,34(8):14-19
Hadoop作为著名开源云计算技术近年来得到广泛应用,研究成果快速增长。理论研究主要集中在任务调度、小文件优化、中间数据管理、功能扩展和安全性优化;应用研究主要涉及数据存储、数据分析、数据挖掘、搜索引擎以及信息安全领域。通过分析相关研究成果明确Hadoop近年来国内研究现状。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号