首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

2.
以何种策略访问网络,提高搜索效率,是近年来主题搜索引擎研究的主要问题之一。本文对主题爬虫常用搜索策略进行了简单分析,提出了实用性较强的基于SAGA的主题爬虫搜索策略。  相似文献   

3.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

4.
爬虫是搜索引擎的重要组成部分,它决定了搜索引擎的性能,而Larbin正是一种高效的网络爬虫。首先分析了Larbin的设计结构,再由对其核心的算法Bloom Filter进行了研究,并对其提出了改进。最后是关于Larbin优化的实现。  相似文献   

5.
教育网和公网之间的带宽瓶颈限制了公网用户对校内服务器的高速访问,通过分析多出口校园网域名解析原理以及当前核心路由具备的的技术特点,提出了基于智能DNS解析结合静态地址映射的解决方案.基于策略的DNS服务可以根据用户源地址不同为其智能地提供最佳路由选择,提高外网访问速度,有效降低了服务器的额外负载.在实际的网络环境中给出了方案的实例并完成了性能测试.  相似文献   

6.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

7.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨.  相似文献   

8.
人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,数量庞大的数据随之产生,作为辅助人们检索信息工具的搜索引擎也存在着一定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,网络爬虫系统应运而生。众所周知,搜索引擎从互联网中靶向性筛选出有用信息,而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于python语言的聚焦网络爬虫,利用关键字匹配技术对目标网站进行扫描,得到所需数据并抓取。  相似文献   

9.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

10.
网络舆情具有自由发布、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。  相似文献   

11.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。  相似文献   

12.
通过对网络重编号技术原理的研究,依据支持网络重编号的主要技术之一,即IPV6DNS对IPV6地址的正确解析,设计实现了一个IPV6DNS服务器,能够实现IPV4、IPV6地址的正确解析,基于该DNS服务器并伴有DHCP6服务器以及IPV6路由器可实现大型网络重编号以达到对IPV4、IPV6网络的正确访问,实现IPV6网络的信息传输。  相似文献   

13.
随着信息技术的不断发展,互联网上的数据类型越来越多,信息量以几何级增长,庞大的数据给人们的生活带来便利的同时也给信息的查找带来了巨大的挑战。搜索引擎的通用网络爬虫越来越难以胜任越来越大规模的数据抓取任务。本文设计了一个分布式架构的主题网络爬虫,能快速、准确、稳定的抓取特定领域的信息。  相似文献   

14.
本文详细介绍了面向计算机教育资源的垂直搜索引擎的体系结构,重点叙述了构成垂直搜索引擎的主题爬虫的爬行策略、主题相关度算法和主题词库的设计策略。实验结果表明:软件系统中Heri-trix的最大响应时间是0.563秒,查询精度和主题相关度判别算法的精度均达到了60%以上,可以面向Web加以应用。  相似文献   

15.
爬虫系统,被广泛应用于计算机各个领域,对于爬虫系统的研究和改进从来没有停止过。目前对于爬虫系统研究最关注的自然是爬虫系统的效率问题,如何才能够提升爬虫系统的效率,是我们目前为止研究的一个大方向。我们的研究从解剖爬虫系统开始。爬虫系统包括运行机理,构架以及算法组成,要想提升爬虫系统的效率,我们就必须优化它的构架,改进相关算法,针对爬虫系统进行一个全面的优化,从而达到提升爬虫系统效率的目的。在Linux网络环境之下,我们为了提高爬虫系统对页面的抓取效率和爬虫程序的完整性能,我们进行了反复的实验,结果表明,我们的解决方案的确有可行之处。  相似文献   

16.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。  相似文献   

17.
介绍了网络爬虫技术的运行原理,分析了作为搜索引擎核心技术的通用网络爬虫的搜索策略,进而实现了采用两种搜索策略的网络爬虫,并在互联网中进行了信息爬取,最后比较总结了两种搜索策略的技术特点及优化研究方向。  相似文献   

18.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Google的搜索具体实现,文章最后对未来进行了展望。  相似文献   

19.
无锡地区拥有丰富的美食资源,目前国内外的通用搜索引擎所提供的信息量过大,查询不准确,智能化程度低。该研究为无锡广大美食爱好者提供了一个智能的查询平台。无锡美食智能搜索引擎的查询结果更精确、智能,是检索更加方便快捷的垂直搜索引擎。本文从无锡美食搜索引擎的设计流程入手,主要介绍了垂直搜索引擎各模块的功能、原理,包括爬虫的快速抓取、精确解析、高效存储等。  相似文献   

20.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Googlc 的搜索具体实现,文章最后对未来进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号