首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在日常工作和生活中,互联网已遍及各个角落,基于当今快速发展的网络环境,人们对数据的搜索应用十分普遍,普通的网络爬虫已无法满足人们对有用信息获取的要求。本文基于主题爬虫的结构特征,分析近年来国内外爬虫抓取策略的方法、技术,重点介绍一些极具有代表性的主题相关度算法,包括Page Rank、HITS等,并分析比较各种典型算法的优点和不足。  相似文献   

2.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

3.
人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,数量庞大的数据随之产生,作为辅助人们检索信息工具的搜索引擎也存在着一定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,网络爬虫系统应运而生。众所周知,搜索引擎从互联网中靶向性筛选出有用信息,而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于python语言的聚焦网络爬虫,利用关键字匹配技术对目标网站进行扫描,得到所需数据并抓取。  相似文献   

4.
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。  相似文献   

5.
进行数据处理的时候,总希望能在繁杂的海量数据中挖掘出有用的信息,因此就有了各种数据挖掘方法的产生,本文介绍一种APRIRIO算法的扩展算法,这种方法能够在众多数据中挖掘出反面规则来,从而得到更清晰的数据概念,方便得出更有用的信息。  相似文献   

6.
基于Python的网络爬虫可以方便地抓取网页信息,以豆瓣网站为例,实现了基于Python网络爬虫抓取豆瓣影视信息的过程。  相似文献   

7.
张佳 《科技通报》2019,35(2):76-79,84
针对当前只关注对数字图书馆网络功能的提高,忽略了对信息扩散的问题。为此,通过关联规则方法对海量图书信息数据扩散进行研究,给出关联规则的基本概念,并介绍了数字图书馆网络的特征,将API与编写抓取程序、开放数据等技术结合在一起;利用Apriori算法通过层次顺序搜索的循环方法对图书信息数据频繁项集进行挖掘,采集数字图书馆网络中某用户粉丝、关注者、转发以及评论信息扩散数据;将关联规则作为研究海量图书信息数据扩散方法,通过关联规则衡量节点度和出入度;在此基础上通过关联规则对海量图书信息数据扩散情况进行研究,发现海量图书信息扩散有高低谷期;转发量和评论量呈一定的正相关性;数字图书馆网络中海量图书信息数据扩散的广度和用户影响力相关。  相似文献   

8.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

9.
随着信息技术的不断发展,互联网上的数据类型越来越多,信息量以几何级增长,庞大的数据给人们的生活带来便利的同时也给信息的查找带来了巨大的挑战。搜索引擎的通用网络爬虫越来越难以胜任越来越大规模的数据抓取任务。本文设计了一个分布式架构的主题网络爬虫,能快速、准确、稳定的抓取特定领域的信息。  相似文献   

10.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

11.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

12.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

13.
随着互联网的发展,当今网络的规模变得十分庞大,网络数据呈现海量发展趋势,获取互联网中各类型的信息数据,来作为当前互联网舆情信息监测和分析的原始依据,已经成为该领域的热点话题.因此本文设计一种基于云计算平台的主题网络爬虫,来对庞大互联网海量数据的采集、主题识别有着重要的意义.  相似文献   

14.
随着大数据时代的到来,以及在"互联网+"的模式下,每天都会出现各种各样纷繁复杂的资讯信息,依靠传统的手工采集已经不能满足现在的要求,如何利用互联网技术采集和挖掘这些大数据已经成为各界研究的热点。目前大多数研究者主要使用Python语言网络爬虫技术实时采集网上有用的目标内容,并在此基础上挖掘分析出潜在有价值的信息,为决策提供依据和对未来相关研8究做预测。基于能够快速且精准地获取目标资讯信息,以便为后续数据挖掘分析出有用信息提供保障。本文设计了基于Python对资讯信息的网络爬虫设计,使用Python语言网络爬虫快速准确获取伯乐在线网站最新文章栏所有资讯的标题、封面图、时间、内容、点赞数、评论数等,并将获取到的数据保存到数据库。  相似文献   

15.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。  相似文献   

16.
爬虫系统,被广泛应用于计算机各个领域,对于爬虫系统的研究和改进从来没有停止过。目前对于爬虫系统研究最关注的自然是爬虫系统的效率问题,如何才能够提升爬虫系统的效率,是我们目前为止研究的一个大方向。我们的研究从解剖爬虫系统开始。爬虫系统包括运行机理,构架以及算法组成,要想提升爬虫系统的效率,我们就必须优化它的构架,改进相关算法,针对爬虫系统进行一个全面的优化,从而达到提升爬虫系统效率的目的。在Linux网络环境之下,我们为了提高爬虫系统对页面的抓取效率和爬虫程序的完整性能,我们进行了反复的实验,结果表明,我们的解决方案的确有可行之处。  相似文献   

17.
本文主利用Python网络爬虫技术获取招聘网站的职位信息并存入数据库,利用XPath模块对职位数据的清洗、抓取,并利用Struts2+hibernate实现就业推荐系统。对当代大学毕业生求职有一定的参考作用。  相似文献   

18.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

19.
网络舆情具有自由发布、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。  相似文献   

20.
现代计算机技术和互联网的飞速发展,信息资源已成为网络化.如何从海量的网络信息中检索到所需的有用信息是信息时代科技人员必须掌握的技能.本文介绍了一些常用的网络科技信息的检索方法和网络数据库.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号