首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

2.
张皓  周学广 《教育技术导刊》2013,12(11):135-137
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

3.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

4.
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。  相似文献   

5.
介绍了网络爬虫的工作原理,分析了传统的两种启发式算法——基于有限空间的A*搜索算法和局部搜索的爬山算法在网络爬虫中应用的可行性及局限性。并详细阐述了应用了模拟退火算法的网络爬虫网页搜索的过程,并结合一个搜索实验说明了基于模拟退火算法的网络爬虫搜索性能的优越性。  相似文献   

6.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。  相似文献   

7.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

8.
《中国教育网络》2008,(6):36-36
爬虫是搜索引擎赖以提供信息给用户的基础,是搜索引擎的重要组成部分。通过爬虫所搜集到的网页,搜索引擎建立相应的索引,从而使得用户可以搜索到相应的网页。  相似文献   

9.
《宜宾学院学报》2019,(6):42-46
在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取useragent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高.  相似文献   

10.
本文介绍了mp3下载器的总体设计架构和关键模块,阐述了处理器端和下载器端的实现原理,以及爬虫程序的作用、实现和工作原理,并针对爬虫模块的特点设计实现了网页结点的遍历算法和提取超链接的正则表达式匹配算法。  相似文献   

11.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

12.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

13.
为了提高网页数据抓取效率,降低爬虫对系统资源的消耗,提出了一种基于Chrome扩展的爬虫系统。利用Chrome浏览器对网页进行解析,防止被爬取对象屏蔽和网页异步加载问题,并且实现数据结构化;通过选择普通用户版〖JP〗扩展和服务器版扩展,既可以实现无人值守主动抓取,也可以在用户浏览网页的同时抓取信息。整个系统前后端分离,并且采用面向接口编程,具有良好的扩展性。通过从搜达足球网站抓取英超赛程,验证了程序的高效可行性。  相似文献   

14.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。  相似文献   

15.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。  相似文献   

16.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse 3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。  相似文献   

17.
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。  相似文献   

18.
2020年,整个世界都在关注新型冠状病毒肺炎的疫情,各大主流网站每日实时播报最新的疫情数据,单纯的数字显示不够直观,采用网络爬虫技术可以根据给定的URL和规则收集网络上的信息数据。使用网络爬虫技术获取网络上最新的新冠病毒疫情数据,研究常用的爬虫算法,运用合适的数据爬取方式获取数据,并将数据以图表的可视化形式展示,能清晰明了地显示疫情的走向趋势,为不同地方的采取相应防控提供参考。  相似文献   

19.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

20.
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号