首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

2.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

3.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。  相似文献   

4.
提出一种基于协方差特征爬虫的网页语义概念树构建方法,引入语义概念决策树算法进行主特征建模,根据语义三叉特征决策树概率正则训练迁移法则,得到决策树网络节点最近时刻获得的数据集有效特征概率,采用协方差特征网页爬虫进行网页语义概念树构建算法的改进。通过协方差特征爬虫,进行自相关成分的独立快速分离,得到语义自相关检索编码,实现网页语义概念树构建指导信息检索。仿真结果表明,该算法能有效进行数据挖掘和网页语义概念树的构建,为信息定位提供了最优分叉路径,从而实现对主题热点信息的准确检索和定位,算法具有较好的网页召回和定位检索性能,数据召回率提高明显,展示了较好的应用价值。  相似文献   

5.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

6.
赵哲  马晓珺 《科技通报》2014,(4):206-208
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。  相似文献   

7.
介绍了网络爬虫的工作原理和关键技术,列举了部分开源网络爬虫,并对Heritrix、Nutch、Larbin等几种开源网络爬虫功能特点的和使用范围进行了比较。  相似文献   

8.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

9.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。  相似文献   

10.
基于Python的网络爬虫可以方便地抓取网页信息,以豆瓣网站为例,实现了基于Python网络爬虫抓取豆瓣影视信息的过程。  相似文献   

11.
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。  相似文献   

12.
正本技术是一种基于自动生成知识库的智能问答系统。利用爬虫知识从网页爬取有用信息作为QA对;通过关键词匹配的算法改进制作推理机;在生成知识库时,将QA对的答案提取出关键词,并存储到知识库中,作为用户匹配QA对的关键数据。若网页中有描述即直接取,没有描述则用算法  相似文献   

13.
随着网络的发展,如何提高网页信息搜索的查准率成为研究的热点。通过对基于标记的网页信息搜索技术、基于元搜索的网页信息搜索技术、以及基于爬虫的网页信息搜索技术在查准率方面的研究进行了分析,并对其未来发展趋势进行了讨论。  相似文献   

14.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

15.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

16.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。  相似文献   

17.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。  相似文献   

18.
随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。  相似文献   

19.
首先介绍了基于Internet的搜索引擎的系统结构以及主流搜索引擎的工作原理,在对高性能的爬虫工具包Heritrix和可扩展的Java全文索引工具包Lucene进行系统分析的基础上,设计了整个搜索引擎的构架,并使用Java语言初步实现了"SoEdu"搜索引擎。  相似文献   

20.
<正>网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,其又被称为网页蜘蛛。由于万维网的快速发展以及数据的爆炸式增长,对大规模数据的网络进行数据爬取是在2001年进行的,使用了网络爬虫并采用广度优先策略对万维网3.28亿个网页进行研究。而伴随着万维网网络爬虫技术的快速发展,与网络爬虫技术相关的专利申请也与之对应进入了快速的发展阶段。本文的数据是基于网络爬虫相关中英文关键词在智慧芽数据库进行检索后获取到的数据,本文的分析是基于上述获取的数据进行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号