共查询到20条相似文献,搜索用时 31 毫秒
1.
网络爬虫软件的研究与开发 总被引:1,自引:0,他引:1
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 相似文献
2.
3.
首先给出了主题网络爬虫的定叉和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BFO算法。对BFO算法进行性能评价,发现应用此算法搜索不但“召回率”和“收获率”有所提高,还能在一定程度上找到全局围内的最优解。最后对未来的研究方向进行了展望。 相似文献
4.
以何种策略访问网络,提高搜索效率,是近年来主题搜索引擎研究的主要问题之一。本文对主题爬虫常用搜索策略进行了简单分析,提出了实用性较强的基于SAGA的主题爬虫搜索策略。 相似文献
5.
6.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。 相似文献
7.
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。 相似文献
8.
9.
10.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
11.
12.
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。 相似文献
13.
提出一种基于协方差特征爬虫的网页语义概念树构建方法,引入语义概念决策树算法进行主特征建模,根据语义三叉特征决策树概率正则训练迁移法则,得到决策树网络节点最近时刻获得的数据集有效特征概率,采用协方差特征网页爬虫进行网页语义概念树构建算法的改进。通过协方差特征爬虫,进行自相关成分的独立快速分离,得到语义自相关检索编码,实现网页语义概念树构建指导信息检索。仿真结果表明,该算法能有效进行数据挖掘和网页语义概念树的构建,为信息定位提供了最优分叉路径,从而实现对主题热点信息的准确检索和定位,算法具有较好的网页召回和定位检索性能,数据召回率提高明显,展示了较好的应用价值。 相似文献
14.
随着互联网的发展,当今网络的规模变得十分庞大,网络数据呈现海量发展趋势,获取互联网中各类型的信息数据,来作为当前互联网舆情信息监测和分析的原始依据,已经成为该领域的热点话题.因此本文设计一种基于云计算平台的主题网络爬虫,来对庞大互联网海量数据的采集、主题识别有着重要的意义. 相似文献
15.
16.
17.
18.
采用网络协议爬虫方法对Web网页跨站脚本的动态污点Bug进行检测和数据补齐,根本上保证Web安全。传统方法采用主成分分析和驱动爬虫方法进行Bug数据补齐,当用户提交的数据没有经过严格的过滤和验证的时,Bug漏洞不能得到有效检测。提出一种基于向量空间动态污点传播模型的Web协议爬虫算法,实现对动态污点Bug检测与数据补齐,构建向量空间模型,计算Bug数据和漏洞检测中的模糊关系的隶属度,提取动态污点Bug数据模态特征进行网络爬虫,优化对动态污点数据的检测性能。仿真实验结果表明,该算法能提高数据补齐的准确性,聚类性好,收敛性提高,保证了系统安全防御的实时性,在Web程序安全设计中应用前景广阔。 相似文献