共查询到20条相似文献,搜索用时 593 毫秒
1.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。 相似文献
2.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。 相似文献
3.
以何种策略来访问web资源是搜索引擎研究的热点之一。通过比较通用搜索引擎和专业搜索引擎的搜索策略,针对"最好策略"的几种策略方案进行了优缺点的分析,总结了关于提高网络爬虫搜索效率的关键,旨在使人们对爬虫的搜索算法有一个全面大概的了解。 相似文献
4.
5.
马晓娟 《赤峰学院学报(自然科学版)》2013,(20):21-23
本文以网络爬虫的分类以及其特点出发,探讨了当前网络爬虫在搜索引擎应用中的问题,比如搜索URL定位过程中的数据下载效率较低,出现下载过程中的CPU闲置,URL搜索策略不合理导致了URL重复等问题,并以此为依托,提出了相关策略,包括在数据传输过程中采用gzip/deflate压缩编码传输,异步非阻塞下载,提升CPU利用率以及规范化URL提取策略等,以此来提升网络爬虫在搜索引擎中的效率. 相似文献
6.
7.
孙滨 《洛阳师范学院学报》2011,30(11):51-53,57
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取. 相似文献
8.
搜索引擎技术应用广泛。Lucene作为一个优秀的搜索引擎开源工具包,可方便实现相关搜索引擎功能。介绍了Lucene搜索引擎工具包,在此基础上,利用Lucene开发工具包,设计并实现了综合查询系统中搜索引擎功能。阐述了网络爬虫子系统、索引子系统和查询子系统3个模块功能。 相似文献
9.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。 相似文献
10.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。 相似文献
11.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。 相似文献
12.
赵靖华 《通化师范学院学报》2008,29(10):21-23
互联网的迅猛发展,网络中流通的Web信息巨增.要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难.搜索引擎正是为了解决这个问题而出现的技术.该文对搜索引擎的关键组成部分,即网页信息获取技术(网络爬虫)进行探究.笔者致力于给出一种可行的基于广域网的分布式多机爬虫系统,其中分布式任务的调度采用了网络性能指标预测法指导.最后对多种分布式系统任务分配的方法指导下实际运行的效果进行了对比,得出网络性能指标指导预测效果法为最佳的任务调度方法. 相似文献
13.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 相似文献
14.
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。 相似文献
15.
姜岚 《中阿科技论坛(中英文)》2024,(4):163-167
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。 相似文献
16.
六搜的研发
在IPv6建设过程中,有必要建立一个专用的IPv6搜索引擎.因为:第一,专用IPv6搜索引擎可以集中体现IPv6网络上的资源,总的来说,IPv6网络的性能高过IPv4网络的性能,IPv6网站的速度也快过纯IPv4网站的速度.第二,其可以使用户熟悉IPv6.第三,可以从爬虫收集网页的数据中得到IPv6网站的数目,虽然不能保证每一个IPv6网站爬虫都能访问到,但也可以得到比较接近的数据. 相似文献
17.
18.
六搜由深圳大学研发,当前在谷歌搜索英文"IPv6 search engine",六搜网站全球排名领先。六搜的研发在IPv6建设过程中,有必要建立一个专用的IPv6搜索引擎。因为:第一,专用IPv6搜索引擎可以集中体现IPv6网络上的资源,总的来说,IPv6网络的性能高过IPv4网络的性能,IPv6网站的速度也快过纯IPv4网站的速度。第二,其可以使用户熟悉IPv6。第三,可以从爬虫收集网页的数据中得到IPv6网站的数目,虽然不能保证每一个IPv6网站爬虫都能访问到,但也可以得 相似文献
19.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫. 相似文献
20.
龙俊浩 《广东技术师范学院学报》2013,(12):132-136
在高校大学生就业形势极其严峻的背景下,高等师范院校毕业生这一特殊群体对及时准确的教师招聘信息更加渴望.因此高校研究建设教师招聘信息的垂直搜索引擎非常有必要.本文对垂直搜索引擎的工作原理以及关键技术模块进行分析,同时结合各类教师招聘信息网站的特点对关键技术中网络爬虫爬取策略进行改进,创建一个更具高效教师招聘信息价值平台. 相似文献