首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

2.
搜索引擎在网络应用中越来越重要,网络爬虫作为搜索引擎的重要组成部分成为近期的重要研究目标。本文介绍了一种构建简单分布式网络爬虫模型的方法,提供了行之有效的理论分析和算法。  相似文献   

3.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

4.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。  相似文献   

5.
针对互联网网内信息搜索效率低下问题,设计了以Redis数据库以及Map-reduce思想为核心的分布式搜索引擎框架。为了应对互联网信息时效性强、更新快、难以被准确检索的特点,基于该框架设计了分布式爬虫、分布式索引建立、分布式链接分析算法。该框架明显提高了信息处理的效率,为分布式搜索引擎的搭建提供有效模板。经过测试,与以基于其它主流框架搭建分布式搜索引擎相比,基于Redis的分布式搜索引擎在爬虫爬取、索引生成、链接分析性能方面均有提升。  相似文献   

6.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。  相似文献   

7.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。  相似文献   

8.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

9.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

10.
以何种策略来访问web资源是搜索引擎研究的热点之一。通过比较通用搜索引擎和专业搜索引擎的搜索策略,针对"最好策略"的几种策略方案进行了优缺点的分析,总结了关于提高网络爬虫搜索效率的关键,旨在使人们对爬虫的搜索算法有一个全面大概的了解。  相似文献   

11.
随着软件的规模和复杂度持续上升,在软件开发中不可避免地会引入缺陷,而如何对软件进行缺陷预测也成为了软件工程研究的热点领域之一。现有的软件缺陷预测方法主要根据源码结构提取预测信息而忽视了软件缺陷报告的作用,而软件缺陷的相关报告广泛存在于各软件技术论坛上,也是软件缺陷预测的重要依据。因此本文提出了一种基于爬虫的软件缺陷预测方法,其主要手段是通过爬虫获取技术论坛中用户提交的缺陷报告信息,并通过机器学习技术的处理,指导开发人员在开发过程中避免相关缺陷,提高软件质量。  相似文献   

12.
在高校大学生就业形势极其严峻的背景下,高等师范院校毕业生这一特殊群体对及时准确的教师招聘信息更加渴望.因此高校研究建设教师招聘信息的垂直搜索引擎非常有必要.本文对垂直搜索引擎的工作原理以及关键技术模块进行分析,同时结合各类教师招聘信息网站的特点对关键技术中网络爬虫爬取策略进行改进,创建一个更具高效教师招聘信息价值平台.  相似文献   

13.
搜索引擎技术应用广泛。Lucene作为一个优秀的搜索引擎开源工具包,可方便实现相关搜索引擎功能。介绍了Lucene搜索引擎工具包,在此基础上,利用Lucene开发工具包,设计并实现了综合查询系统中搜索引擎功能。阐述了网络爬虫子系统、索引子系统和查询子系统3个模块功能。  相似文献   

14.
本文以网络爬虫的分类以及其特点出发,探讨了当前网络爬虫在搜索引擎应用中的问题,比如搜索URL定位过程中的数据下载效率较低,出现下载过程中的CPU闲置,URL搜索策略不合理导致了URL重复等问题,并以此为依托,提出了相关策略,包括在数据传输过程中采用gzip/deflate压缩编码传输,异步非阻塞下载,提升CPU利用率以及规范化URL提取策略等,以此来提升网络爬虫在搜索引擎中的效率.  相似文献   

15.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

16.
网络教学资源的不断建设和发展,给教学过程中共享网络教学资源提供了方便。当前基于通用搜索引擎的网络教学资源搜索,在高效优质满足教师和学生要求方面还存在一定的问题,借助遗传算法对搜索到的网络教学资源信息进行优化,可以提供教师和学生优质的网络教学资源信息。同时,本文提出了网络教学资源信息优化的方法,并对遗传算法与通用搜索引擎结合进行网络教学资源信息优化的过程进行了阐述。  相似文献   

17.
垂直搜索引擎又叫专题搜索引擎、专业搜索引擎。主要研究了下一代的搜索引擎——垂直搜索引擎,并基于Lucene技术开发了一个垂直搜索引擎,对信息检索的速度和最终结果的排序都进行了改进。同时给出了专业网络爬虫Spider的算法。  相似文献   

18.
随着Internet及各种电子出版物的出现,图书馆的信息资源的构成和检索方法都发生了明显的变化。按照信息加工的层次.把网络信息资源分为网络资源指南和搜索引擎、联机馆藏目录、网络数据库等若干类型进行检索,效果很好。  相似文献   

19.
信息技术和网络技术的发展使信息空间日益复杂化,现有的搜索引擎技术已不能满足人们的个性化信息需求.文中概述了Agent争个性化信息服务涵义及特征,分析了Agent的系统原理及其结构,并对基于Agent技术的个性化信息服务的实现作了一些探讨.  相似文献   

20.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号