首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 248 毫秒
1.
本文以网络爬虫的分类以及其特点出发,探讨了当前网络爬虫在搜索引擎应用中的问题,比如搜索URL定位过程中的数据下载效率较低,出现下载过程中的CPU闲置,URL搜索策略不合理导致了URL重复等问题,并以此为依托,提出了相关策略,包括在数据传输过程中采用gzip/deflate压缩编码传输,异步非阻塞下载,提升CPU利用率以及规范化URL提取策略等,以此来提升网络爬虫在搜索引擎中的效率.  相似文献   

2.
《中国教育网络》2008,(6):36-36
爬虫是搜索引擎赖以提供信息给用户的基础,是搜索引擎的重要组成部分。通过爬虫所搜集到的网页,搜索引擎建立相应的索引,从而使得用户可以搜索到相应的网页。  相似文献   

3.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

4.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。  相似文献   

5.
针对互联网网内信息搜索效率低下问题,设计了以Redis数据库以及Map-reduce思想为核心的分布式搜索引擎框架。为了应对互联网信息时效性强、更新快、难以被准确检索的特点,基于该框架设计了分布式爬虫、分布式索引建立、分布式链接分析算法。该框架明显提高了信息处理的效率,为分布式搜索引擎的搭建提供有效模板。经过测试,与以基于其它主流框架搭建分布式搜索引擎相比,基于Redis的分布式搜索引擎在爬虫爬取、索引生成、链接分析性能方面均有提升。  相似文献   

6.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

7.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。  相似文献   

8.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。  相似文献   

9.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。  相似文献   

10.
赵根 《教育技术导刊》2009,8(2):130-131
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

11.
搜索引擎的检索技术及其对比研究   总被引:1,自引:0,他引:1  
随着因特网的普及,搜索引擎的探索逐渐成了人们注目的焦点。查准率和查全率为评价标准来评价目前各类搜索引擎和搜索策略的检索效果并不理想。本文通过对目前主要检索技术的分析比较,对其中概念检索技术做了重点分析。  相似文献   

12.
MP3搜索引擎作为搜索引擎服务商提供的主要服务方式,已成为了广大网民的宠儿,也处于网络侵权诉讼的风口浪尖之上。文章在初步探讨直接侵权与间接侵权的基本理论之后,界定MP3搜索引擎只是一种链接行为,其使用的技术是中立性的,对权利救济的手段也只是断除链接。因此,MP3搜索引擎只能承担间接侵权的责任。以“避风港规则”和“红旗规则”为标准,我国现行立法设计了“通知——删除”的机制,但由于该机制的时代局限性,并不能很好地实现权利救济,提出以屏蔽技术为基础,建立“备案——屏蔽”制度对其进行完善和补充。  相似文献   

13.
首先对Web数据搜索引擎技术进行了概述,在此基础上进一步阐述数据采集过程、Robot的搜索策略、HTML解析器基本算法及数据检索模型,最后指出目前搜索引擎存在的问题,提出未来搜索引擎的发展方向。  相似文献   

14.
以判决隐私权侵权方式规制人肉搜索行为,存在诸多问题.人肉搜索行为的本质是侵害个人信息权行为,而非隐私权侵权行为.人肉搜索不属于网民合理行使言论自由权的范畴,应当受到规制.我国相关民事立法存在不足.立法应当明确规定个人信息权的含义及内容,同时规定个人信息权侵权的抗辩事由,在网络侵权责任的制度设计中应合理规定网络服务商的责任.  相似文献   

15.
网站设计中的SEO优化策略关系着整个网站的访问量和网站的宣传力度,为了提升网站的宣传力度,通过对搜索引擎工作过程和原理的分析,提出了网站设计中结构布局、页面设计和内容设计的优化策略,在网站设计中具有重要的应用价值。  相似文献   

16.
介绍了基于多Agent系统的智能搜索引擎中的多Agent之间的结构和关系,并针对各Agent如何相互协作以实现信息资源搜索的智能化提出了以系统Agent为核心的多Agent协作策略。  相似文献   

17.
互联网搜索引擎业务的发展对商标法产生了巨大的冲击,其中带来的一个热点问题就是搜索引擎公司涉嫌关键词检索广告商标侵权。广告发布者从搜索引擎商那里购买包括商标名称在内的词语供网络用户检索,并弹出自己产品或者服务的广告,这就引发了商标权的保护问题及搜索引擎商的商标侵权责任问题。大多数美国法院认为购买商标作为检索的关键词构成商标的商业使用,这种行为也是在消费者不知情的情况下进行的,消费者在网络上检索这些商标关键词时,有可能认为是获得了商标权人的授权或者是搜索的结果与商标权人有利害关系。尽管如此,美国法院迄今为止还没有判决此种行为构成商标混淆。  相似文献   

18.
在高校大学生就业形势极其严峻的背景下,高等师范院校毕业生这一特殊群体对及时准确的教师招聘信息更加渴望.因此高校研究建设教师招聘信息的垂直搜索引擎非常有必要.本文对垂直搜索引擎的工作原理以及关键技术模块进行分析,同时结合各类教师招聘信息网站的特点对关键技术中网络爬虫爬取策略进行改进,创建一个更具高效教师招聘信息价值平台.  相似文献   

19.
搜索引擎的发展概况与趋势   总被引:1,自引:0,他引:1  
搜索引擎是随着网上信息不断丰富应运而生的一种检索工具。1994年,Internet上诞生了第一个搜索引擎W ebCraw ler,通过对网页做索引来提供检索服务。2000年,Google的出现使搜索引擎市场发生了新的变化。近年来,中文搜索引擎的发展快,数量多。搜索引擎的发展有以下趋势:数据库小型化,专业化;强化全文检索功能;检索智能化、服务个性化;语种多样化;元搜索引擎的发展;搜索服务等。  相似文献   

20.
为了将推理与文本检索有效融合起来,提出了一种包含多类型查询的语义搜索引擎体系结构,在此基础上设计并实现了语义搜索引擎系统Smartch.Smartch基于合理的推理流程和图形化定制过程,提供4种形式的搜索服务,分别是基本搜索、概念搜索、图形化定制搜索及关联关系搜索.实验结果表明语义搜索引擎Smartch和传统搜索引擎相比,在本体推理的基础上,查全率和查准率上有一定的提高,图形化定制查询可准确定位用户需查询的概念,关联关系搜索可发现概念之间存在的复杂关系,Smartch实现了一定程度的智能搜索.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号