首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
六搜由深圳大学研发,当前在谷歌搜索英文"IPv6 search engine",六搜网站全球排名领先。六搜的研发在IPv6建设过程中,有必要建立一个专用的IPv6搜索引擎。因为:第一,专用IPv6搜索引擎可以集中体现IPv6网络上的资源,总的来说,IPv6网络的性能高过IPv4网络的性能,IPv6网站的速度也快过纯IPv4网站的速度。第二,其可以使用户熟悉IPv6。第三,可以从爬虫收集网页的数据中得到IPv6网站的数目,虽然不能保证每一个IPv6网站爬虫都能访问到,但也可以得  相似文献   

2.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

3.
铺设IPv4/IPv6“双行道”   总被引:1,自引:0,他引:1  
目前,大多数隧道机制都集中在解决IPv6边缘网络通过IPv4主干网互通的问题,而关于IPv4网络如何通过IPv6主干网互通问题的解决方案却很少提及。而且,由于当前IPv6网络还处于起步阶段,IPv6业务的大规模部署还有待时日,造成IPv6骨干网中的大量带宽闲置,利用隧道穿越IPv6骨干网来传输现有IPv4业务的数据也可以实现IPv6带宽资源的充分利用。因此大量的IPv4网络通过IPv6骨干网实现互联是目前研究的一个热点,  相似文献   

4.
垂直搜索引擎又叫专题搜索引擎、专业搜索引擎。主要研究了下一代的搜索引擎——垂直搜索引擎,并基于Lucene技术开发了一个垂直搜索引擎,对信息检索的速度和最终结果的排序都进行了改进。同时给出了专业网络爬虫Spider的算法。  相似文献   

5.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

6.
随着网络规模的日益扩大和IPv6技术的不断发展,在较长一段时期内会出现IPv4和IPv6共存的混合环境,在IPv4和IPv6环境的边界设置IPv4-IPv6组播网关,并通过此网关来传递组播数据是一个可行的方法.……  相似文献   

7.
本文以网络爬虫的分类以及其特点出发,探讨了当前网络爬虫在搜索引擎应用中的问题,比如搜索URL定位过程中的数据下载效率较低,出现下载过程中的CPU闲置,URL搜索策略不合理导致了URL重复等问题,并以此为依托,提出了相关策略,包括在数据传输过程中采用gzip/deflate压缩编码传输,异步非阻塞下载,提升CPU利用率以及规范化URL提取策略等,以此来提升网络爬虫在搜索引擎中的效率.  相似文献   

8.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。  相似文献   

9.
分析了IPv4向IPv6过渡的各种策略,重点研究了隧道技术原理.利用现有网络设备,构建了IPv6实验网络,通过隧道技术实现了多平台下的IPv6网络节点跨越IPv4网络的互联互通,并对实验数据进行了分析.为进一步研究和实现跨平台的IPv6网络应用打下了基础.  相似文献   

10.
IPv6协议已被公认为下一代互联网的核心协议.IPv4到IPv6的渐进式的演化过程中,必然会出现一个IPv4、IPv6双协议栈长期共存的过渡时期.分析了过渡时期网络方案的设计原则与目标,从工程角度给出了一种双协议栈逻辑层独立、物理层共享的设计方案,可以实现IPv4/IPv6两种协议栈的平滑升级与无缝集成.  相似文献   

11.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。  相似文献   

12.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。  相似文献   

13.
随着网络文化的普及,IPv4地址资源日趋紧张,通过实施IPv6可以解决这种紧张状况.根据IPv4到IPv6的升级转换机制,成功地利用目前Redhat8.0Linux操作系统对IPv6的支持,对IPv6网络的构建与实施过程进行探讨,顺利地实现了IPv4与IPv6通信.  相似文献   

14.
进入21世纪以来.互联网用户不断增多.规模不断扩大、应用不断增加,基于TCP/IP协议的iPv4暴露出其不足之处.尤其是匮乏的IPv4地址不能满足现代互联网的飞速发展,而IPv6的128位的地址长度可以提供充足的地址空间.能够解决IP地址短缺的问题。在1998年6月CERNET就已经加入了6Bone(全球IPv6实验床).2003年我国启动了CNGI项目.在全国各个高校取得了很好的效果.出现许多基于IPv6网络的互联网应用。今年年初,我们设计并构建了可以同时用于搜索基于IPv4和IPv6的的FTP站点的搜索引擎。  相似文献   

15.
随着科学技术的进步,人们已经进人到到人工智能与大数据的时代.在这个时代,云计算仍然起着核心作用,尤其是优质的云计算服务平台如C6C IPv6 IaaS云服务平台,可以高效处理人工智能计算和大数据问题.伴随着IPv4地址的耗尽,IPv6在云服务器平台建设中起到了重要的作用,基于一个全球单播的IPv6地址又可以组建内网,这...  相似文献   

16.
由Compass信息检索小组开发的IPv6搜索引擎目前能够索引遍布全球的将近8000个IPv6站点。同时,该搜索引擎还会定期更新一些与IPv6相关的统计信息,比如这些IPv6站点的国家分布、纯IPv6站点所占的比例、链接入度最多的前10个站点的统计等。IPv6搜索引擎系统是周期性运行的,其更新周期设置为2个星期。每个更新周期从一份站点列表开始,站点过滤模块会筛选出站点列表中支持IPv6的Web站点,同时去掉首页MD5值相同的镜像站点,由此得到一份IPv6站点列表。之后,国家统计模块会查询各个站点的国家信息,并显示在搜索引擎的Web主页上(http://comp…  相似文献   

17.
随着网络规模的日益扩大和IPv6技术的不断发展,在较长一段时期内会出现IPv4和IPv6共存的混合环境,在IPv4和IPv6环境的边界设置IPv4-IPv6组播网关,并通过此网关来传递组播数据是一个可行的方法。  相似文献   

18.
在校园网进行IPv6升级后,IPv6地址的无序性和安全性是一个比较突出的问题.为了解决这个问题,该文讨论了实施中的IPv4地址管理方案的特点,考虑如何沿用这个地址管理方案来管理IPv6地址.具体做法是使用IPv4用户管理系统中每个用户的VLAN号和校园卡号来构造IPv6用户地址,并使用该用户主机MAC地址在DHCPv6服务器配置文件中对该IPv6地址做绑定,从而使用户只能使用固定的IPv6地址上网,达到基于这个用户管理系统来管理IPv4/IPv6用户的目的.该方案的实施,将能加强IPv6网络的地址管理,为在校园网内推广IPv6网络应用奠定基础.  相似文献   

19.
搜索引擎在网络应用中越来越重要,网络爬虫作为搜索引擎的重要组成部分成为近期的重要研究目标。本文介绍了一种构建简单分布式网络爬虫模型的方法,提供了行之有效的理论分析和算法。  相似文献   

20.
在高校已经建成互通的纯IPv6网络中,通过运用IPv4 over IPv6隧道技术将高校中无法IPv6化的应用进行互联,为高校的IPv4业务拓展和资源共享提供了有效途径。随着国际互联网的不断发展,现存的IPv4网络的一些不足已经暴露出来:IPv4地址空间不足,骨干路由器维护的路由表项数量过大,不易进行自动配置和重新编址,不能解决日益突出的安全问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号