排序方式: 共有171条查询结果,搜索用时 126 毫秒
61.
62.
为了提高网页数据抓取效率,降低爬虫对系统资源的消耗,提出了一种基于Chrome扩展的爬虫系统。利用Chrome浏览器对网页进行解析,防止被爬取对象屏蔽和网页异步加载问题,并且实现数据结构化;通过选择普通用户版〖JP〗扩展和服务器版扩展,既可以实现无人值守主动抓取,也可以在用户浏览网页的同时抓取信息。整个系统前后端分离,并且采用面向接口编程,具有良好的扩展性。通过从搜达足球网站抓取英超赛程,验证了程序的高效可行性。 相似文献
63.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
64.
随着互联网技术的飞速发展,农业类信息迅速充斥在互联网的各大网站,涉及到农林牧渔等各个领域的农业网站已近2万多个,然而对急需农业信息的部门、企业以及个人来说,农业信息的获取还是比较困难。信息的海量化与检索的困难化成为一对日益突出的矛盾,本文围绕这一对矛盾,对农业类搜索引擎包含的关键技术进行了研究。 相似文献
65.
在服务组合不断发展的大背景下,新生代RESTful Web服务逐渐展示出其优越的性能从而迅速占领大量服务组合份额。与此同时,由于其自身设计特点,RESTful Web服务没有类似UDDI的注册检索中心,也没有合适的描述语言。各大网站通常以开放平台的方式各自为营,使API信息难于机器检索,为更大范围的服务组合带来了困难。为了解决这个问题,这里探索了一种使用聚焦爬虫收集RESTful Web服务API信息以提供统一的集中检索服务的思路,使用RoadRunner算法设计并实现了一个聚焦爬虫,从概念上验证了这个思路的可行性。 相似文献
66.
67.
为了让教育不再受到时间和空间限制,同时让教学模式更加多样化,互联网与教育开始进行跨界融合,通过信息技术改变教育行业的教学方式及管理模式。设计一个基于微信小程序的云班课管理系统,前端使用JavaScript进行开发,后台使用node.js编写云函数,从而保证信息的安全性。利用Python的Scrapy框架编写爬虫代码,并将其架设在阿里云服务器上实现网络爬虫技术,采用环信的WebSocket实现即时通讯的聊天室功能。利用该小程序进行单元测试,100道测试题只需3s即能显示分数及错题详情。利用微信小程序搭建的学习平台为高校师生创建了一个线上与线下相结合的学习和教学环境,从而让师生不再受到时间与空间限制,因此有着广阔的发展前景。 相似文献
68.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。 相似文献
69.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。 相似文献
70.