首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
随着就业压力日渐增加,准确全面地获取数据可以帮助高校学生规避就业风险、正确认识自身价值,具有相当重要的研究价值。基于Python的网络动态招聘数据抓取方案利用requests库抓取Ajax异步请求多页数据源,抓取的内容更为全面;对抓取到的招聘数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。该方案抓取的网络资讯在科研、求职等方面具有一定实用价值。  相似文献   

2.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

3.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

4.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

5.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。  相似文献   

6.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

7.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

8.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

9.
张皓  周学广 《教育技术导刊》2013,12(11):135-137
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

10.
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。  相似文献   

11.
用Python语言来编写多线程代码可以使代码的运行效率大大提高,以便更好的利用计算机的资源.但是Python多线程代码在运行的过程中有着不确定性会导致很难发现代码中的潜在错误,影响到代码的正确性和健壮性.本文利用Petri网对一个Python多线程程序建立模型,并且通过对该模型的结构和行为进行分析从而对程序中的错误来进行定位,然后分析引发错误的原因并给出其解决的方案.  相似文献   

12.
胡鹏 《教育技术导刊》2017,16(4):111-113
互联网是信息的载体,随着信息量的迅速增长,给用户检索获取需要的互联网学习资源增加了难度和时间。因此,学习资源爬虫是亟待研究与解决的问题。实现学习资源爬虫系统的关键为:首先界定互联网学习资源的概念、类型、格式形态,然后设计学习资源爬虫结构以及抓取、解析、去重、下载功能,最后根据系统开发环境实现爬虫结果。借助webdriver、Firfox浏览器并结合反网络爬虫策略,解决动态网站脚本与服务器异步交互时的数据丢失问题,进行完整、自动、高效的批量内容下载,优化学习资源获取的准确率与效率,以获取更有价值的学习资源。  相似文献   

13.
为了提高网页数据抓取效率,降低爬虫对系统资源的消耗,提出了一种基于Chrome扩展的爬虫系统。利用Chrome浏览器对网页进行解析,防止被爬取对象屏蔽和网页异步加载问题,并且实现数据结构化;通过选择普通用户版〖JP〗扩展和服务器版扩展,既可以实现无人值守主动抓取,也可以在用户浏览网页的同时抓取信息。整个系统前后端分离,并且采用面向接口编程,具有良好的扩展性。通过从搜达足球网站抓取英超赛程,验证了程序的高效可行性。  相似文献   

14.
爬虫技术的广泛应用,使得衍生性数据保护面临更多刑事风险。一方面,数据种类多元发展导致数据权利主体的权利内容和法律责任发生变化;另一方面,网络爬虫技术作为犯罪工具加剧了手段行为与目的行为之间的互相渗透,呈现出“抓取+N”的行为模式。基于衍生性数据的特殊性及爬虫技术的升级增大了立法对衍生性数据保护的难度,在一般违法性不明确的前提下,现有罪名无法针对衍生性数据犯罪进行解释适用。谦抑性视角下,在完善前置数据保护立法的基础上,应当从爬虫犯罪的具体行为模式入手,分别探究爬取衍生性数据犯罪三方主体的刑事责任。  相似文献   

15.
网络舆情具有自由发布、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。  相似文献   

16.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

17.
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。  相似文献   

18.
网络上存在众多新闻门户网站,新闻信息繁多,造成严重的新闻信息过载。针对该类问题,设计一个基于Python的网络新闻信息搜集与检索系统。该系统通过使用Scrapy网络爬虫框架进行网络新闻信息搜集,同时对新闻链接、标题进行去重,最后使用Slor检索服务对爬虫获得的新闻数据进行全文检索。与传统方法相比,该系统设计的去重方法在保证链接不重复的情况下,对标题进行去重,并引入Solr检索服务,可以帮助读者更快速地找到想要阅读的新闻。  相似文献   

19.
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。  相似文献   

20.
基于Python爬虫爬取的数据,文章采用文献计量分析法对过去40多年里CNKI和Google Scholar收录的壮语词汇研究相关文章共270篇进行量化分析.主要从总体趋势、研究投入情况、研究主题和文献引用情况四个维度进行多角度讨论,探讨国内外壮语词汇研究的基本现状,旨在为今后壮语和壮语词汇研究提供参考和可靠数据支持.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号