首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

2.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。  相似文献   

3.
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。  相似文献   

4.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。  相似文献   

5.
针对互联网网内信息搜索效率低下问题,设计了以Redis数据库以及Map-reduce思想为核心的分布式搜索引擎框架。为了应对互联网信息时效性强、更新快、难以被准确检索的特点,基于该框架设计了分布式爬虫、分布式索引建立、分布式链接分析算法。该框架明显提高了信息处理的效率,为分布式搜索引擎的搭建提供有效模板。经过测试,与以基于其它主流框架搭建分布式搜索引擎相比,基于Redis的分布式搜索引擎在爬虫爬取、索引生成、链接分析性能方面均有提升。  相似文献   

6.
搜索引擎在网络应用中越来越重要,网络爬虫作为搜索引擎的重要组成部分成为近期的重要研究目标。本文介绍了一种构建简单分布式网络爬虫模型的方法,提供了行之有效的理论分析和算法。  相似文献   

7.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。  相似文献   

8.
胡鹏 《教育技术导刊》2017,16(4):111-113
互联网是信息的载体,随着信息量的迅速增长,给用户检索获取需要的互联网学习资源增加了难度和时间。因此,学习资源爬虫是亟待研究与解决的问题。实现学习资源爬虫系统的关键为:首先界定互联网学习资源的概念、类型、格式形态,然后设计学习资源爬虫结构以及抓取、解析、去重、下载功能,最后根据系统开发环境实现爬虫结果。借助webdriver、Firfox浏览器并结合反网络爬虫策略,解决动态网站脚本与服务器异步交互时的数据丢失问题,进行完整、自动、高效的批量内容下载,优化学习资源获取的准确率与效率,以获取更有价值的学习资源。  相似文献   

9.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

10.
为了提高网页数据抓取效率,降低爬虫对系统资源的消耗,提出了一种基于Chrome扩展的爬虫系统。利用Chrome浏览器对网页进行解析,防止被爬取对象屏蔽和网页异步加载问题,并且实现数据结构化;通过选择普通用户版〖JP〗扩展和服务器版扩展,既可以实现无人值守主动抓取,也可以在用户浏览网页的同时抓取信息。整个系统前后端分离,并且采用面向接口编程,具有良好的扩展性。通过从搜达足球网站抓取英超赛程,验证了程序的高效可行性。  相似文献   

11.
以何种策略来访问web资源是搜索引擎研究的热点之一。通过比较通用搜索引擎和专业搜索引擎的搜索策略,针对"最好策略"的几种策略方案进行了优缺点的分析,总结了关于提高网络爬虫搜索效率的关键,旨在使人们对爬虫的搜索算法有一个全面大概的了解。  相似文献   

12.
搜索引擎是互联网上应用最为广泛的工具,是用户寻找网上信息和资源的主要途径。搜索引擎营销已经成为网络营销最重要的组成部分。如何使自己的网站被主要的搜索引擎收录,并且得到较好的排名,成为网站建设者们不得不考虑的问题。文章首先阐述了搜索引擎的基本含义,然后介绍了搜索引擎优化的重要意义,最后提出了搜索引擎优化的策略。  相似文献   

13.
首先对Web数据搜索引擎技术进行了概述,在此基础上进一步阐述数据采集过程、Robot的搜索策略、HTML解析器基本算法及数据检索模型,最后指出目前搜索引擎存在的问题,提出未来搜索引擎的发展方向。  相似文献   

14.
面向主题Crawler的设计与实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础。  相似文献   

15.
针对专业网站术语繁多,网络搜索专业性强的需求特点,设计了一个无需输入、只根据用户上网浏览的信息特点,自动提取与发掘用户需求的导航引擎,避免因用户专业水平所限,而无法搜索到大量专业信息。详细介绍了导航引擎的核心信息挖掘模块的设计原理和启发式挖掘算法,并对设计的算法进行了测试与分析。  相似文献   

16.
网络上存在大量考研资讯,如何对这些考研信息进行有效采集、分析、筛选,对后续数据挖掘、数据分析有着举足轻重的作用。在分析 Scrapy 基础上,针对 Scrapy 框架无法下载 AJAX 动态页面的缺陷,提出一种采用 Scrapy-Splash 模块使 Scrapy 也能爬取 AJAX 数据的信息采集方案。通过对 Scrapy 框架 Request 的构造方法和 Response 跟进方法覆写,使 Scrapy Engine 能够向 Splash 发起渲染请求,接收渲染返回的 SplashResponse对象并对其进行调度。利用 Scrapy-Redis 框架设计了一套分布式网络爬虫系统,用于高效、稳定地获取中国研究生招生考试网中的数据。测试结果显示,获取的数据具有实时性和可靠性。  相似文献   

17.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

18.
搜索引擎能够帮助人们方便、快捷地从网上获取相应的信息,其逐渐地由传统搜索引擎向智能搜索引擎转变.本文提出一种基于HTML标签扩展方式的智能搜索引擎设计,通过扩展HTML标签,使搜索引擎能够与数据的发布者协作,利用扩展标签中的语义信息,提高分类的效率和实时性,并增强用户体验.  相似文献   

19.
针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为两大类:一类为拼音引起的错误,针对该类错误,参考并改进了基于拼音索引的中文模糊匹配算法进行纠错;另一类为多字、少字、异位及别字引起的错误,针对该类错误,设计了模糊匹配方法结合最小编辑距离方法进行纠错。经过实验验证,证明了该纠错方法的有效性,该方法能够一定程度上提升用户体验,满足实际工程需要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号