排序方式: 共有170条查询结果,搜索用时 218 毫秒
101.
随着互联网的发展,当今网络的规模变得十分庞大,网络数据呈现海量发展趋势,获取互联网中各类型的信息数据,来作为当前互联网舆情信息监测和分析的原始依据,已经成为该领域的热点话题.因此本文设计一种基于云计算平台的主题网络爬虫,来对庞大互联网海量数据的采集、主题识别有着重要的意义. 相似文献
102.
提出一种基于协方差特征爬虫的网页语义概念树构建方法,引入语义概念决策树算法进行主特征建模,根据语义三叉特征决策树概率正则训练迁移法则,得到决策树网络节点最近时刻获得的数据集有效特征概率,采用协方差特征网页爬虫进行网页语义概念树构建算法的改进。通过协方差特征爬虫,进行自相关成分的独立快速分离,得到语义自相关检索编码,实现网页语义概念树构建指导信息检索。仿真结果表明,该算法能有效进行数据挖掘和网页语义概念树的构建,为信息定位提供了最优分叉路径,从而实现对主题热点信息的准确检索和定位,算法具有较好的网页召回和定位检索性能,数据召回率提高明显,展示了较好的应用价值。 相似文献
103.
从"985工程"高校图书馆微信公众号推送文章及其相关数据出发,采用基于Python语言的爬虫程序获取36所高校推文数据作为样本数据,使用Tableau绘制有关图表,并结合微信传播指数(WeChat Communication Index,WCI),分析"985工程"高校图书馆微信公众号推送文章的特征及规律,由此提出改进建议。 相似文献
104.
基于ID3分类算法的深度网络爬虫设计 总被引:1,自引:0,他引:1
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。 相似文献
105.
邱燕 《安庆师范学院学报(社会科学版)》2019,38(2):95-100
网络负面口碑影响旅游目的地的形象和游客的消费选择。及时关注本地区网络负面舆情,对于加强旅游监督管理,塑造良好的旅游城市形象具有重要的作用。构建网络负面口碑搜索关键词体系,运用网络搜索爬虫技术爬取负面舆情信息,根据负面信息数量计算旅游城市网络负面口碑指数,为旅游服务质量评价提供新的方法。研究表明,样本城市网络负面信息数量与游客出行量高度正相关,网络负面口碑指数与游客满意度之间呈较强的负相关关系。 相似文献
106.
企业数字资源整合系统的设计与实现 总被引:2,自引:0,他引:2
随着企业对竞争情报的重视,越来越倾向于购买和共享各种数字资源,然而,如何整合这些电子资源,为用户提供更好的服务,是需要重点解决的问题.针对这一现状,提出了企业数字资源整合系统,实现了对各类异构数据库的有效整合,满足各层面用户的信息需求. 相似文献
107.
108.
文章设计了一种根据简单关键词从电商平台获取同类商品基本信息及其评论的爬虫模型,基于Python语言丰富而强大的标准库和第三方库,通过多种爬虫技术相互配合,从爬取技术、爬取流程、反爬机制3个方面综述了该模型的实现过程。 相似文献
109.
网络上存在大量考研资讯,如何对这些考研信息进行有效采集、分析、筛选,对后续数据挖掘、数据分析有着举足轻重的作用。在分析 Scrapy 基础上,针对 Scrapy 框架无法下载 AJAX 动态页面的缺陷,提出一种采用 Scrapy-Splash 模块使 Scrapy 也能爬取 AJAX 数据的信息采集方案。通过对 Scrapy 框架 Request 的构造方法和 Response 跟进方法覆写,使 Scrapy Engine 能够向 Splash 发起渲染请求,接收渲染返回的 SplashResponse对象并对其进行调度。利用 Scrapy-Redis 框架设计了一套分布式网络爬虫系统,用于高效、稳定地获取中国研究生招生考试网中的数据。测试结果显示,获取的数据具有实时性和可靠性。 相似文献
110.