排序方式: 共有171条查询结果,搜索用时 15 毫秒
161.
162.
基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。 相似文献
163.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。 相似文献
164.
165.
166.
随着信息化技术及云计算技术的发展和普及,企业的传统客户关系管理和拓展方式弊端日益凸显,亟需通过信息化技术来提高效率.通过获客系统,能够整合网络信息资源及企业客户资源,助力企业的发展.论文详细的描述了为中小企业量身定做,设计一套基于公有云的,面向中小企业的获客系统,以此解决企业中的问题.系统是基于公有云的B/S系统架构,... 相似文献
167.
利用网络爬虫(Python)软件在链家网上抓取22700条合肥市二手房微观数据的交易信息,构建特征价格模型,分析整体样本和分类样本(主城区和非主城区)分别对合肥市二手房房价的影响因素的差异。研究结果得出,特征价格模型中所包含的三种模型中,对数模型的拟合度最高;整体样本和分类样本对二手房房价影响程度具有差异性;影响因素中周边是否配备地铁对总体样本和主城区样本的影响最显著,二手房建筑面积对非主城区样本影响最显著。研究结论可为二手房交易价格特征探索以及居民投资和消费需求提供参考。 相似文献
168.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨. 相似文献
169.
邓子云 《南方职业教育学刊》2021,11(1):95-102
为能对全国高职专业点设置作大数据分析,需要设计与实现一个爬虫来爬取全国职业院校专业设置管理与公共信息服务平台中的专业点设置和专业名录数据.为此,给出了该爬虫的功能架构和技术架构、数据库设计的ER图和数据表.设计并实现了该爬虫的项目管道、数据项、网站爬虫、异常处理中间件、伪装中间件等技术模块,使用该爬虫爬取了275,87... 相似文献
170.
杨猛 《上海师范大学学报(哲学社会科学版)》2023,(5):115-123
爬虫技术的广泛应用,使得衍生性数据保护面临更多刑事风险。一方面,数据种类多元发展导致数据权利主体的权利内容和法律责任发生变化;另一方面,网络爬虫技术作为犯罪工具加剧了手段行为与目的行为之间的互相渗透,呈现出“抓取+N”的行为模式。基于衍生性数据的特殊性及爬虫技术的升级增大了立法对衍生性数据保护的难度,在一般违法性不明确的前提下,现有罪名无法针对衍生性数据犯罪进行解释适用。谦抑性视角下,在完善前置数据保护立法的基础上,应当从爬虫犯罪的具体行为模式入手,分别探究爬取衍生性数据犯罪三方主体的刑事责任。 相似文献