排序方式: 共有171条查询结果,搜索用时 46 毫秒
41.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统. 相似文献
42.
链接分析中的数据采集技术研究 总被引:2,自引:0,他引:2
杨波 《图书馆理论与实践》2010,(10)
从网络计量学中链接分析研究的需求出发,设计了多种数据采集策略、链接分类和数据过滤规则,并开发了用于获取原生链接数据和搜索引擎数据的软件系统LinkDiscoverer,希望有助于解决网络信息计量分析研究中的数据可靠性问题。本文系统、全面地介绍了所采用的主要数据采集规则和技术策略,最后通过实证研究验证了该系统在链接分析上的良好表现。 相似文献
43.
基于P2P的分布式主题爬虫系统的设计与实现 总被引:1,自引:0,他引:1
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息. 相似文献
44.
45.
通过对教育游戏资源类网站特征的分析,提出教育游戏资源智能搜索系统。该系统定义了教育游戏的“元数据结构”,力求把分散在各地的教育游戏教学资源聚合组织起来,并为建设教学资源库提供一种新的思路。 相似文献
46.
47.
网络竞争情报主题采集技术研究 总被引:2,自引:0,他引:2
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。 相似文献
48.
介绍了当前的几种常用Web测试生成技术,提出了基于爬虫的Web测试生成技术,设计并实现了Web测试生成系统,该系统可以自动化完成爬取目标Web应用、处理分析爬取结果、生成测试用例、执行测试用例的功能,并且系统执行过程中输出的分析结果和测试用例可以被其他相关系统如测试覆盖分析系统利用。 相似文献
49.
在网络爬虫和关键字搜索的基础上,利用C#开发数据管理和收集服务,结合云服务思想,将服务器部署于Windows Azure,利用云计算方式,提高服务器运行效率和数据采集与筛选效率。 相似文献
50.