排序方式: 共有160条查询结果,搜索用时 15 毫秒
111.
网络爬虫软件的研究与开发 总被引:1,自引:0,他引:1
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 相似文献
112.
垂直搜索引擎系统的设计与实现 总被引:1,自引:0,他引:1
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。 相似文献
113.
114.
115.
116.
专业搜索引擎的排序算法研究 总被引:5,自引:0,他引:5
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。 相似文献
117.
大数据背景下,科技资源发现和推荐的关键是建立海量、多类型科技资源间的关联,并对其进行相关度排
序。在深入研究科技基础性工作专项科技资源核心元数据的基础上,选择科技资源的内容特征、资源地点和资源时间
为关联要素。然后结合专家打分和层次分析法,提出了科技资源元数据语义相关度算法,建立了科技资源间的关联。
进一步按照相关度计算结果对科技资源进行排序,并将相关度高的科技资源优先推荐给用户。最后以科技基础性工作
专项项目汇交的科技资源元数据为例,开展了科技资源元数据关联与推荐的实践。本研究提出的方法为促进海量科技
资源的精准发现、智能推荐与共享应用提供了借鉴。 相似文献
118.
基于向量空间模型的多关键字检索技术 总被引:1,自引:0,他引:1
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,本文提出了一种改进的向量模型;针对Web信息检索的特点,给出了一种多关键字查询向量的构建方法。最后通过文档向量与查询向量之间的相关度对检索结果进行优化,提高查准率。 相似文献
119.
金玮 《太原理工大学高等教育研究》2007,25(4):16-21
1978年改革开放以来,中国西北部六省份在产权多元化、市场化程度、收入分配格局和对外开放程度等四项宏观经济制度方面发生了重大改进。基于这一事实,文章设计并实现了对此四项制度变迁的量化,通过灰色关联分析和回归分析,测度了四项制度变量对地区经济增长的边际影响率和弹性系数。 相似文献
120.
结合语义相似度与相关度的概念扩展 总被引:6,自引:0,他引:6
本文研究在本体构建的语义网环境下,量化领域概念的关联程度扩展概念,实现概念检索的问题.利用语义的层次结构和蕴涵关联计算语义相似度和相关度,并结合二者,提出语义扩展度的概念及计算方法,由此控制调整扩展概念集的范围和大小.经过实例计算与分析,验证并阐明了该方法的合理性、有效性及其特点. 相似文献