共查询到20条相似文献,搜索用时 562 毫秒
1.
提出一种基于协方差特征爬虫的网页语义概念树构建方法,引入语义概念决策树算法进行主特征建模,根据语义三叉特征决策树概率正则训练迁移法则,得到决策树网络节点最近时刻获得的数据集有效特征概率,采用协方差特征网页爬虫进行网页语义概念树构建算法的改进。通过协方差特征爬虫,进行自相关成分的独立快速分离,得到语义自相关检索编码,实现网页语义概念树构建指导信息检索。仿真结果表明,该算法能有效进行数据挖掘和网页语义概念树的构建,为信息定位提供了最优分叉路径,从而实现对主题热点信息的准确检索和定位,算法具有较好的网页召回和定位检索性能,数据召回率提高明显,展示了较好的应用价值。 相似文献
2.
高效的Web页面语义标注方法是提高Web信息资源利用效率和知识创新的关键。针对当前Web页面语义标注方法存在的问题和Web页面表现出的结构特征和文本特征及其主题分布规律,设计了基于PLSA主题模型的Web页面语义标注算法。该算法分别对Web页面的结构特征和文本特征构建独立的PLSA主题模型,采用自适应不对称学习算法对这些独立的PLSA主题模型进行集成和优化,最终形成新的综合性的PLSA主题模型进行未知Web页面的自动语义标注。实验结果表明,该算法能够显著提高Web页面语义标注的准确率和效率,可以有效地解决大规模Web页面语义标注问题。 相似文献
3.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。 相似文献
4.
5.
6.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中. 相似文献
7.
网络爬虫软件的研究与开发 总被引:1,自引:0,他引:1
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 相似文献
8.
9.
随着互联网技术的不断发展,用户收集和分析与特定主题相关的网页显得越来越困难.该文提出了面向主题的WWW信息的分类系统(WICS),该系统可以高效地收集网页,然后进行分类,最后将搜索结果呈现给用户.该文在分析典型的搜索引擎的基础上,介绍了Web文本挖掘,并将其应用到系统中.原型系统中使用了文本预处理、索引、倒排文件和向量空间距离测度等枝术、算法.初始实验表明,用原型系统进行Web信息分类,为用户获取信息提供了很大的方便,提高了搜索结果的相关性和精确度. 相似文献
10.
11.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。 相似文献
12.
13.
本文详细介绍了面向计算机教育资源的垂直搜索引擎的体系结构,重点叙述了构成垂直搜索引擎的主题爬虫的爬行策略、主题相关度算法和主题词库的设计策略。实验结果表明:软件系统中Heri-trix的最大响应时间是0.563秒,查询精度和主题相关度判别算法的精度均达到了60%以上,可以面向Web加以应用。 相似文献
14.
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作——军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了军事主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。 相似文献
15.
应用领域本体的Web信息知识集成研究 总被引:2,自引:0,他引:2
缺少领域知识而进一步提高Web信息检索的质量是困难的,知识集成能够发挥重要作用。本文首先分析了目前Web用户信息利用的现状,研究领域本体与知识集成的方法,然后结合Web网页文档的特点及本体知识,给出一种基于领域本体的Web信息个性花集成方法,能够提高Web信息检索和用户利用的效率。 相似文献
16.
Web信息检索系统中的网页质量分析方法评价 总被引:1,自引:0,他引:1
改进对高质量网页的检索精度,将会极大提高Web信息检索系统的用户满意度。首先提出了信息检索中的“有用性”指标,并据此论述了基于网页质量分析方法的Web信息检索模型,然后提出了网页质量直接测度指标和网页质量间接测度指标。最后,详细介绍了各种网页质量指标的相关研究内容和方法,并做出了针对性的评价。 相似文献
17.
18.
19.
采用网络协议爬虫方法对Web网页跨站脚本的动态污点Bug进行检测和数据补齐,根本上保证Web安全。传统方法采用主成分分析和驱动爬虫方法进行Bug数据补齐,当用户提交的数据没有经过严格的过滤和验证的时,Bug漏洞不能得到有效检测。提出一种基于向量空间动态污点传播模型的Web协议爬虫算法,实现对动态污点Bug检测与数据补齐,构建向量空间模型,计算Bug数据和漏洞检测中的模糊关系的隶属度,提取动态污点Bug数据模态特征进行网络爬虫,优化对动态污点数据的检测性能。仿真实验结果表明,该算法能提高数据补齐的准确性,聚类性好,收敛性提高,保证了系统安全防御的实时性,在Web程序安全设计中应用前景广阔。 相似文献