首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

2.
针对当前过滤方法过滤不良信息的缺陷和不足,建立并采用三重网页过滤模型,将健康信息推荐给用户,将带有不良信息的网页过滤掉。第一层过滤采用基于关键词匹配的方法,快速识别出健康网页,推荐给用户;第二层采用基于贝叶斯的过滤方法,将第一层不能匹配的网页进行二次过滤,快速淘汰分类特征明显的网页;第三层采用SVM方法将第二层不能识别的网页进行再次过滤。该模型能合理利用上述三种方法的优缺点,发挥各自优势,提高网页过滤的准确率和正确率。  相似文献   

3.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

4.
随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种传统结构化方法的不足,我们提出了一种面向基本信息单元(Basic Information unit)的网页解析方法。本文给出了BIU的定义,利用改进后的DOM解析工具生成了网页DOM树,通过剪枝和BIU识别等操作步骤,最终得到了以基本信息单元为粒度的网页结构,适合用于网页内容的提取。  相似文献   

5.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

6.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

7.
在分析与总结前人对网页中文字的提取方法研究的基础上,针对采用脚本限制提取文字的特殊网页,作了深入的研究和分析,提出多种限制的解除方法,并实现了对干扰码的过滤,使特殊网页文本的提取成为可能。  相似文献   

8.
网页语义标注研究综述   总被引:1,自引:0,他引:1  
郭少友  窦畅  常桢 《情报杂志》2015,(4):169-175
网页语义标注是指利用本体对蕴含在网页中的知识进行描述以便计算机和人均能理解。首先对网页语义标注的涵义、要求和形式进行分析,然后分别讨论静态网页和动态网页的语义标注方法,并对现有的标注工具进行总结,最后提出有待进一步研究的几个问题。  相似文献   

9.
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将切碎的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。  相似文献   

10.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

11.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

12.
DIV+CSS网页布局越来越多的被广泛应用于网页设计中,文章通过使用DIV+CSS技术制作一个网页页面详细说明DIV+CSS的使用方法。  相似文献   

13.
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

14.
随着互联网的快速发展,恶意网页所造成的危害也越来越大。对典型恶意网页进行了分析与分类,通过对现有的恶意网页检测技术的比较分类,分析了各种检测技术的优缺点。  相似文献   

15.
王成 《人天科学研究》2011,(10):126-127
随着Internet的飞速发展,恶意网页已经成为影响网络安全的主要问题之一。Rootkit是一种基于Windows分层驱动模型的技术。介绍了一种基于Rootkit技术的恶意网页防护系统的设计,对恶意网页防护的研究具有一定的参考价值。  相似文献   

16.
时念云  杨晨  滕良娟 《情报科学》2006,24(12):1841-1844
传统黄页服务在知识描述方面采用的是基于语法层面的描述,而缺乏对话义的表示、处理等能力,这就导致了目前黄页服务质量低下的缺陷。该文提出使用语义Web技术和Web服务相结合的语义Web服务来解决该问题,即构造语义级别的黄页服务。最后说明了语义Web服务在黄页服务中的应用现状和设想。  相似文献   

17.
基于页面链接挖掘的Web教育信息检索   总被引:2,自引:0,他引:2  
王成云  王乐乐 《情报科学》2004,22(4):475-477,487
教育信息检索是教育信息应用于教育科研与教育教学的关键环节,而Web页面链接挖掘是对Web页面之间的链接结构进行挖掘。本文对Web链接结构挖掘在教育信息检索方面上进行了研究,介绍了Web挖掘的概念、分类,以及HITS与Page—rank等算法,并提出了一种基于样本模式特征提取的信息检索方法。  相似文献   

18.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

19.
Flash在网页设计中的应用   总被引:2,自引:0,他引:2  
本文介绍了网页中嵌入Flash动画的几种方法,并通过示例进一步说明了在网页中如何插入Flash动画,最后对网站建设中如何使用Flash技术做了阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号