首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 398 毫秒
1.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

2.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

3.
针对许多网页排序算法都是面向内容,未考虑用户使用倾向的问题。提出一种基于链接访问的加权网页排序算法(WPSLA),基于链接访问(LA)为搜索引擎设计网页排名算法,并考虑网页入站链接的访问次数。采用加权页面排序(PS)算法为权重更高的页面分配更大的排名值,使得每个外链接获得一个与其受欢迎程度成比例的值,并通过链接的访问次数来计算和确定用户的使用趋势,分析用户的浏览行为。实验结果表明提出的算法性能优越,可以有效增加页面的相关性。  相似文献   

4.
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。  相似文献   

5.
多媒体主题搜索指在Web中搜索与主题相关的,并且包含多媒体的网页。目前各大搜索引擎(Google、百度)相继推出了多媒体搜索引擎,主要是利用网页中的相关文本提取描述多媒体信息的关键词进行多媒体信息检索,这种搜索引擎能够直接、快速地从Web中寻找多媒体资源。但所搜索得到的网页往往有大量的重复,根据中国互联网网络信息中心2008年发布的统计报告显示,  相似文献   

6.
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。  相似文献   

7.
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。  相似文献   

8.
针对教学网页这一特定领域,提出一个基于K近邻算法的教学网页自动分类模型。该模型采用向量空间模型对教学网页的特征进行量化,并采用基于K近邻的分类方法对新的网页进行自动归类。最后通过实验数据说明该算法在教学网页的分类中是有效。  相似文献   

9.
分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属主题概率,最终得到文档的排序。实验表明,该算法大大提高了用户的检索速度与质量,优化了搜索引擎的性能。  相似文献   

10.
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.  相似文献   

11.
用于改善web搜索的结构化数据抽取技术   总被引:1,自引:0,他引:1  
为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.  相似文献   

12.
搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术.不断改进搜索引擎的性能,提高搜索结果的查准率和查全率是搜索引擎发展的目标.其中对于搜索结果的排序是一个重要的研究领域.在对一些排序算法的研究和对校园网特点分析的基础上,提出了一种基于校园网搜索引擎的改进算法,结果证明能更好的计算网页相关度,提高查询效率.  相似文献   

13.
提出了一种利用web搜索引擎如Google自动完成本体映射的方法.该方法通过构造句法模式,利用web搜索引擎获得异构本体概念间的上下义关系,产生由本体概念对组成的初始候选映射集.根据本体的概念层次建立一个产生式规则集,从初始候选映射集中去除不符合本体语义的概念对,同时加入符合本体语义但未被初始候选映射集包含的概念对.最后,按照基于互信息的映射选取规则从候选集映射集中自动产生本体映射.实验结果表明,该方法的F-measure可达到75%~100%,能有效地完成本体之间的映射.  相似文献   

14.
Web spamming是指故意误导搜索引擎的行为,它使得一些页面的排序值比它的应有值更高.最近几年,随着web spam的急剧增加,使得搜索引擎的搜索结果也降低了一些等级.文章首先讨论了Spam的基本概念和影响,然后详细地分析了当前的各种Spamming技术,包括term spaming、link spamming和隐藏技术三种类型.我们相信本文的分析对于开发恰当的反措施是非常有用的.  相似文献   

15.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

16.
Deep web站点查询界面的潜在语义分析   总被引:1,自引:0,他引:1  
为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询界面里的表单属性进行潜在语义分析,从表单属性中挖掘出潜在语义结构,并实现一定程度上的降维.利用这种潜在语义结构,推断对应站点的数据内容并改善不同站点的相似度计算.实验结果显示,潜在语义分析修正和改善了deep web站点的表单属性的语义理解,弥补了单纯的关键字匹配带来的一些不足.该方法可以被用来实现为某一站点查找网络上相似度高的站点及通过键入表单属性给出拥有相似表单的站点列表.  相似文献   

17.
PageRank以某个网页被指向的链接数为基础得到网页的权值,网络搜索引擎以PageRank为基础对网页进行排序.一个完整的搜索引擎由搜索器、索引器、检索器和用户接口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域中对大量数据需要进行优先级排序的实际问题.  相似文献   

18.
提出了一个网络钓鱼防范系统,该系统由客户端过滤插件、后台分析中心和受保护网站3个逻辑组件构成.设计了一个基于图像的网页相似度检测算法,该算法首先将被检测网页转换为图像格式,然后采用迭代分割和收缩算法将原始图像划分为一组子图像集合,在计算子图像颜色直方图、灰度直方图以及大小参数的基础上,构建被检测网页的特征关系图(ARG),计算ARG之间的内部EMD距离,并通过计算2个网页ARG之间的外部EMD距离来标示网页之间的相似度,最终通过对不同网页之间相似度的分析检测出钓鱼网站.实验结果显示所提出的体系结构与算法具有良好的鲁棒性和可扩展性,可对钓鱼网页进行更加有效的检测.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号