首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
虚拟图书馆中网页的自动分类研究   总被引:1,自引:0,他引:1  
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。  相似文献   

2.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

3.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

4.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

5.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

6.
针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。  相似文献   

7.
基于用户查询关键词的网页去重方法研究   总被引:2,自引:0,他引:2  
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。  相似文献   

8.
秦杰  谢蕙  王春云 《图书情报工作》2010,54(15):113-116
针对元搜索结果中的网页重复问题,把基于最长公共子序列(Longest Common Subsequence,简称LCS)的网页去重方法应用到元搜索引擎的去重中,提出基于SLCS(首字母S表示Summary)的元搜索去重方法。在获得网页文档摘要后,根据查询词在语句中出现的次数和语句长度,计算摘要语句集合中每个语句权重,提取权重最大的语句作为网页摘要特征语句,通过比较摘要特征语句间的LCS,计算出结果网页相似性,以提高元搜索引擎的检索质量,实验表明该方法具有较高的准确率。  相似文献   

9.
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。  相似文献   

10.
一种HTML网页净化方法   总被引:35,自引:1,他引:35  
张志刚  陈静  李晓明 《情报学报》2004,23(4):387-393
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。  相似文献   

11.
利用词语共现进行Ontology的概念获取   总被引:5,自引:0,他引:5  
作为大规模的语义知识资源库,Ontology在信息处理中具有重要的作用。但是,如何有效地构建Ontology却是一个重要的问题。对于自动构建Ontology的过程来说,首要的问题就是如何获取领域概念。本文尝试了一种利用词语共现获取领域概念的方法,用于支持领域Ontology的构建。该方法首先通过人工领域分析,获得起始领域概念,然后利用起始概念从语料库中抽取共现的概念,从而获取相关的概念知识。同时,本文以1998年1月份的人民日报语料库为语料,针对外交和体育两个领域,尝试从中提取相关的概念,从而检验利用词语共现获取领域概念的实际效果。  相似文献   

12.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

13.
针对本体系统中,知识的表现形式有限,OWL本身无法建立一般领域的规则,导致很多存在于社会关系本体中的隐含关系信息尚待挖掘的问题,将推理系统中的本体和规则相互分离,在社会关系领域本体的基础上,构建一系列SWRL规则以进行隐含关系的自动挖掘。在实验中,共定义22条关系规则,推理得出50条新的公理,由此进行社会关系本体的自动更新。  相似文献   

14.
从检索图书馆读者借阅记录入手,针对读者借阅记录的分类号进行频数统计和聚类分析,并依据获得的借阅兴趣类目构建读者阅读兴趣本体模型。使用SWRL规则描述语言构造推理规则,在Jess推理引擎中进行推理,实现读者阅读兴趣本体模型的动态更新。通过程序测试表明:挖掘流通数据、建立读者阅读兴趣本体模型、利用关系数据库数据和推理方法动态更新本体,是实现个性化荐书服务自动推送的可行方法。  相似文献   

15.
支持向量机在文本自动分类中的应用研究   总被引:3,自引:0,他引:3  
田晓宇  梁静国 《情报学报》2006,25(2):208-214
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

16.
王兴兰  宋文 《图书情报工作》2014,58(24):106-112
指出大数据时代的到来使自动分类再次受到人们的关注.总结现有的自动分类方法,介绍中国科学院文献情报中心的KOS引擎项目中的集成知识组织体系.在此基础上,改进BP神经网络算法,提出N-IKOS自动分类模型.最后,通过实验检验基于N-IKOS分类的准确性,通过基于BP神经网络的分类实验、基于KOS引擎的分类实验和基于N-IKOS的分类实验比较新模型在自动分类中的优劣.实验结果表明:该研究改进了原有的KOS引擎分类,可为自动分类领域提供新的思路.  相似文献   

17.
在对Web服务和Web服务合成的概念,以及OWL S提供的Web服务上层本体和基于本体的Web服务合成描述进行介绍后,指出OWL S对Web服务合成的描述能力有限,应针对Web服务合成进行基于本体的语义扩充。通过实例介绍如何在WSDL定义的概念基础上扩展得到基于本体的Web服务描述,在给出的Web服务定义的基础上讨论Web服务可合成性的定义,它是未来Web服务自动合成的前提和基础。  相似文献   

18.
一个基于本体的信息检索平台   总被引:4,自引:0,他引:4  
OntoText实验室的KIM项目是笔者经过实际考察,多方面比较分析后挑选出的比较有代表性的基于本体的信息检索应用实例。本文将对该系统进行深入剖析。  相似文献   

19.
本体分子是在本体的基础之上,结合描述逻辑、图论等相关理论,用于解决动态知识组织管理和控制的理论.本文提出将本体分子应用于数字图书馆领域,建立一个以本体、本体分子为核心数字图书馆知识组织四层模型.本文进而深入地探讨了其中动态知识组织层的实现机制.然后,本文在分析本体分子库结构的基础之上,详细介绍了本体分子建库工具的特点与功能.该建库工具能够较好地解决核子、离子和本体分子等知识组织问题.  相似文献   

20.
阐述智能检索中基于用户模型的本体映射方法,提出在实现智能检索系统目的下引入用户模型的改进的本体映射框架。从语义、语法两个方面详细介绍基于该框架组织结构的相似度的计算过程,最后提出独立匹配与组合匹配相结合的综合匹配策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号