首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

2.
深入研究一系列保持完整性约束的关系模式到XML Schema的转换规则和算法,对转换规则和算法中的不足进行补充完善。针对转换后XML Schema中存在基于XPath相对路径无效查询问题,提出在模式转换过程中建立相应索引文件的方法。文中给出了应用实例,说明对XML Schema查询时可以获取关系结构信息,提高查询效率。  相似文献   

3.
基于加权XML模型的个性化产品推荐方法   总被引:1,自引:0,他引:1  
提出一种基于加权XML数据结构的用户兴趣模型构建方法,对于其中的每个XML节点都增加了表达用户个性化信息的权值,并据此设计一种对加权XML模型进行相似度比较的算法。最后,详述基于此用户兴趣模式的个性化产品推荐系统的实现方法。  相似文献   

4.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

5.
XML文档自动聚类研究   总被引:6,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

6.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

7.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

8.
基于加权XML数据模型的个性化本体研究   总被引:1,自引:0,他引:1  
随着近年来个性化服务技术的广泛应用和快速发展,个性化加权本体逐渐受到学者的广泛关注.虽然利用个性化加权本体可以更为有效和精确地表达用户兴趣模型,但是相关的设计实现方法仍需进一步研究.文章首先介绍加权XML数据模型的概念和相关特点,并利用"同构异值"的权值赋值策略设计了一种基于加权XML数据模型的个性化本体构造方法.然后从节点内容、层次结构和权值分配三个方面对其模式表达方法进行了详细介绍,其中重点介绍了权值分配策略及其原理.最后,给出了该种个性化加权本体的相似度比较算法,并对相关测试实验做了必要的说明.  相似文献   

9.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

10.
本文介绍了XML(扩展型标记语言)的基本概念和其实现技术方法,通过实例说明了XML的结构化文档技术,类型定义方法。运用不同的XSL方式将XML中的数据用HTML格式表示出来,并在IE5.0下实际运行。文章对XML的应用前景作了讨论。  相似文献   

11.
基于传统文本检索系统的XML索引实现研究   总被引:3,自引:0,他引:3  
陆伟 《情报学报》2006,25(6):679-685
作为重要的信息交换与存储标准,XML得到学者们越来越多的重视。作为XML检索研究的重要组成部分,XML索引机制与实现的研究已经取得了一定的研究成果。然而,大部分研究都是基于数据库及专门的半结构化管理器之上的。本文提出了如何在传统文本检索系统Okapi的基础上构建XML索引的方法。首先介绍了Okapi的索引结构,在此基础上,深入探讨了XML索引的存储结构及实现,并对索引的性能进行了评价。  相似文献   

12.
针对学位论文服务体系建设过程中出现的数据格式不统一、数据不规范问题,提出元数据交换标准,介绍利用XML技术实现这一标准,进而提出解决问题的方案。  相似文献   

13.
新一代WEB技术层:XML   总被引:3,自引:0,他引:3  
黄晨 《图书馆杂志》2001,20(3):24-26
可扩展标记语言(XML)是万维网协会(W3C)定义的用于优化Web上的传输的SGML的子集,它是一种元标注语言,提供一种描述结构数据的格式,本文讨论使用XML作为数据的标准格式,Web发展的趋势是数据集成和管理,而只有利用XML才是解决这一问题的关键。  相似文献   

14.
In this paper we evaluate the application of data fusion or meta-search methods, combining different algorithms and XML elements, to content-oriented retrieval of XML structured data. The primary approach is the combination of a probabilistic methods using Logistic regression and the Okapi BM-25 algorithm for estimation of document relevance or XML element relevance, in conjunction with Boolean approaches for some query elements. In the evaluation we use the INEX XML test collection to examine the relative performance of individual algorithms and elements and compare these to the performance of the data fusion approaches.  相似文献   

15.
XML是在数字化、网络化环境中,可满足各行业信息和知识组织、处理及数据交换的基础技术。文章首先给出了XML之纵览,即XML的基础标准规范和应用技术;其次,以语料构建和翻译记忆等领域为例,研讨XML在自然语言处理(NLP)行业中的应用;最后,给出有关XML应用的结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号