首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
首先说明利用加权XML数据模型分别得到标准XML参考实例和XML数据实例的方法,并对DTD约束修饰符的表达方法进行介绍。其次,详细阐述相似度算法的实现方法,重点说明在XML数据实例中寻找与标准XML参考实例的匹配节点算法和计算标准 XML参考实例与XML数据实例的相似度算法。最后,对相关实验及其结论进行总结。  相似文献   

2.
一种基于Native XML的全文检索引擎   总被引:5,自引:0,他引:5  
王弘蔚  肖诗斌 《情报学报》2003,22(5):550-556
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求  相似文献   

3.
XML是在数字化、网络化环境中,可满足各行业信息和知识组织、处理及数据交换的基础技术。文章首先给出了XML之纵览,即XML的基础标准规范和应用技术;其次,以语料构建和翻译记忆等领域为例,研讨XML在自然语言处理(NLP)行业中的应用;最后,给出有关XML应用的结论。  相似文献   

4.
XML文档的约束及其应用探讨   总被引:1,自引:0,他引:1  
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。  相似文献   

5.
XML文档素数编码具有较低的编码存储空间以及在XML查询中具有较高的效率,本文利用文档对象模型DOM提供的APIs设计了获取XML文档树对应的素数编码算法Prime-DOM,实验结果显示Prime-DOM算法能够给每个XML节点分配正确的素数编码。  相似文献   

6.
通过比较论述了在数字图书馆中运用 XML的优势 ,探讨了 XML作为通用媒介在数据发现与定位、分布式异构数据交换以及数据版权保护等方面的应用 ,提出了迁移到 XML需要考虑的一些问题  相似文献   

7.
XML在电子商务中的应用   总被引:1,自引:0,他引:1  
本文简要分析了XML优于HTML的特点及其在电子商务中应用的独特优势,阐述了XML与EDI的融合,并探讨了XML在电子商务中的三种应用:网络推播、供应链整合以及在MEC(移动电子商务)中的应用。  相似文献   

8.
XML 语言在数字化图书馆系统中的应用   总被引:2,自引:0,他引:2  
介绍了如何在数字化图书馆系统中运用XML语言的方法。并且说明了XML语言的特性及它与HTML语言的区别。利用韩国虚拟图书馆和信息系统(VINIS)中的一个子系统——基于XML语言的元数据搜索的实验系统来演示XML用法。元数据检索系统包括两个模块:搜索模块和浏览模块。搜索模块允许对储存在Access文件中的元数据进行搜索并且可以用XML语言的形式显示搜索结果,浏览模块允许浏览以XMUXSL文件形式存在的元数据。文章最后讨论了如何在数字化图书馆中更有效的运用XML语言。  相似文献   

9.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

10.
邓晓磊 《出版参考》2012,(15):16-17
正XML(eXtensible Markup Language可扩展标识语言)是国际上定义电子文件结构和内容描述的标准。XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言。虽然不同的应用软件也支持其他的数据交换格式,但不久之后他们都将支持XML,那就意味着程序可以更容易地与Windows、  相似文献   

11.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

12.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

13.
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。  相似文献   

14.
This study introduces a novel framework for evaluating passage and XML retrieval. The framework focuses on a user’s effort to localize relevant content in a result document. Measuring the effort is based on a system guided reading order of documents. The effort is calculated as the quantity of text the user is expected to browse through. More specifically, this study seeks evaluation metrics for retrieval methods following a specific fetch and browse approach, where in the fetch phase documents are ranked in decreasing order according to their document score, like in document retrieval. In the browse phase, for each retrieved document, a set of non-overlapping passages representing the relevant text within the document is retrieved. In other words, the passages of the document are re-organized, so that the best matching passages are read first in sequential order. We introduce an application scenario motivating the framework, and propose sample metrics based on the framework. These metrics give a basis for the comparison of effectiveness between traditional document retrieval and passage/XML retrieval and illuminate the benefit of passage/XML retrieval.  相似文献   

15.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

16.
XML retrieval is a departure from standard document retrieval in which each individual XML element, ranging from italicized words or phrases to full blown articles, is a retrievable unit. The distribution of XML element lengths is unlike what we usually observe in standard document collections, prompting us to revisit the issue of document length normalization. We perform a comparative analysis of arbitrary elements versus relevant elements, and show the importance of element length as a parameter for XML retrieval. Within the language modeling framework, we investigate a range of techniques that deal with length either directly or indirectly. We observe a length-bias introduced by the amount of smoothing, and show the importance of extreme length bias for XML retrieval. We also show that simply removing shorter elements from the index (by introducing a cut-off value) does not create an appropriate element length normalization. Even after restricting the minimal size of XML elements occurring in the index, the importance of an extreme explicit length bias remains.  相似文献   

17.
XML文档的数据库转换技术研究*   总被引:3,自引:0,他引:3  
概述目前XML的几种存储方法,简单分析科技论文的文档类型,最后采用SQL Server 2000对PDF格式的科技论文经元数据信息抽取后所生成的XML文档实现具体的XML的数据库转换。  相似文献   

18.
Most recent document standards like XML rely on structured representations. On the other hand, current information retrieval systems have been developed for flat document representations and cannot be easily extended to cope with more complex document types. The design of such systems is still an open problem. We present a new model for structured document retrieval which allows computing scores of document parts. This model is based on Bayesian networks whose conditional probabilities are learnt from a labelled collection of structured documents—which is composed of documents, queries and their associated assessments. Training these models is a complex machine learning task and is not standard. This is the focus of the paper: we propose here to train the structured Bayesian Network model using a cross-entropy training criterion. Results are presented on the INEX corpus of XML documents.  相似文献   

19.
本文在比较研究XML的DTD和Schema信息描述机制基础上 ,提出基于Schema模式的XAMC信息描述新方案 ,利用XMLSchema技术定义出MARCAMC数据的若干规则和限制 ,并将MARCAMC数据以一种XML文档XAMC的形式加以处理。最后将该研究付诸于XAMC网上信息发布与检索的实现  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号