首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

2.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

3.
王知津  赵洪 《图书馆杂志》2007,26(11):20-26
传统的关键词检索技术在文本检索和HTML文档检索上得到了广泛的应用,但它运用于检索XML文档时却不尽如意.为此,本文引入一种改进的遗传算法,对XML文档上的关键词检索进行了研究,提出了XML文档标记的自适应遗传训练算法与XML文档上关键词语义检索及结果排序算法.  相似文献   

4.
用PDF制作可以用于光盘发布的电子出版物   总被引:2,自引:1,他引:1  
PDF文档是电子出版物常用的格式。图书情报部门可以自己动手制作电子出版物,本文介绍了用Acrobat制作PDF文档的方法,并对几种生成PDF文档的方法作了比较。  相似文献   

5.
PDF文档的个性化服务及其在图书馆中的应用   总被引:3,自引:0,他引:3  
PDF文档为创建者和阅读者提供了丰富的个性化服务,本文在此基础上阐述了PDF文档在图书馆中应用的优势,以及图书馆利用PDF文档开展各项服务的意义。  相似文献   

6.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

7.
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。  相似文献   

8.
随着我国出版产业转型升级的深入开展,数字图书出版领域形成了内容、渠道、终端相互连接的生态圈.文章通过分析"互联网+"时代数字图书品牌建设、产业链构成和版权保护法规政策三个方面的现状,从内容价值开发、内容管理、精准传播等方面提出创新数字图书市场运营的策略.  相似文献   

9.
PDF文档是电子校阅的首选方式,而方正大样转PDF文档的常用软件是方正文易。该文探讨了用Acrobat6.0将方正大样文件转成PDF文档的方法,避免了重复投资,适合使用频率不高的科技期刊编辑部使用。  相似文献   

10.
盛小平 《电子出版》1999,(12):14-18
本文在简要介绍SGML、PDF文档结构的基础上,对比分析了SGML(包括HTML、XML)和PDF在电子出版中的优缺点,探讨了基于SGML与PDF相结合的电子出版工作。  相似文献   

11.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

12.
基于XML的词典信息组织技术   总被引:3,自引:0,他引:3  
孙辉 《情报学报》2005,24(1):112-115
如何有效地组织词典信息,是词典数字化出版首要关注的问题。本文针对词典信息的特点,引入基于XML的文档组织技术,并探讨该XML数据库的存储方式和索引机制,设计一种存储XML文档的中粒度的关系数据库模式。  相似文献   

13.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

14.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

15.
XML文档和数据库的集成   总被引:1,自引:0,他引:1  
向桂林 《图书馆杂志》2002,21(7):47-51,64
本文首先阐述了需要把XML文档和数据库集成的原因;然后针对描述MBAR书目记录的XML文档,详细说明了把XML文档与数据库集成的办法;最后指出了转换过程中可能出现的一些问题。  相似文献   

16.
随着Web的发展,XML文档的应用越来越广泛。目前针对XML文档的查询处理.已有的查询策略往往需要判断结点的祖先/后代关系,因而对结点要进行编码。但是目前的编码技术.有的在文档更新时需要重新对XML文档进行编码,有的支持XML文档更新但需要庞大的存储空间。本文提出了一种基于层次结构的编码方案,不仅可以在线性时间内判断两个结点的祖先/后代关系,并且可以优化存储。  相似文献   

17.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

18.
XML文档的约束及其应用探讨   总被引:1,自引:0,他引:1  
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。  相似文献   

19.
PDF文档与多媒体电子图书   总被引:3,自引:0,他引:3  
李慧 《晋图学刊》2001,(1):23-25
介绍了PDF文档的结构与生成工具,讲述了PDF格式的多媒体电子图书的制作、管理和版权保护问题,并提出PDF格式的电子图书应成为图书馆的收藏目标之一.  相似文献   

20.
电子叙词表——结构性置标语言应用实例   总被引:1,自引:0,他引:1  
真溱 《图书馆杂志》2001,20(8):9-13
优秀的计算机辅助标引和著录系统应该是一个开放系统。电子叙词表作为这些系统的核心部件,应该积极引入SGML或者XML技术。本文从结构性置标的OHCO(有序树状内容对象)假设入手,结合国际标准ISO2788:1986,在详尽分析叙表结构的基础之上,设计出了它的文档类型定义(DTD),讨论了这一定义兼容SGML和XML的办法,比较了3种流行的XML工具,最后指出目前情况下XML应用的最后一步通常是形成HTML文档。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号