首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
HTML到XML转换技术的研究与实现   总被引:2,自引:0,他引:2  
网络上大多数的信息都是用HTML写的,这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,我们迫切希望来自网络资源的信息以一种结构化的方式来存贮。XML和它的各种扩展功能如数据模型、查询语言等是实现结构化方式的一种,是一种元语言,可以弥补很多HTML的不足。未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换.以更好地利用网络资源。本文提出了一种实现HTML到XML转换的方法。  相似文献   

2.
XML的全称是eXtensible Markup Language.系指元语言.即制作语言的语言、可扩充组版语言。它是SGML(标准通用标记语言)的后继语言.而不是超文本HTML(超文本标记语言)的后继语言。仅仅使用XML毫无意义,但若不使用XML制作的语言则无法交换信息。  相似文献   

3.
本文介绍了XML(扩展型标记语言)的基本概念和其实现技术方法,通过实例说明了XML的结构化文档技术,类型定义方法。运用不同的XSL方式将XML中的数据用HTML格式表示出来,并在IE5.0下实际运行。文章对XML的应用前景作了讨论。  相似文献   

4.
SGML、HTML、XML的比较   总被引:2,自引:0,他引:2  
随着信息网络的飞速发展,相继产生了SGML、HTML和XML三种标记语言,了解和掌握它们之间的联系和区, 利于利用通用方式和元标识语言对电子文献的结构进行正确标记,实现对各类文献结构和内容的系统化标准化描述,从而建立起通用数字化文献。本文对三种标记语言SGML、HTML和XML的相同点和不同点进行了比较,指出XML是目前最易掌握和功能最强的标记语言。  相似文献   

5.
一种基于网页分割的Web信息检索方法   总被引:2,自引:0,他引:2  
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。  相似文献   

6.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

7.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

8.
针对信息检索角度的XML的结构化检索问题,利用基于倒排文件的方法,使用NEXI作为检索语言,在基于XML的数字图书馆检索实验系统WHU-XML上对其进行实现,并具体分析查询语言的解析方法以及所采用的结构化检索算法。  相似文献   

9.
计算机技术以及互联网络的普及和发展,推进了XML的发展,由于XML是采用标记语言风格,XML标签以及自定义的标签都可以具有一定的意义,同时,由于XML采用结构化的形式非常便于处理数据。目前使用XML表示的数据或者知识成为异构平台、异构系统和异构网络之间的数据交换形式。本文结合了几种应用来介绍基于XML的知识表示方法。  相似文献   

10.
王知津  赵洪 《图书馆杂志》2007,26(11):20-26
传统的关键词检索技术在文本检索和HTML文档检索上得到了广泛的应用,但它运用于检索XML文档时却不尽如意.为此,本文引入一种改进的遗传算法,对XML文档上的关键词检索进行了研究,提出了XML文档标记的自适应遗传训练算法与XML文档上关键词语义检索及结果排序算法.  相似文献   

11.
数字图书馆建设中的数据交换标准问题刍议   总被引:1,自引:0,他引:1  
从 XML技术脱颖而出的数据交换标准为建立可互用的数字化图书馆提供了数据交换的基本标准和信息展示的工具。重要的技术构件是用 XML Schema来建立电子图书数据标准目录 ;用 UML ,RDF和 XML来进行数据建模和数据描述 ;用 XML技术来创建客户机 /服务器接口的中间层语言 ,创建整合多种不同数据源的数据的转换格式、提供数据统一接口问题 ;用扩展样式表语言 ( XSL)和扩展样式表语言转换 ( XSLT)作信息系统间的数据转换和传输以及使用地理标记语言 ( GML)定义地理空间数据。本文认为 XML技术为数字化图书馆信息整合、资源共享、互用性提供了良好的基础  相似文献   

12.
XML 语言在数字化图书馆系统中的应用   总被引:2,自引:0,他引:2  
介绍了如何在数字化图书馆系统中运用XML语言的方法。并且说明了XML语言的特性及它与HTML语言的区别。利用韩国虚拟图书馆和信息系统(VINIS)中的一个子系统——基于XML语言的元数据搜索的实验系统来演示XML用法。元数据检索系统包括两个模块:搜索模块和浏览模块。搜索模块允许对储存在Access文件中的元数据进行搜索并且可以用XML语言的形式显示搜索结果,浏览模块允许浏览以XMUXSL文件形式存在的元数据。文章最后讨论了如何在数字化图书馆中更有效的运用XML语言。  相似文献   

13.
信息表现、信息系统的构成方式及其功能是信息学永恒的三大研究课题.具体到Web,可指Web信息资源的表现、Web上分散的Web服务器及网页的全文检索功能.由于HTML不能表现资源的内容含义、各个服务器上的资源单纯地通过Hyperlink相互连接,带来了全文检索精度低和Web系统间互操作性差等问题.同时,检索结果的再利用、满足个性检索等知识性功能相对较弱.文章针对学术信息,提出了结构化数字对象(Structured Digital Object,SDO)的概念,此概念综合表现了信息的粒度、构造、内容含义三个重要特性,并采用XML记述SDO(简称SDO/XML),设计开发了Web资源原型检索系统、设计了电子期刊和数字图书馆等典型的Web资源系统,在此基础上进一步设计和开发了可实现信息资源再利用和系统间互操作的Global Digital Library(GDL)原型系统.为达到上述目的,GDL原型系统中引入了Web Services和Topic Maps等相关成熟技术.在考察部分,讨论了应如何实现大规模系统的问题.  相似文献   

14.
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的Web应用,而且可以实现Web中的信息共享与交换。XML是"可扩展标记语言"的缩写。XML规格是由全球信息网标准制定组织(W3C)制定,并于1992年成为推荐规格,目前已有许多家厂商采用,且视为关键性技术,如Adobe、IBM、Microsoft、Netscape、Oracle、Sun等。目前许多新版的软件,如Navigator、Internet、Explorer及RealPlayer,都已经在软件内部使用了XML的技术。XML技术在Web数据挖掘中应用于以下几方面:  相似文献   

15.
XML及其在图书馆和情报检索中的应用   总被引:40,自引:4,他引:36  
与HTML 和SGML 相比, XML 更适合运用于Web 环境, 用以表达信息的语义和结构。XML 将对Web 产生重大影响, 并影响图书馆参与Web 信息资源组织和整理的方式。对HTML﹑SGML 和XML 进行了比较, 阐述了XML 影响图书馆的诸多因素, 并对用于检索XML 文档的情报检索技术和XML 对情报检索的帮助进行探讨。  相似文献   

16.
文章介绍了可扩展标记语言XML,与HIML和SGML相比,XML更适合运用于Web环境,用以表达信息的语义和结构。XML将对Web产生重大影响,并影响图书馆参与Web信息资源组织和整理的方式。阐述了XML影响图书馆的诸多因素。  相似文献   

17.
XML技术在档案馆数字化建设中的应用前景   总被引:1,自引:0,他引:1  
一、XML的内涵与技术特点 ML是Extensible Markup Language(可扩展性标记语言)的缩写。它是世界万维网协会正在制定的用于描述数据档中数据的组织和安排的结构语言,也是继HTML之后的一种新兴的因特网标准。由于XML具有极大的灵活性、通用性以及较强的功能等优越性,使得许多大型企业对XML的应用远景充满期待,并纷纷投入到对XML的应用开发中。  相似文献   

18.
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.  相似文献   

19.
WEB的数据挖掘   总被引:6,自引:0,他引:6  
潘卫东 《图书馆论坛》2004,24(1):79-81,94
文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对WEB数据的复杂性和特殊性,WEB的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对WEB页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。  相似文献   

20.
本文阐述了XML、RDF及Ontology等信息资源组织与检索的核心技术及其对于数字信息资源组织与检索的重要意义,指出XML是语义层面上通用的信息传输标准,是数字信息资源共享的基石;RDF提供了一个支持XML数据信息资源交换的结构,是数字信息资源描述和交换的基础;Ontology是数字信息资源检索与知识共享的基础。参考文献8。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号