首页 | 本学科首页   官方微博 | 高级检索  
     检索      

HTML到XML转换技术的研究与实现
引用本文:陈艳梅,张斌.HTML到XML转换技术的研究与实现[J].现代图书情报技术,2003(5):66-67,90.
作者姓名:陈艳梅  张斌
作者单位:1. 东北大学图书馆,沈阳,110004
2. 东北大学信息与工程学院,沈阳,110004
摘    要:网络上大多数的信息都是用HTML写的,这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,我们迫切希望来自网络资源的信息以一种结构化的方式来存贮。XML和它的各种扩展功能如数据模型、查询语言等是实现结构化方式的一种,是一种元语言,可以弥补很多HTML的不足。未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换.以更好地利用网络资源。本文提出了一种实现HTML到XML转换的方法。

关 键 词:HTML  超文本标记语言  XML  可扩展性标记语言  网络信息  信息描述  语言格式  转换技术

The Research and Realization of Technology Converting HTML to XML
Chen Yanmei.The Research and Realization of Technology Converting HTML to XML[J].New Technology of Library and Information Service,2003(5):66-67,90.
Authors:Chen Yanmei
Abstract:Nowadays, the whole world can possibly communicate with all different people by using web. Internet usually uses HTML, it cannot handle the various requirement of Internet and also express the data itself.To do so, information from web sources needs to be accessible in a structured way. XML and its various extensions are a step in this direction. Unfortunately, the web is not yet a well organized repository of nicely structured XML documents but rather a conglomerate of volatile HTML pages, for which structure has to be extracted.This thesis shows the design and implementation of a conversion system of HTML to XML
Keywords:Web wrapper  Information extraction  HTML parsing HTML to XML conversion  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号