首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 671 毫秒
1.
随着Web信息抽取的研究和发展,抽取技术已经逐渐成熟,通过软件来实现从Web页中抽取所需要的信息已成为可能。对基于.NET技术实现的Web信息抽取系统进行了研究,分析并提出了HTML文档下载和清理、HTML到XML格式转换、数据定位及抽取、抽取数据的保存等需要研究解决的关键技术问题,并探讨了相应的解决方案。  相似文献   

2.
随着我国的科学技术水平的发展,Internet技术也得到了迅速的普及和发展。面对着互联网上海量的信息量,要想准确的找到我们所需要的信息是很困难的,而网络搜索引擎在精确度上又不是很高,用户对其也很难对其真正的满意。而在这种背景下,Web数据挖掘技术就应运而生了。现阶段,我国的大多数网站都是采用HTML建设的,其结构性较差,给Web数据挖掘工作也带来了很多的不方便。而XML语言的出现就很好的改变了这一问题,其层次性和结构性较好,当组织网络页面采用XML语言后,再进行Web数据挖掘工作时也是非常方便的。本文便对Web数据挖掘技术的概念、Web数据挖掘技术面对的主要问题以及XML语言在Web数据挖掘中的应用分析三个方面的内容进行了详细的分析和探讨,从而详细的论述了Web数据挖掘技术中XML语言的应用情况。  相似文献   

3.
以往的HTML简化了在Internet浏览器上显示信息的方式,而XML则定义了信息如何结构化。在Web上显示数据的传统技术包括使用通用网关接口(CGI)和带有数据库标记的Java服务页面(JSP)。然而,XML文档在这方面有独一无二的优点,因为它们的显示与信息是分开的,所以不增加任何程序,就可以使XML文档以不同的格式(由XSL样式指定)在各种设备上显示。  相似文献   

4.
邱金鹏 《科技通报》2019,35(10):133-136
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。  相似文献   

5.
与HTML相比,XML更适合运用于Web环境。本文讨论了XML的特点及其在MARC书目数据格式描述中的应用,并对基于XML的数字图书馆信息资源管理模式进行了探讨。  相似文献   

6.
运用XML这一成熟的技术,提出了一个基于Web的挖掘模型和抽取方法,并对该模型和数据抽取方法进行了分析与测试。  相似文献   

7.
语义Web上DC元数据的描述及抽取技术   总被引:3,自引:2,他引:3  
郭瑞华  张玉莉 《现代情报》2005,25(6):212-214
本文对语义Web上DC元数据的描述方法进行了分析研究。指出经XML和RDF/XML描述后的DC元数据具有了语义标注,在网络资源抓取器、XML解析器和XML包扫描器等协同工作下,可实现语义网上数据的自动抽取功能。  相似文献   

8.
Web的数据挖掘是一项复杂的技术,而XML的出现为解决Web数据挖掘的难题带来了机会。本文从XML与Web的关系、XML在Web中的应用两方面入手深入浅出地探讨了如何利用XML解决面向Web数据交换、数据处理等方面的成功运用来解决Web上的数据挖掘。  相似文献   

9.
汪全莉 《情报杂志》2008,27(5):92-94
分析了Web数据挖掘所面临的问题,并就XML对Web数据挖掘的适应性进行了分析,最后就XML语言在Web数据挖掘中的应用进行了探讨.  相似文献   

10.
Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上.  相似文献   

11.
车婧 《科教文汇》2012,(21):84-85
XML技术作为一门新兴技术,在许多领域都得到了广泛的支持并有着广阔的应用前景。作为数据表示的一个开放标准,XML语言给Web应用乃至网络计算注入了新的活力,其与HTML、SGML以及关系数据库之间的关系也是值得探讨的。本文通过"基于XML的公交查询系统设计"这样一个实例的制作来具体详细地阐述XML在Web上的广泛具体的应用。  相似文献   

12.
XML技术作为一门新兴技术,在许多领域得到广泛的支持并有着广阔的应用前景,其与HTML以及关系数据库之间的关系是值得探讨的。本文得出结论:XML并不是要替代HTML和关系数据库。HTML、关系数据库及XML将凭借各自的特点继续适用于其合适的领域。  相似文献   

13.
数据在不同信息系统之间传递的集成方案是当前企业信息化研究的重点,同时也是突破企业信息孤岛的有效手段,因此如何有效使用集成技术控制数据的输入和输出成为企业是否能成功实施信息系统的关键指标。在以往研究的基础上,从技术角度出发提出把XML编程语言作为底层数据库实现信息集成的关键阀门,突破了仅从应用层实现的信息集成局限,为今后企业有效实施信息集成提供了方便、可行的技术支撑。  相似文献   

14.
WebClass is a system that allows Web users to create personalised conceptual data which is dynamically merged with original HTML source by a specialised proxy server. This allows groups of users to share ‘views’ of the World Wide Web that include conceptual information such as annotations and subject information. WebClass records paths followed by users during Web exploration. Graph traversal operators can be used to answer a variety of questions about explored regions of Web space.  相似文献   

15.
基于XML/SOAP的校园信息共享方案的研究与设计   总被引:2,自引:0,他引:2  
杜娟 《现代情报》2009,29(7):76-78,84
研究了使用XML结合SOAP、WSDL等技术解决校园信息化建设中数据重复和信息孤岛等问题的方案。首先进行数据建模,将校园异构系统信息表述为标准的XML格式,通过SOAP封装、WSDL描述实现对信息的请求、响应和传输,解决校园分布式环境下数据格式不一致的难题,实现异构系统之间的通讯,实现的资源共享。  相似文献   

16.
韩毅 《情报科学》2003,21(12):1320-1322
数字图书馆在WWW上进行相应的信息展示与提供,基于HTML的文档标记使信息查寻遇到了很大的挑战。本文提出了基于XML的搜索引擎逻辑结构,并对其中的关键技术进行了研究,提出了对XML半结构化文档建立索引和查寻时采用的数据结构和算法,使得数字图书馆在WWW上开展深层次信息提供成为可能,并且也使图书馆原有的MARC信息资源能得到充分利用。  相似文献   

17.
连瑞梅 《科技广场》2007,(7):108-110
XML安全技术能保证被传输数据的完整性、真实性、不可否认性,可以解决用XML表示的信息在网络数据交换中存在的安全性问题,能有效增强Web资源的安全性。基于此提出了使用XML加密机制来保证XML信息的安全性,并就如何加密XML信息进行了详细的讨论。  相似文献   

18.
This paper is concerned with automatic extraction of titles from the bodies of HTML documents (web pages). Titles of HTML documents should be correctly defined in the title fields by the authors; however, in reality they are often bogus. It is advantageous if we can automatically extract titles from HTML documents. In this paper, we take a supervised machine learning approach to address the problem. We first propose a specification on HTML titles, that is, a ‘definition’ on HTML titles. Next, we employ two learning methods to perform the task. In one method, we utilize features extracted from the DOM (direct object model) Tree; in the other method, we utilize features based on vision. We also combine the two methods to further enhance the extraction accuracy. Our title extraction methods significantly outperform the baseline method of using the lines in largest font size as title (22.6–37.4% improvements in terms of F1 score). As application, we consider web page retrieval. We use the TREC Web Track data for evaluation. We propose a new method for HTML documents retrieval using extracted titles. Experimental results indicate that the use of both extracted titles and title fields is almost always better than the use of title fields alone; the use of extracted titles is particularly helpful in the task of named page finding (25.1–30.3% improvements).  相似文献   

19.
根据企业门户中信息更新的特点,结合企业门户信息检索的要求,在蜘蛛程序搜索策略中提出基于重要Web页面的增量获取思想,并利用多线程技术,设计应用于企业门户信息搜集的网络蜘蛛,使网络蜘蛛的搜索效率得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号