共查询到19条相似文献,搜索用时 236 毫秒
1.
2.
3.
Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上. 相似文献
4.
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。 相似文献
5.
6.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。 相似文献
7.
8.
随着我国经济、科技的发展以及社会互联网时代的到来,人们对信息需求越来越大,这些都离不开互联网信息的发展.面对不断扩大的Web应用程序需求,2004年WHATWG(Web超文本应用技术工作组)提出一种新型的Web语言HTML5并被应用到移动互联网中,推动互联网技术发展走向更高阶段.下面本文将对HTML5 Web语言进行简单分析探讨,了解HTML5 Web语言在移动互联网中的使用情况以及对移动互联网发展的重要意义和影响. 相似文献
9.
基于Web的信息抽取技术研究综述 总被引:1,自引:0,他引:1
本文在讨论Web信息抽取技术的发展历程、概念及其功能,Web信息抽取技术方法的分类及技术特点分析。Web信息抽取系统的构建研究及其性能评价的基础上。分析了当前研究存在的问题以及未来的研究方向。 相似文献
10.
数字图书馆是采用现代高新技术所支持的数字信息资源系统.它改变了以往信息存储、加工、管理、使用的传统方式,借助网络环境和高性能计算机等实现信息资源的有效利用和共享。然而在网络日益普及的今天.绝大多数Web数据仍然以HTML文件的方式存贮而非数据库方式,这对数字图书馆的利用带来诸多不便,因为数据库的自治性和异构性妨碍了信息系统有效的互操作。基于此,本文从数字图书馆Web数据集成模式——RDF和采用XML Web Services中间件来实现各种异构数据库间数据共享两方面对数字图书馆数据集成进行了研究。 相似文献
11.
通过对超文本标记的分析,介绍了基于网页标记的信息隐藏技术的概念和特点,提出并实现了一种新的网页文本信息隐藏方法。 相似文献
12.
《Information processing & management》1999,35(5):679-689
WebClass is a system that allows Web users to create personalised conceptual data which is dynamically merged with original HTML source by a specialised proxy server. This allows groups of users to share ‘views’ of the World Wide Web that include conceptual information such as annotations and subject information. WebClass records paths followed by users during Web exploration. Graph traversal operators can be used to answer a variety of questions about explored regions of Web space. 相似文献
13.
XML技术作为一门新兴技术,在许多领域都得到了广泛的支持并有着广阔的应用前景。作为数据表示的一个开放标准,XML语言给Web应用乃至网络计算注入了新的活力,其与HTML、SGML以及关系数据库之间的关系也是值得探讨的。本文通过"基于XML的公交查询系统设计"这样一个实例的制作来具体详细地阐述XML在Web上的广泛具体的应用。 相似文献
14.
Yewei Xue Yunhua Hu Guomao Xin Ruihua Song Shuming Shi Yunbo Cao Chin-Yew Lin Hang Li 《Information processing & management》2007
This paper is concerned with automatic extraction of titles from the bodies of HTML documents (web pages). Titles of HTML documents should be correctly defined in the title fields by the authors; however, in reality they are often bogus. It is advantageous if we can automatically extract titles from HTML documents. In this paper, we take a supervised machine learning approach to address the problem. We first propose a specification on HTML titles, that is, a ‘definition’ on HTML titles. Next, we employ two learning methods to perform the task. In one method, we utilize features extracted from the DOM (direct object model) Tree; in the other method, we utilize features based on vision. We also combine the two methods to further enhance the extraction accuracy. Our title extraction methods significantly outperform the baseline method of using the lines in largest font size as title (22.6–37.4% improvements in terms of F1 score). As application, we consider web page retrieval. We use the TREC Web Track data for evaluation. We propose a new method for HTML documents retrieval using extracted titles. Experimental results indicate that the use of both extracted titles and title fields is almost always better than the use of title fields alone; the use of extracted titles is particularly helpful in the task of named page finding (25.1–30.3% improvements). 相似文献
15.
16.
17.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向. 相似文献
18.
HTML5作为下一代Web规范之一,为浏览器提供了包括视频在内的多种类型的嵌入标准。详细介绍了基于HTML5和JavaScript的运动视频字幕添加方法,并对HTML5关键代码进行了分析,以达到对运动视频进行反馈的目的。 相似文献
19.
随着信息技术的高速发展,人们积累的数据量也急剧增加,Web数据挖掘技术作为处理数据的专项技术,其优越性能在许多领域都有所体现。针对Web数据挖掘技术在数字图书馆中的应用进行研究,分别从web数据挖掘的难点、XML在Web数据挖掘中的应用以及web数据挖掘技术在数字图书馆个性化服务中的应用三个方面展开分析,以促进web数据挖掘技术的不断完善,使它能够为数字图书馆提供更好的服务。 相似文献