首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 236 毫秒
1.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

2.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

3.
Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上.  相似文献   

4.
翟东升  余旸 《情报杂志》2005,24(8):33-35
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。  相似文献   

5.
通过首先对当前信息抽取技术和现有的XML技术进行分析与研究,发现如何有效地确定抽取规则是当前Web信息抽取的主要难点。针对目前存在的问题,给出了一种基于XML的Web信息抽取的解决方案,并对其中相关的技术进行了深入的探讨和研究。  相似文献   

6.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。  相似文献   

7.
利用Web挖掘技术实现个性化推送服务   总被引:3,自引:0,他引:3  
王凯  渠芳  王辉 《情报杂志》2006,25(11):86-88
利用Web挖掘技术可以从大量的Web文档和Web活动中发现和抽取有用的信息,可以使资源了解用户交互行为数据中所包含的意义。因此,可以使用该技术实现个性化推送服务。构造了一个基于Web挖掘的个性化推送模型,并阐述了如何实现此模型,提出了结合Web使用、页面内容和站点拓扑结构算法,利用此算法来实现生成频繁访问路径集,得到的结果有显著改善。  相似文献   

8.
随着我国经济、科技的发展以及社会互联网时代的到来,人们对信息需求越来越大,这些都离不开互联网信息的发展.面对不断扩大的Web应用程序需求,2004年WHATWG(Web超文本应用技术工作组)提出一种新型的Web语言HTML5并被应用到移动互联网中,推动互联网技术发展走向更高阶段.下面本文将对HTML5 Web语言进行简单分析探讨,了解HTML5 Web语言在移动互联网中的使用情况以及对移动互联网发展的重要意义和影响.  相似文献   

9.
基于Web的信息抽取技术研究综述   总被引:1,自引:0,他引:1  
蒲筱哥 《现代情报》2007,27(10):215-219
本文在讨论Web信息抽取技术的发展历程、概念及其功能,Web信息抽取技术方法的分类及技术特点分析。Web信息抽取系统的构建研究及其性能评价的基础上。分析了当前研究存在的问题以及未来的研究方向。  相似文献   

10.
张志美 《现代情报》2007,27(9):88-90
数字图书馆是采用现代高新技术所支持的数字信息资源系统.它改变了以往信息存储、加工、管理、使用的传统方式,借助网络环境和高性能计算机等实现信息资源的有效利用和共享。然而在网络日益普及的今天.绝大多数Web数据仍然以HTML文件的方式存贮而非数据库方式,这对数字图书馆的利用带来诸多不便,因为数据库的自治性和异构性妨碍了信息系统有效的互操作。基于此,本文从数字图书馆Web数据集成模式——RDF和采用XML Web Services中间件来实现各种异构数据库间数据共享两方面对数字图书馆数据集成进行了研究。  相似文献   

11.
王长征  刘建辉 《科技广场》2007,22(5):104-105
通过对超文本标记的分析,介绍了基于网页标记的信息隐藏技术的概念和特点,提出并实现了一种新的网页文本信息隐藏方法。  相似文献   

12.
WebClass is a system that allows Web users to create personalised conceptual data which is dynamically merged with original HTML source by a specialised proxy server. This allows groups of users to share ‘views’ of the World Wide Web that include conceptual information such as annotations and subject information. WebClass records paths followed by users during Web exploration. Graph traversal operators can be used to answer a variety of questions about explored regions of Web space.  相似文献   

13.
车婧 《科教文汇》2012,(21):84-85
XML技术作为一门新兴技术,在许多领域都得到了广泛的支持并有着广阔的应用前景。作为数据表示的一个开放标准,XML语言给Web应用乃至网络计算注入了新的活力,其与HTML、SGML以及关系数据库之间的关系也是值得探讨的。本文通过"基于XML的公交查询系统设计"这样一个实例的制作来具体详细地阐述XML在Web上的广泛具体的应用。  相似文献   

14.
This paper is concerned with automatic extraction of titles from the bodies of HTML documents (web pages). Titles of HTML documents should be correctly defined in the title fields by the authors; however, in reality they are often bogus. It is advantageous if we can automatically extract titles from HTML documents. In this paper, we take a supervised machine learning approach to address the problem. We first propose a specification on HTML titles, that is, a ‘definition’ on HTML titles. Next, we employ two learning methods to perform the task. In one method, we utilize features extracted from the DOM (direct object model) Tree; in the other method, we utilize features based on vision. We also combine the two methods to further enhance the extraction accuracy. Our title extraction methods significantly outperform the baseline method of using the lines in largest font size as title (22.6–37.4% improvements in terms of F1 score). As application, we consider web page retrieval. We use the TREC Web Track data for evaluation. We propose a new method for HTML documents retrieval using extracted titles. Experimental results indicate that the use of both extracted titles and title fields is almost always better than the use of title fields alone; the use of extracted titles is particularly helpful in the task of named page finding (25.1–30.3% improvements).  相似文献   

15.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

16.
王凯  王辉  渠芳 《现代情报》2006,26(4):86-88
分析高校数字图书馆信息资源分布状况,提出异构资源整合的解决方法——信息抽取技术。本文介绍了一种借助于JTIDY转换和JDOM解析工具的Web信息抽取方法,讨论信息抽取技术的功能、组成、特点、实现和原则问题。  相似文献   

17.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向.  相似文献   

18.
HTML5作为下一代Web规范之一,为浏览器提供了包括视频在内的多种类型的嵌入标准。详细介绍了基于HTML5和JavaScript的运动视频字幕添加方法,并对HTML5关键代码进行了分析,以达到对运动视频进行反馈的目的。  相似文献   

19.
随着信息技术的高速发展,人们积累的数据量也急剧增加,Web数据挖掘技术作为处理数据的专项技术,其优越性能在许多领域都有所体现。针对Web数据挖掘技术在数字图书馆中的应用进行研究,分别从web数据挖掘的难点、XML在Web数据挖掘中的应用以及web数据挖掘技术在数字图书馆个性化服务中的应用三个方面展开分析,以促进web数据挖掘技术的不断完善,使它能够为数字图书馆提供更好的服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号