首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
Web 是动态性极强的信息源,访问、分析信息必须研究异构数据的集成问题,并选择合适的技术进行数据 分析、集成和处理。怎样对Web 海量的数据信息进行深层次的应用已成为数据挖掘技术的研究热点。本文介绍了XML (可扩展标记语言)在Web 数据挖掘中的应用,探讨了Web 数据挖掘中的数据异构问题。通过XML技术建立数据抽取模 型,解决互联网上绝大多数因异构、非结构化所导致的Web 数据挖掘问题。  相似文献   

2.
语义Web是未来web的发展方向,是信息可以被机器理解和使用的新的信息环境.语义Web的出现,彻底改变了web上信息的组织方式,对于各种网络信息应用都将产生巨大影响.本文首先对Semantic Web的概况进行了简要介绍,然后详细分析了语义Web体系的主要支持技术(XML、RDF),最后探讨了语义Web技术对网络信息检索的影响.  相似文献   

3.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

4.
文章针对21世纪数字图书馆中图书馆员应如何进行有效的信息服务,研究了XML技术与面向Web的数据挖掘技术.随着XML作为Web上交换数据的一种标准方式的出现,Web挖掘将会变得非常轻松,成为未来信息检索的主要工具.参考文献6.  相似文献   

5.
本文概括了Web挖掘在数字图书馆中的应用、Web挖掘的难点及XML在Web数据挖掘中的优势,说明了将XML应用于Web数据挖掘的几个方面,最后给出一个利用XML及Java类进行Web挖掘的实例.  相似文献   

6.
Web挖掘在竞争情报系统中的应用   总被引:2,自引:0,他引:2  
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可以发挥重要作用。一、Web挖掘的分类1.Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档…  相似文献   

7.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

8.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度.  相似文献   

9.
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的Web应用,而且可以实现Web中的信息共享与交换。XML是"可扩展标记语言"的缩写。XML规格是由全球信息网标准制定组织(W3C)制定,并于1992年成为推荐规格,目前已有许多家厂商采用,且视为关键性技术,如Adobe、IBM、Microsoft、Netscape、Oracle、Sun等。目前许多新版的软件,如Navigator、Internet、Explorer及RealPlayer,都已经在软件内部使用了XML的技术。XML技术在Web数据挖掘中应用于以下几方面:  相似文献   

10.
Web数据挖掘及其在数字图书馆中的应用   总被引:4,自引:0,他引:4  
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是有用的信息和知识的过程。Web数据挖掘是数据挖掘技术在网络信息处理中的应用。它是从Web资源中抽取有用信息或知识的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。Web数据挖掘技术是一项综合技术,涉及Web技术、人工智能、计算机语言学、信息学、统计学等多个领域。  相似文献   

11.
基于XML和关联规则的Web挖掘研究*   总被引:4,自引:1,他引:4  
首先对Web挖掘、关联规则分析及XML作了简要介绍,提出了基于XML和关联规则的Web挖掘研究思想,随后对XML结构挖掘、XML内容挖掘和基于XML的Web日志挖掘进行讨论,建立了一个较为完整的XML挖掘体系。  相似文献   

12.
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行研究与实现。  相似文献   

13.
随着我国信息化的推进,需要将不同阶段、不同技术平台的信息资源进行整合,消除“信息孤岛”,使之集成于一个统一的、开放的构架之中。本文首先阐明了XML文档成为新一代Internet应用中通用的数据格式,崔分析了Web Service技术之后,提出了一种以Web、XML、SOAP技术为核心的异构和分布式的图书信息系统框架,最后给出了一个基于XML文档数据交换的应用实例。  相似文献   

14.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

15.
构建基于Web数据挖掘技术的信息服务系统   总被引:5,自引:0,他引:5  
介绍Web数据挖掘的种类和方法,提出一个基于Web数据挖掘的信息服务系统结构,该结构以数据挖掘模块为中心,处理数据库、智能代理、Web服务器日志和用户接口多数据源的信息,以改善文献情报机构的服务质量。  相似文献   

16.
XML及其在图书馆和情报检索中的应用   总被引:40,自引:4,他引:36  
与HTML 和SGML 相比, XML 更适合运用于Web 环境, 用以表达信息的语义和结构。XML 将对Web 产生重大影响, 并影响图书馆参与Web 信息资源组织和整理的方式。对HTML﹑SGML 和XML 进行了比较, 阐述了XML 影响图书馆的诸多因素, 并对用于检索XML 文档的情报检索技术和XML 对情报检索的帮助进行探讨。  相似文献   

17.
Query languages for XML such as XPath or XQuery support Boolean retrieval: a query result is a (possibly restructured) subset of XML elements or entire documents that satisfy the search conditions of the query. This search paradigm works for highly schematic XML data collections such as electronic catalogs. However, for searching information in open environments such as the Web or intranets of large corporations, ranked retrieval is more appropriate: a query result is a ranked list of XML elements in descending order of (estimated) relevance. Web search engines, which are based on the ranked retrieval paradigm, do, however, not consider the additional information and rich annotations provided by the structure of XML documents and their element names.This article presents the XXL search engine that supports relevance ranking on XML data. XXL is particularly geared for path queries with wildcards that can span multiple XML collections and contain both exact-match as well as semantic-similarity search conditions. In addition, ontological information and suitable index structures are used to improve the search efficiency and effectiveness. XXL is fully implemented as a suite of Java classes and servlets. Experiments in the context of the INEX benchmark demonstrate the efficiency of the XXL search engine and underline its effectiveness for ranked retrieval.  相似文献   

18.
Some Ideas Concerning the Semantic Web   总被引:3,自引:1,他引:2  
1998年,WWW协会发起了-个创新性研究,该研究致力于:为WEB提供语义和从WEB实施知识抽取.语义Web是WEB创始人Tim Berners-Lee对WEB发展的愿景.在可扩展标记语言XML、资源描述框架RDF、本体互换语言OIL和其他新出现的标准的帮助下,语义Web有可能对已经存在的Web数据提供更多的结构和意义.这将会引导WWW发展到-个新的全球性网络:语义Web在这个网络上可以发现很多有效的信息.很明显,语义Web的实现将会对下-代的数字图书馆产生巨大的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号