首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
本文阐述了利用XML将半结构化Web数据转化为结构化的XML数据,介绍了目前Web数据抽取的最新技术及特点,并对无监督学习网页重复模式发现网页内在模板抽取方法进行了深入的研究和探讨。  相似文献   

2.
王凯  王辉  渠芳 《现代情报》2006,26(4):86-88
分析高校数字图书馆信息资源分布状况,提出异构资源整合的解决方法——信息抽取技术。本文介绍了一种借助于JTIDY转换和JDOM解析工具的Web信息抽取方法,讨论信息抽取技术的功能、组成、特点、实现和原则问题。  相似文献   

3.
曹进军 《情报杂志》2007,26(7):55-58
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。  相似文献   

4.
文本中实体关系的确定可以使计算机清楚文本中实体间的联系,进而可以通过其中一个实体和关系得出另一个实体,关系抽取技术用于抽取文本中实体之间的关系.随着互联网技术的发展,文本数据越来越庞大.关系抽取作为信息抽取的子任务,帮助人类从海量数据中获取有用的信息,实现将非结构化、半结构化的自然语言文本转化为结构化数据.在介绍关系抽取发展状况的基础上,将其按照不同的实现方式进行分类分析概括,如有监督关系抽取、半监督关系抽取、无监督关系抽取、联合抽取等.并通过实验数据进行对比,总结各种实现方式存在的不足及优势.最后,针对目前关系抽取的发展状况,指出了关系抽取面临的主要挑战以及未来的发展趋势.  相似文献   

5.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

6.
通过首先对当前信息抽取技术和现有的XML技术进行分析与研究,发现如何有效地确定抽取规则是当前Web信息抽取的主要难点。针对目前存在的问题,给出了一种基于XML的Web信息抽取的解决方案,并对其中相关的技术进行了深入的探讨和研究。  相似文献   

7.
基于Web资源的信息抽取技术   总被引:7,自引:0,他引:7  
郭志红 《情报科学》2002,20(12):1282-1284
Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息供其它信息集成系统所利用,成为该领域的研究热点。本文介绍了一个简单的Web信息抽取模型,对于基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。  相似文献   

8.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。  相似文献   

9.
Web挖掘过程和元数据的运用   总被引:1,自引:2,他引:1  
刘俊熙 《情报杂志》2004,23(2):30-31,33
当数据挖掘的对象完全由Web这种数据类型组成时 ,这个过程就称为Web挖掘。面向Web挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。所以寻找和定义一个半结构化的数据模型是Web挖掘的关键 ,通过元数据来清晰地描述Web半结构化的数据结构 ,为Web挖掘提供基本条件。  相似文献   

10.
基于模式匹配抽取技术的网上产品情报获取   总被引:1,自引:0,他引:1  
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号