首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。  相似文献   

2.
通过首先对当前信息抽取技术和现有的XML技术进行分析与研究,发现如何有效地确定抽取规则是当前Web信息抽取的主要难点。针对目前存在的问题,给出了一种基于XML的Web信息抽取的解决方案,并对其中相关的技术进行了深入的探讨和研究。  相似文献   

3.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

4.
随着Web信息抽取的研究和发展,抽取技术已经逐渐成熟,通过软件来实现从Web页中抽取所需要的信息已成为可能。对基于.NET技术实现的Web信息抽取系统进行了研究,分析并提出了HTML文档下载和清理、HTML到XML格式转换、数据定位及抽取、抽取数据的保存等需要研究解决的关键技术问题,并探讨了相应的解决方案。  相似文献   

5.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。  相似文献   

6.
王凯  王辉  渠芳 《现代情报》2006,26(4):86-88
分析高校数字图书馆信息资源分布状况,提出异构资源整合的解决方法——信息抽取技术。本文介绍了一种借助于JTIDY转换和JDOM解析工具的Web信息抽取方法,讨论信息抽取技术的功能、组成、特点、实现和原则问题。  相似文献   

7.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向.  相似文献   

8.
分析了信息抽取的研究现状,提出了一种基于领域本体的Web信息抽取模型,对模型中的各部分功能进行了简要说明,明确了信息抽取的系统流程,提高了信息抽取效率。  相似文献   

9.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

10.
基于模式匹配抽取技术的网上产品情报获取   总被引:1,自引:0,他引:1  
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。  相似文献   

11.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

12.
信息抽取技术在情报学中的应用分析   总被引:3,自引:1,他引:2  
对海量信息进行有效收集与组织是情报学要解决的关键问题。分析了信息抽取技术的特点及其关键技术,讨论了信息抽取技术在情报学中的应用价值。通过信息抽取技术收集和组织信息,可提高信息相关性并为知识服务奠定基础。  相似文献   

13.
侯锟  罗海龙 《科技广场》2007,22(3):117-118
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。  相似文献   

14.
基于Web资源的信息抽取技术   总被引:7,自引:0,他引:7  
郭志红 《情报科学》2002,20(12):1282-1284
Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息供其它信息集成系统所利用,成为该领域的研究热点。本文介绍了一个简单的Web信息抽取模型,对于基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。  相似文献   

15.
侯锟  罗海龙 《科技广场》2006,38(4):70-72
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。  相似文献   

16.
基于信息计量学研究的目的,对Web信息资源规模范围的定量测度、Web信息资源变化情况的计量分析等问题进行了初步研究和探讨。同时,综述了有关Web文档及其网络链接所服从文献计量学分布模型的理论研究进展。  相似文献   

17.
谢友才  陈涛 《情报杂志》2005,24(9):40-43
认为产业集群可以归因为或表现为信息集聚,而信息集聚又表现在Web网上,产业集群的研究方法应当创新。因此,指出可以抽取Web网上的产业集群信息,利用Web信息的及时性和完备性,对产业集群进行研究,尤其是从综合信息的角度对产业集群的成形、类型进行判断,从而为产业集群理论创新提供可能,并给出了详尽的研究方案。  相似文献   

18.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

19.
基于XML本体描述语言的数字图书馆Web信息资源整合   总被引:2,自引:0,他引:2  
王军 《现代情报》2007,27(11):84-86
信息资源整合是实现数字图书馆建设目标的关键.而信息资源的整合涉及诸多快速发展的新技术和新方法。本文从概述数字图书馆Web信息资源整合入手,论述了XML作为与本体语言紧密相关的关键性技术,在数字图书馆Web信息资源整合方面的优势;探讨了基于XML本体语言描述的数字图书馆Web信息资源整合系统的功能及其实现途径;提出了基于该系统的数字图书馆Web信息资源整合及其配套工作,需要进一步研究和实践的几个主要问题。  相似文献   

20.
明确了Web2.0和数字图书馆的定义及内涵,分析了数字图书馆信息服务的模式结构及对数字图书馆信息服务的影响,探讨了Web2.0技术在数字图书馆信息服务中的应用及其对信息服务的深远意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号