首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
国外Web信息抽取研究综述   总被引:3,自引:0,他引:3  
Web信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Web信息抽取基本理论的基础之上,评述了Web信息抽取主要研究内容的现状,并着重对Web信息抽取的评价研究和应用研究进行了介绍,以期有助于本研究继续向前发展。  相似文献   

2.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

3.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

4.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

5.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

6.
以网易汽车资讯网页信息抽取为例,研究了基于领域本体的Web信息抽取技术的设计与实现.  相似文献   

7.
RESTful架构下图书管理系统的研究与实现   总被引:2,自引:0,他引:2  
针对目前图书管理系统架构在实现信息共享方面的技术瓶颈,引入REST概念,介绍并分析RESTful Web服务架构,以图书管理工作中的入库、修改、报废、查询和借还业务为例,设计并实现基于RESTful Web服务的图书管理系统,为构建适合轻量级信息共享的图书管理系统提供参考,并通过测试证实该系统在实现轻量级图书信息共享方面的优越性和可行性。  相似文献   

8.
以高校图书馆网站为例介绍了信息服务型网站建立基于 Web的网上信息管理系统的设计与实现。文章分析了系统建立的目标、系统的设计需求 ,给出了系统的设计流程图 ,并对系统的结构层次、功能模块加以描述和说明。  相似文献   

9.
图书馆学情报学专业信息服务系统的实现   总被引:7,自引:0,他引:7  
介绍基于Web的图书馆学情报学信息服务系统应用的意义及其基本结构,并结合开发实践,论述如何快速开发基于Web的信息服务系统。  相似文献   

10.
Web 是动态性极强的信息源,访问、分析信息必须研究异构数据的集成问题,并选择合适的技术进行数据 分析、集成和处理。怎样对Web 海量的数据信息进行深层次的应用已成为数据挖掘技术的研究热点。本文介绍了XML (可扩展标记语言)在Web 数据挖掘中的应用,探讨了Web 数据挖掘中的数据异构问题。通过XML技术建立数据抽取模 型,解决互联网上绝大多数因异构、非结构化所导致的Web 数据挖掘问题。  相似文献   

11.
本研究针对舆情信息源特征就舆情信息增量采集、提取和存储、文本信息预处理提出了基于Web—Harvest的定点信息采集以及基于输入法平台的新词收集策略,构建了一个互联网用语扩展词库,实现了信息预处理关键模块。  相似文献   

12.
基于Nutch的Web网站定向采集系统   总被引:3,自引:0,他引:3  
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。  相似文献   

13.
信息抽取技术在情报监测中的应用   总被引:3,自引:0,他引:3  
刘剑兰  朱东华 《情报学报》2004,23(6):661-666
信息抽取 (InformationExtraction)是一门应用性的语言处理技术 ,近年来正受到越来越多的重视。我们选取了国防情报工作这个特殊的领域 ,应用信息抽取技术进行探索性的研究。我们的方法是针对国防情报 ,应用世界最通用的语言—英文 ,设计了一个信息抽取系统 ,对各国国防经费信息进行动态的监测。该方法可望提高信息获取的效率 ,也将会扩展到更多的领域  相似文献   

14.
[目的/意义]在图书馆信息服务环境发生了巨大变化的今天,为构建流程驱动、情景敏感的资源发现系统提供思路和具体操作方法。[方法/过程]分析国内信息服务机构应用环境和需求的特点和变化;调研国内资源发现系统的应用现状;总结国内信息服务机构引进的资源发现系统在用户权限控制功能和服务流程设计方面的不足之处;提出构建流程驱动、用户角色和情景敏感的资源发现系统的思路,并介绍具体的实现方法。[结果/结论]本文介绍的思路和方法在广东省科技图书馆应用环境得到了成功应用,对国内具有类似应用环境和应用需求的机构构建实用化的资源发现系统具有参考和借鉴作用。  相似文献   

15.
本文研究了通过信息抽取提取用户兴趣和需求来实现信息推送服务的课题.根据信息抽取过程,将基于信息抽取的信息推送系统划分为用户管理、资源管理、信息推送三个模块.  相似文献   

16.
信息抽取技术及其在数字图书馆中的应用前景分析   总被引:18,自引:1,他引:18  
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识) , 它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。文章分析了信息抽取的主要概念、主要研究活动、信息抽取的类型和信息抽取系统的一般结构, 并提出在数字图书馆的建设中, 信息抽取技术能够在数字内容的自动标引、元数据获取、数据挖掘、情报研究分析、大型知识库数值库建设、参考咨询等方面发挥重要的作用。  相似文献   

17.
基于Heritrix的Web信息抽取   总被引:1,自引:0,他引:1  
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。  相似文献   

18.
RMS系统架构与情报检索系统的功能需求研究   总被引:1,自引:0,他引:1  
文章对RMS的发展历史、系统架构和设计理念进行了详细介绍,同时对情报检索系统的功能需求进行研究和分析,最后对情报检索系统的进一步发展和应用进行了展望。  相似文献   

19.
陈田田  吴广印 《情报工程》2016,2(3):080-090
web中大量新闻网页、博客、电子邮件等非结构化信息中蕴含着大量的知识,对其进行处理以自动获得知识具有重要意义。目前,一些基于信息抽取等技术抽取简单关联关系的知识获取应用系统存在明显的局限性,本文引入Apache Stanbol——Apache下的一种从非结构化信息中自动获取知识的开源项目,它是一个为语义内容管理设计的模块化的软件集和可重用组件,旨在将传统内容管理系统(CMS)拓展为支持语义服务的语义内容管理系统(SCMS),在此基础上,为改善搜索引擎关于内容的搜索、分类,实体消歧及语义化查询等带来帮助。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号