首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
针对目前Web信息的混乱的特点,本文提出了利用信息抽取技术来处理Web信息的方案。  相似文献   

2.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

3.
详细介绍信息抽取开源软件Web-Harvest,并在其基础之上进行功能扩展和改进,设计一个通用性强的Web信息抽取系统,重点阐述开发系统的设计思想和系统流程,并简单介绍系统的数据库表设计。最后,介绍该Web信息抽取系统的应用。  相似文献   

4.
以网易汽车资讯网页信息抽取为例,研究了基于领域本体的Web信息抽取技术的设计与实现.  相似文献   

5.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

6.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

7.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

8.
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。  相似文献   

9.
Web抽取技术在数字图书馆中的应用   总被引:2,自引:0,他引:2  
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。  相似文献   

10.
"隐形Web"资源的利用   总被引:3,自引:0,他引:3  
由于Invisible Web中具有高质量的信息内容,它们覆盖多个主题领域,并且这些数据通常又是采用数据库来管理的,用户检索其中的信息时可以得到较高的“检全率”和“检准率”,因此,学术图书馆应该将Invisible Web作为重要的信息源。本文主要讨论学术图书馆利用Invisible Web的方法,诸如利用网上备种现成的“隐形Web”网关、根据本馆的馆藏发展政策建立恰当的Subject Gateway、开发新的信息抽取技术等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号