首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 230 毫秒
1.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。  相似文献   

2.
《内江科技》2016,(7):36-37
在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。  相似文献   

3.
随着互联网技术兴起,人类信息积累速度越来越快,对网页信息自动抽取的需求随之变大。本文对现今网页信息扫描和抽取特点进行分析,对其存在的问题给予阐述,并结合PHP语言,解析如何运用其相关技术对网页信息实现企业级别的精确提取。  相似文献   

4.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

5.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

6.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

7.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

8.
廖建军 《情报科学》2018,36(7):123-129
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式 和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内 容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结 果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实 验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计 的 CEPR抽取方法。  相似文献   

9.
翟东升  余旸 《情报杂志》2005,24(8):33-35
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。  相似文献   

10.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

11.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

12.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

13.
彭同坠 《科教文汇》2008,(36):278-278
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。  相似文献   

14.
董旻  方曙  杨志萍 《情报杂志》2007,26(6):73-75,78
提出一种利用JTree和XPath技术实现动态网页信息抽取系统的方法,介绍了系统主要组件的功能和实现方法,并进行实际的抽取试验,论述了此设计的优点。  相似文献   

15.
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发 以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别 的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情 页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和 相似度的计算量较大,时间较长。  相似文献   

16.
网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助人们从浩如烟海的网络信息中找到自己想要的信息。但是现在的搜索引擎技术并不完善,存在大量内容相同的冗余网页。冗余网页不但浪费了存储资源,还给用户的检索带来诸多不便。本文描述了一个搜索引擎去重Agent系统,由系统代替用户对搜索引擎结果页面进行信息抽取,对获得结果进行对比,并去除其中内容重复的冗余网页,将去重后的结果提供给用户,从而为用户节省时间和精力。  相似文献   

17.
《科技风》2020,(17)
随着项目版本迭代越来越快,周期越来越短,网页系统自动化越来越普遍,由此而来的网页自动化测试工具也层出不穷。本文结合网页系统测试的一些特点,分析各个自动化测试工具的优缺点,帮助读者分析选择网页自动化测试工具,并结合实例说明自动化测试框架的搭建及使用方法。最后根据项目特点说明不同的项目需使用不同的测试框架才能节省资源并提高测试效率。  相似文献   

18.
高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。  相似文献   

19.
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。通过垂直搜索引擎能够从互联网上自动搜集信息,并为用户提供信息服务。建设一个中文垂直搜索引擎大致需要以下技术:信息采集技术、网页信息抽取技术、中文分词技术、索引技术。  相似文献   

20.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号