共查询到20条相似文献,搜索用时 230 毫秒
1.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。 相似文献
2.
3.
4.
5.
WNBTE网页正文抽取方法研究 总被引:1,自引:0,他引:1
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。 相似文献
6.
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 相似文献
7.
基于正则表达式的大规模网页术语对抽取研究 总被引:2,自引:1,他引:1
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%. 相似文献
8.
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式
和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内
容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结
果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实
验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计
的 CEPR抽取方法。 相似文献
9.
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。 相似文献
10.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。 相似文献
11.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值. 相似文献
12.
13.
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。 相似文献
14.
15.
16.
网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助人们从浩如烟海的网络信息中找到自己想要的信息。但是现在的搜索引擎技术并不完善,存在大量内容相同的冗余网页。冗余网页不但浪费了存储资源,还给用户的检索带来诸多不便。本文描述了一个搜索引擎去重Agent系统,由系统代替用户对搜索引擎结果页面进行信息抽取,对获得结果进行对比,并去除其中内容重复的冗余网页,将去重后的结果提供给用户,从而为用户节省时间和精力。 相似文献
17.
18.
高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。 相似文献
19.
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。通过垂直搜索引擎能够从互联网上自动搜集信息,并为用户提供信息服务。建设一个中文垂直搜索引擎大致需要以下技术:信息采集技术、网页信息抽取技术、中文分词技术、索引技术。 相似文献
20.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。 相似文献