首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

2.
利用Web挖掘技术实现个性化推送服务   总被引:3,自引:0,他引:3  
王凯  渠芳  王辉 《情报杂志》2006,25(11):86-88
利用Web挖掘技术可以从大量的Web文档和Web活动中发现和抽取有用的信息,可以使资源了解用户交互行为数据中所包含的意义。因此,可以使用该技术实现个性化推送服务。构造了一个基于Web挖掘的个性化推送模型,并阐述了如何实现此模型,提出了结合Web使用、页面内容和站点拓扑结构算法,利用此算法来实现生成频繁访问路径集,得到的结果有显著改善。  相似文献   

3.
随着Web信息抽取的研究和发展,抽取技术已经逐渐成熟,通过软件来实现从Web页中抽取所需要的信息已成为可能。对基于.NET技术实现的Web信息抽取系统进行了研究,分析并提出了HTML文档下载和清理、HTML到XML格式转换、数据定位及抽取、抽取数据的保存等需要研究解决的关键技术问题,并探讨了相应的解决方案。  相似文献   

4.
介绍了当前Web数据挖掘所采用的三种数据收集方法:Web日志挖掘,packet sniffer技术以及如何从应用服务器端收集数据.在分析Web日志挖掘不足的基础上对后面两种数据收集方法进行了研究,最后结合从服务器端收集数据的方法构建了一种基于用户会话的数据挖掘模型,为企业更好地理解客户行为提供相对可靠的依据.  相似文献   

5.
Web网络中存在海量文本,需要进行合理高效的文本抽取,实现Web文本数据挖掘。由于Web文本数据的高维特性,文本抽取过程中自动分类配对困难。提出一种基于RBF神经网络隐节点共振致密配对的Web数据文本抽取算法,进行Web数据文本特征采样与关联主特征挖掘,在每次移动中形成RBF隐节点共振致密配对,得到最优文本特征选择的路径,建立RBF神经网络分类器,实现基于蚁群算法的特征抽取算法改进。实验结果表明,该算法能有效实现对隐节点的共振致密配对,特征挖掘跟踪性能较好,保障了挖掘性能,系统所提取的特征分量与其他模糊分量差距较小,文本正确抽取召回率高于传统方法,在Web网络数据文本抽取中具有优越可靠的应用价值。  相似文献   

6.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

7.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。  相似文献   

8.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。  相似文献   

9.
王冰 《情报杂志》2007,26(3):58-60
Web搜索引擎是主要基于关键词匹配的检索技术,面对WWW新的应用模式,已不能很好地满足用户的需求。而Web数据挖掘系统是对Web文档集合和用户需求集合的匹配与选择,它通过Web内容挖掘、Web结构挖掘、Web用户使用记录挖掘等数据挖掘方法,从与WWW相关的资源和检索行为中抽取用户感兴趣的、有用的模式和隐含的信息,以满足情报检索的相关性和准确性的要求。因此,可运用相关搜索引擎和相关网站的设计方法,建立军事情报Web挖掘应用系统。  相似文献   

10.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号