共查询到10条相似文献,搜索用时 31 毫秒
1.
基于正则表达式的大规模网页术语对抽取研究 总被引:2,自引:1,他引:1
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%. 相似文献
2.
3.
4.
介绍了当前Web数据挖掘所采用的三种数据收集方法:Web日志挖掘,packet sniffer技术以及如何从应用服务器端收集数据.在分析Web日志挖掘不足的基础上对后面两种数据收集方法进行了研究,最后结合从服务器端收集数据的方法构建了一种基于用户会话的数据挖掘模型,为企业更好地理解客户行为提供相对可靠的依据. 相似文献
5.
Web网络中存在海量文本,需要进行合理高效的文本抽取,实现Web文本数据挖掘。由于Web文本数据的高维特性,文本抽取过程中自动分类配对困难。提出一种基于RBF神经网络隐节点共振致密配对的Web数据文本抽取算法,进行Web数据文本特征采样与关联主特征挖掘,在每次移动中形成RBF隐节点共振致密配对,得到最优文本特征选择的路径,建立RBF神经网络分类器,实现基于蚁群算法的特征抽取算法改进。实验结果表明,该算法能有效实现对隐节点的共振致密配对,特征挖掘跟踪性能较好,保障了挖掘性能,系统所提取的特征分量与其他模糊分量差距较小,文本正确抽取召回率高于传统方法,在Web网络数据文本抽取中具有优越可靠的应用价值。 相似文献
6.
7.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。 相似文献
8.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。 相似文献
9.
Web搜索引擎是主要基于关键词匹配的检索技术,面对WWW新的应用模式,已不能很好地满足用户的需求。而Web数据挖掘系统是对Web文档集合和用户需求集合的匹配与选择,它通过Web内容挖掘、Web结构挖掘、Web用户使用记录挖掘等数据挖掘方法,从与WWW相关的资源和检索行为中抽取用户感兴趣的、有用的模式和隐含的信息,以满足情报检索的相关性和准确性的要求。因此,可运用相关搜索引擎和相关网站的设计方法,建立军事情报Web挖掘应用系统。 相似文献
10.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。 相似文献