首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
董旻  方曙  杨志萍 《情报杂志》2007,26(6):73-75,78
提出一种利用JTree和XPath技术实现动态网页信息抽取系统的方法,介绍了系统主要组件的功能和实现方法,并进行实际的抽取试验,论述了此设计的优点。  相似文献   

2.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

3.
随着互联网技术兴起,人类信息积累速度越来越快,对网页信息自动抽取的需求随之变大。本文对现今网页信息扫描和抽取特点进行分析,对其存在的问题给予阐述,并结合PHP语言,解析如何运用其相关技术对网页信息实现企业级别的精确提取。  相似文献   

4.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。  相似文献   

5.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

6.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

7.
随着计算机的不断发展,人们已经越来越依赖从网页上获得各种动态信息.从而使网页由原来的单纯"静态"逐步向"动态"网页发展,为了使网页更加完美化JavaScript已经更加普遍的应用于网页的设计中.本文主要阐述动态网页的优势,比较直观的展示了JavaScript技术的优越性.  相似文献   

8.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

9.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

10.
彭同坠 《科教文汇》2008,(36):278-278
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。  相似文献   

11.
基于机器学习的Web链接的抽取   总被引:1,自引:0,他引:1  
互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。  相似文献   

12.
One major approach for information finding in the WWW is to navigate through some Web directories and browse them until the goal pages were found. However, such directories are generally constructed manually and may have disadvantages of narrow coverage and inconsistency. Besides, most of existing directories provide only monolingual hierarchies that organized Web pages in terms that a user may not be familiar with. In this work, we will propose an approach that could automatically arrange multilingual Web pages into a multilingual Web directory to break the language barriers in Web navigation. In this approach, a self-organizing map is constructed to train each set of monolingual Web pages and obtain two feature maps, which reveal the relationships among Web pages and thematic keywords, respectively, for such language. We then apply a hierarchy generation process on these maps to obtain the monolingual hierarchy for these Web pages. A hierarchy alignment method is then applied on these monolingual hierarchies to discover the associations between nodes in different hierarchies. Finally, a multilingual Web directory is constructed according to such associations. We applied the proposed approach on a set of Web pages and obtained interesting result that demonstrates the feasibility of our method in multilingual Web navigation.  相似文献   

13.
由于因特网和web都是开放、变化、非结构化、动态无序的海量信息资源组织,所以对于网络信息数据的采集和质量控制成为网络计量学领域集中研究的热点问题。本文针对网络信息数据采集的质量控制问题进行了比较全面的研究,内容涉及网络检索时段的统一测定,Web网页及Web网站的抽样设计,避免重复采集网页和优先搜集重要网页的方法,以及面向主题进行特定信息采集的技术等。  相似文献   

14.
介绍了4种动态网页开发技术:ASP、ASP.NET、PHP和JSP技术,分析了其优缺点、前景及发展方向。为动态网页开发人员提供建议和参考,具有一定的现实意义。  相似文献   

15.
Web环境下本体和实体驱动的企业竞争情报获取机制研究   总被引:2,自引:0,他引:2  
本文从“本体和实体驱动”的角度探索web环境下的企业竞争情报获取问题,提出了一个Web环境下企业竞争情报获取的框架,并重点分析了该框架中的企业竞争情报本体表示模型、网页实体识别和关系抽取等问题。在此基础上,给出了一个面向主题的Web环境下企业竞争情报获取系统的体系结构。  相似文献   

16.
Web信息检索系统中的网页质量分析方法评价   总被引:1,自引:0,他引:1  
李树青  崔慧智 《情报科学》2008,26(5):729-734
改进对高质量网页的检索精度,将会极大提高Web信息检索系统的用户满意度。首先提出了信息检索中的“有用性”指标,并据此论述了基于网页质量分析方法的Web信息检索模型,然后提出了网页质量直接测度指标和网页质量间接测度指标。最后,详细介绍了各种网页质量指标的相关研究内容和方法,并做出了针对性的评价。  相似文献   

17.
The Web and especially major Web search engines are essential tools in the quest to locate online information for many people. This paper reports results from research that examines characteristics and changes in Web searching from nine studies of five Web search engines based in the US and Europe. We compare interactions occurring between users and Web search engines from the perspectives of session length, query length, query complexity, and content viewed among the Web search engines. The results of our research shows (1) users are viewing fewer result pages, (2) searchers on US-based Web search engines use more query operators than searchers on European-based search engines, (3) there are statistically significant differences in the use of Boolean operators and result pages viewed, and (4) one cannot necessary apply results from studies of one particular Web search engine to another Web search engine. The wide spread use of Web search engines, employment of simple queries, and decreased viewing of result pages may have resulted from algorithmic enhancements by Web search engine companies. We discuss the implications of the findings for the development of Web search engines and design of online content.  相似文献   

18.
基于Web挖掘的个性化服务研究   总被引:8,自引:0,他引:8  
论述了基于Web挖掘的个性化服务研究,提出了利用Web挖掘方法的个性化服务研究中的用户聚类、Web页面聚类、用户频繁访问路径发现算法及用户访问路径优化算法。利用这些算法得到的个性化信息可以准确把握用户兴趣模式并对Web信息资源的组织方式进行有效更新,从而提高网络信息服务效率,为用户提供“一对一”的具备自适应性的智能个性化服务。  相似文献   

19.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

20.
基于页面链接挖掘的Web教育信息检索   总被引:2,自引:0,他引:2  
王成云  王乐乐 《情报科学》2004,22(4):475-477,487
教育信息检索是教育信息应用于教育科研与教育教学的关键环节,而Web页面链接挖掘是对Web页面之间的链接结构进行挖掘。本文对Web链接结构挖掘在教育信息检索方面上进行了研究,介绍了Web挖掘的概念、分类,以及HITS与Page—rank等算法,并提出了一种基于样本模式特征提取的信息检索方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号