首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
Web抽取技术在数字图书馆中的应用   总被引:2,自引:0,他引:2  
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。  相似文献   

2.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

3.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

4.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

5.
基于超链分析的Web资源自动发现技术   总被引:2,自引:0,他引:2  
传统的Web资源自动发现是基于Web页面内容实现的。本文试图从超链分析的角度探讨Web资源的自动发现技术。超链分析技术起源于社会网络分析和科学引文分析理论,它只分析页面之间的关系,而不关心页面本身的属性。通过试验证明,单纯使用超链,根据用户提供的网页实例,我们能够自动发现与学科资源相关的网站。该技术可以有效的减少网络爬行器的无谓爬行,提高采集效率,减轻网络负担,在学科资源建设中起了重要的作用。  相似文献   

6.
Web挖掘在竞争情报系统中的应用   总被引:2,自引:0,他引:2  
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。随着商业竞争的日益激烈,各个企业都纷纷建立了自己的竞争情报系统,以提高自身的竞争力。互联网为竞争情报工作提供了丰富的信息资源,Web挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中,可以发挥重要作用。一、Web挖掘的分类1.Web内容挖掘:Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档…  相似文献   

7.
基于主动学习的Web页面信息抽取   总被引:4,自引:0,他引:4  
张清军  朱才连 《情报学报》2004,23(6):667-671
本文提出一种基于主动学习的Web页面信息抽取方法 ,可以使用户在标记少量具有代表性的样本页面的情况下 ,有效地提高信息抽取规则的覆盖性 ,从而使包装器具有一定的自适应性。  相似文献   

8.
针对起源记录在Web应用中的表达和查询服务问题,对研究所涉及的主要概念进行辨析,在深入解析Web应用中起源记录的定位、传递模式、实现途径和实现模式的基础上归纳总结出Web应用中起源元数据的四类定位发现机制与两类查询机制。结合语义标注Web页面和溯源信息表达技术,采用在线论文追溯案例,实现包含RDFa起源记录的HTML页面显示并通过可视化方式揭示起源,最后对案例中的查询服务问题进行探讨。  相似文献   

9.
随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用.针对这一现象,提出设计一个基于隐形Web的信息查询系统,设计基于隐形Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘隐形Web信息资源,解决传统手工收集表单信息的弊端,缩短人工查询时间和减少费用,降低成本,便于维护,为实现隐形信息提取自动化提供平台.  相似文献   

10.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度.  相似文献   

11.
文章主要分析了Web InfoMall和WICP的体系结构,并基于Web InfoMall提供的中文网页测试数据集,分析了中文网页、网站以及域名的规模,保存格式等。结果表明,中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律,同时也有其自身的特点。另外,中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。  相似文献   

12.
《Research Strategies》2001,18(1):85-93
Course-related library Web pages can be designed to introduce students to an academic library Web site and provide access to information relevant to specific courses. These pages are most often developed to support a library instruction session. The author's course-related pages are designed on a template that includes the main features of the library Web site (e.g., links to the online catalog, reference information, and interlibrary loan request forms), a list of pertinent online indexes and databases, links to electronic journals, and recommended Web sites. Technical and organizational issues related to creating and maintaining such pages are discussed, as are outreach efforts and faculty/student response to incorporating this type of Web page into library instruction. A sample evaluation form and a list of selected course-related library Web sites are included as appendices.  相似文献   

13.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

14.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

15.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

16.
Web sites are increasingly used by academic libraries to promote key services and collections to teaching faculty. This study analyzes the content, location, language, and technological features of fifty-four academic library Web pages designed especially for faculty to expose patterns in the development of these pages.  相似文献   

17.
In most existing art museum Web pages, the values of the museum dominate the values of the Web. Therefore, museum Web pages often electronically duplicate familiar museum products – floor plans, collection catalogues, event calendars – rather than transforming the idea of the museum by adapting the values of the Web.This paper will seek to show how art museums and technologists can come to understand each other and use their differences productively by:1. Orienting museum Web sites towards projects that can only be done on the Web and not on paper.2. Using the Web to overcome the many limitations to understanding imposed by the physical art museum.3. Using the interactive potentials of the Web to change the one-way flow of information from art museum to visitor to a two-way flow which also moves from visitor to museum.4. Infusing the orientation towards constant change into the art museum so that the Web helps the art museum to reinvent itself.  相似文献   

18.
基于关系抽取的企业竞争情报获取与融合框架   总被引:3,自引:1,他引:2  
网页蕴含了大量的企业竞争情报.然而,现有的企业竞争情报获取系统还缺乏直接从网页中获取竞争情报的能力.本文提出了一个基于网页实体关系抽取与融合的企业竞争情报获取系统框架.该系统通过对网页内容的抽取与融合,最终形成可信的企业竞争情报数据.论文首先讨论面向Web的企业竞争情报自动获取系统的总体结构,并重点阐述了其中的企业竞争情报获取方法、企业竞争情报融合机制等问题及其解决方案.本文的工作为进一步建立实用的Web竞争情报获取与融合系统奠定了基础.  相似文献   

19.
This paper examines the way in which Taiwan is connected to on the World Wide Web in South Korea. The Web may represent a new channel for the communication among a global society's members and a reflection of international relations. Thus, it is necessary to explore the distribution of relations formed and maintained on the Web and the contents of those relations as well. This paper traced South Korean Web pages hyperlinking pages hosted in Taiwan, using a search engine. The context in which Taiwan appears in South Korean pages was also examined. Specifically, the structure of hyperlink connectivity from South Korea and Taiwan was analyzed. It was found that the hyperlink network was very sparsely connected in terms of the number of South Korean Web pages hyperlinking to the pages of the other country. The contents of hyperlink-connected information were categorized and analyzed. The most often occurring content category was ‘Computers & Internet’ in Taiwan. This suggests that South Korean Web users including organizations are more interested in computer-related products in Taiwan than any other things. The implication of this paper is to examine the state and form of international information flow from South Korea to Taiwan based on the patterns of hyperlink relations inscribed on South Korean Web pages and the type and content of information.  相似文献   

20.
应用正则式抽取Google网页内容   总被引:3,自引:0,他引:3  
正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用Visual C# 实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号