首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 132 毫秒
1.
WEB超链分析及应用   总被引:4,自引:0,他引:4  
文章分析了传统的基于文本处理的信息检索算法在处理WEB页面时遇到的问题,指出在处理WEB页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索结果排序两个方面的应用及相应的算法。  相似文献   

2.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

3.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

4.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

5.
Web数据挖掘对Web数据检索的支持作用   总被引:3,自引:0,他引:3  
唐建国  胡芒谷 《情报学报》2004,23(4):452-455
本文在对Web数据检索和Web数据挖掘的技术特性进行简要介绍的基础上 ,阐述了二者之间的主要区别 ,并着重对Web数据挖掘对Web数据检索构成的支持作用进行了具体分析。这些支持作用体现在 :自动分类 ,揭示知识特征 ,群集处理 ,超链结构挖掘和用户知识模型挖掘。  相似文献   

6.
WWW超链分析技术及其应用   总被引:1,自引:0,他引:1  
最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量.超链分析技术,是新一代搜索引擎的关键技术.  相似文献   

7.
Web信息主题采集技术研究   总被引:9,自引:0,他引:9  
李春旺 《图书情报工作》2005,49(4):77-80,70
简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。  相似文献   

8.
在分析传统网络爬行器爬行算法的基础上,通过将隧道算法和网页页面分块技术相结合,指导专题爬行器进行爬行。通过4所高校门户网站的教育资源搜索实验表明,新的算法可以有效提高搜索效率。  相似文献   

9.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

10.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率.  相似文献   

11.
OBJECTIVES: This paper explores the potential of multinomial logistic regression analysis to perform Web usage mining for an academic health sciences library Website. METHODS: Usage of database-driven resource gateway pages was logged for a six-month period, including information about users' network addresses, referring uniform resource locators (URLs), and types of resource accessed. RESULTS: It was found that referring URL did vary significantly by two factors: whether a user was on-campus and what type of resource was accessed. CONCLUSIONS: Although the data available for analysis are limited by the nature of the Web and concerns for privacy, this method demonstrates the potential for gaining insight into Web usage that supplements Web log analysis. It can be used to improve the design of static and dynamic Websites today and could be used in the design of more advanced Web systems in the future.  相似文献   

12.
ABSTRACT

Web page views of databases by title and databases by subject pages, in conjunction with COUNTER Database Report 1 and Journal Report 1 statistics, were examined to determine what impact a migration to Primo, a Web-scale discovery layer, had at Central Washington University Brooks Library. The analysis determined that the first year post-migration (2015) compared to the two years pre-migration (2013–14) saw a decline in Web page views of database Web pages, journal full-text article requests, and database record views and result clicks. The implementation of Primo thus had a noticeable negative impact on both direct database access and overall electronic resource usage during the first year post-migration.  相似文献   

13.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

14.
Web页面中文文本主题的自动提取研究   总被引:14,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

15.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

16.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

17.
基于UCL的网页信息自动标引技术研究   总被引:1,自引:0,他引:1  
参照都柏林核心元数据规范构建网页信息的标引框架,提取网页特征信息,采用ADO技术实现网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。最后,将标引技术应用到互补结构网络智能代理终端,验证UCL标引方法的有效性。实验结果显示,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。  相似文献   

18.
Large sets of Web page links, colinks, or URLs sometimes need to be counted or otherwise summarized by researchers to analyze Web growth or publishing. Computing professionals also use them to evaluate Web sites or optimize search engines. Despite the apparently simple nature of these types of data, many different summarization methods have been used in the past. Some of these methods may not have been optimal. This article proposes a generic lexical framework to unify and extend existing methods through abstract notions of link lists and URL lists. The approach is built upon decomposing URLs by lexical segments, such as domain names, and systematically characterizing the counting options available. In addition, counting method choice recommendations are inferred from a very general set of theoretical research assumptions. The article also offers practical advice for analyzing raw data from search engines.  相似文献   

19.
ABSTRACT

Citing webpages has been a common practice in scholarly publications for nearly two decades as the Web evolved into a major information source. But over the years, more and more bibliographies have suffered from “reference rot”: Cited URLs are broken links or point to a page that no longer contains the content the author originally cited. In this column, I look at several studies showing how reference rot has affected different academic disciplines. I also examine citation styles’ approach to citing Web sources. I then turn to emerging Web citation practices: Perma, a “freemium” Web archiving service specifically for citation; and the Internet Archive, the largest Web archive.  相似文献   

20.
Web网页制作中的动态技术   总被引:2,自引:0,他引:2  
从两个方面叙述了W eb 网页制作中的动态技术, ① 网页的动态内容技术; ② 网页的动态表现技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号