首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
指出Web挖掘是从数据挖掘发展而来,是集合Web技术、数据挖掘、信息科学等多领域为一体的一项综合技术;介绍Web挖掘的概念、分类以及Web页面之间链接结构挖掘的HITS与Page-rank等算法;提出基于样本模式特征提取的信息检索方法。最后,分析Web链接挖掘面临的问题和未来研究的发展趋势。  相似文献   

2.
网络信息计量学研究(Ⅳ)--网站链接特征的分层研究   总被引:3,自引:1,他引:2  
通过本节的研究我们发现①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析.从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的.这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系.  相似文献   

3.
宋丹  林鸿飞  杨志豪 《情报学报》2007,26(4):555-560
话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术.话题跟踪任务就是根据某一话题的训练报道,在后续报道中找出讨论该话题的所有报道.虽然传统的基于内容计算的话题跟踪方法也可以应用于Web话题跟踪,但它并没有利用Web的页面特征.文章针对Web页面的特点,提出了一种利用链接分析和内容计算相结合来进行Web话题跟踪的方法.实验证明这种方法是有效的.  相似文献   

4.
本文针对互联网上信息的日益海量增长的情况,在评述前期算法的基础上,提出了一种关键资源页面判定树的增量式更新算法.新算法使用Web页面的链接分析方法,选择合适的Web页面属性,并基于反例的统计信息来构造判定树的测试属性值,采用ID5R算法来处理训练样本不断增长的关键资源页面判定的机器学习任务.同时设计了适合于该算法的剪枝策略,它通过引入并实时更新反例样本比率并在其值低于抑制因子时停止分裂的办法,避免了树的过度增长与抗嗓能力差、泛化情况糟糕的情况.实验表明增量式更新算法能更高效地生成关键资源页面判定树.最后讨论了该算法的应用领域.  相似文献   

5.
介绍OpenURL的背景和现状,探讨开放链接解析器的结构与功能,以及数据库对OpenURL的不同支持程度和解决方法,提出开放链接解析器实现过程中的关键算法,最后给出开放链接解析器实现后的效果页面.  相似文献   

6.
通过本节的研究我们发现:①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析。从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的。这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系。  相似文献   

7.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

8.
链接分析技术在信息检索中起着核心作用,是当前Web搜索引擎的核心技术.由于其具有的广泛适用性,已经被应用于社会科学领域.知识发现在公共决策中也有其相当重要性.在当前互联网信息呈指数级增长,伴随大量信息产生的背景下,文章主要研究针对公共决策的一种恰当的改进的链接结构分析算法,为公共决策应用提供了一种方法上的探索.通过对Web挖掘技术的相关链接结构方法引入权重值对其进行改进,结果表明,改进后的算法明显提高了算法的精准度,更加适宜在公共决策过程中,从庞大复杂信息系统中进行知识发现,促进公共决策更具科学性.  相似文献   

9.
二部图法分析模型是将Web页的内容信息和超链接信息相结合给出的一种基于分类方法的算法,利用二部图可以求出网页的最大匹配与完全匹配,挖掘出隐含的知识社群,能更准确地实现对用户的合理定位。  相似文献   

10.
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法.首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取.实验结果表明,本文提出的方法能够有效提取卷期目录链接.  相似文献   

11.
一种基于源网页质量的锚文本相似度计算方法--LAAT   总被引:8,自引:0,他引:8  
陆一鸣  胡健  马范援 《情报学报》2005,24(5):548-554
锚文本作为对目标网页的描述,往往分布在不同的源网页上,质量也参差不齐。本文利用了超链接分析算法的成果,提出一种基于源网页质量的锚文本相似度计算方法——LAAT(Link Aid Anchor Text)。实验表明,利用源网页质量能够有效地综合各源网页上的锚文本组成,从而能够提高检索性能。  相似文献   

12.
关联数据的动态链接维护研究   总被引:2,自引:1,他引:1  
郭少友 《图书情报工作》2011,55(17):112-116
分析关联数据集之间链接的动态性,在此基础上探讨三种动态链接维护方法。基于WODLMP协议的方法要求链接双方都遵守WODLMP协议。基于更新通知的方法适用于目标数据集具有数据更新通知机制的情况,需要针对目标数据集的数据更新通知机制采取相应的更新数据获取方法。基于主动监测机制的方法对目标数据集的要求较低,只需要提供SPARQL查询接口或支持RDF堆下载即可。   相似文献   

13.
谷俊  翁佳  许鑫 《图书情报工作》2014,58(20):91-99
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。  相似文献   

14.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

15.
Hyperlinks from other Web sites are, in some respect, similar to bibliographical citations. Link analysis, like citation analysis in bibliometrics, has emerged as a research area of webometrics in recent years. But why are links made and where do they point? A sample of inlinked Web entities (i.e., Web pages or Web sites) was randomly selected from a group of academic institutions' Web sites. The inlinked sites, along with the hyperlink data and outlinking sites, were analyzed and categorized to form a taxonomy of inlinked sites. Based on this taxonomy, a list of reasons for hyperlinking, grouped in four top-level categories (teaching/learning, research, service, and home page), was identified. Compared with bibliographical citations, hyperlinks were made for a different set of reasons. Hyperlinking also has fewer dimensions, less complexity, and little negative implication. On the whole, almost 50% of all the inlinks examined were created for pointing to resource or directory information provided at the target Web sites. In addition, nearly three fourths (73%) of all the inlinked sites analyzed in this study were linked to for reasons relating to service or home page while less than one third (27%) of the links were made out of research or teaching/learning motivations. Yet, teaching and research are the two major criteria traditionally used for evaluating academic institutions. These findings, although by no means conclusive, suggest that evaluative link-based studies should not only consider link counts but also reasons for hyperlinking in order to ensure the validity of such research.  相似文献   

16.
WEB超链分析及应用   总被引:4,自引:0,他引:4  
文章分析了传统的基于文本处理的信息检索算法在处理WEB页面时遇到的问题,指出在处理WEB页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索结果排序两个方面的应用及相应的算法。  相似文献   

17.
Political candidates have responded to the public's desire to use the Internet as an interactive information source by creating their own online presence. This study is a content analysis of the Web sites and blogs of the 10 Americans vying to be the Democratic candidate for the 2004 presidential election. Focusing on interactivity, data indicated front pages hyperlink to participation areas such as Donation or Volunteer sections and rarely linked to external content. Blogs used hyperlinks at a rate less than Web sites. Interactivity was encouraged through text, as 83.7% of Web sites asked voters to become more involved. Blog posts discussed issues and attacked the opponents, including President Bush. For the most part, blog posts were personal in nature and used direct address. The tactical use of advanced Web site features showed a technological progression of political campaigning and an overall increase in interactivity through technology and text.  相似文献   

18.
链接分析是近些年来信息计量学研究的一个热点问题。以国内2000-2010年链接分析的部分研究成果为对象,运用词频统计、共词网络等方法对其进行计量分析。研究发现,国内链接分析研究目前主要集中在图书情报学和计算机科学领域。这两个领域的研究既有一些交叉的内容,也各自有一些学科特色鲜明的研究子主题。  相似文献   

19.
Web search algorithms that rank Web pages by examining the link structure of the Web are attractive from both theoretical and practical aspects. Todays prevailing link-based ranking algorithms rank Web pages by using the dominant eigenvector of certain matrices—like the co-citation matrix or variations thereof. Recent analyses of ranking algorithms have focused attention on the case where the corresponding matrices are irreducible, thus avoiding singularities of reducible matrices. Consequently, rank analysis has been concentrated on authority connected graphs, which are graphs whose co-citation matrix is irreducible (after deleting zero rows and columns). Such graphs conceptually correspond to thematically related collections, in which most pages pertain to a single, dominant topic of interest.A link-based search algorithm A is rank-stable if minor changes in the link structure of the input graph, which is usually a subgraph of the Web, do not affect the ranking it produces; algorithms A,B are rank-similar if they produce similar rankings. These concepts were introduced and studied recently for various existing search algorithms.This paper studies the rank-stability and rank-similarity of three link-based ranking algorithms—PageRank, HITS and SALSA—in authority connected graphs. For this class of graphs, we show that neither HITS nor PageRank is rank stable. We then show that HITS and PageRank are not rank similar on this class, nor is any of them rank similar to SALSA.This research was supported by the Fund for the Promotion of Research at the Technion, and by the Barnard Elkin Chair in Computer Science.  相似文献   

20.
基于链接的公共图书馆与高校图书馆网站影响力比较研究   总被引:2,自引:0,他引:2  
以省级公共图书馆网站和985高校图书馆网站作为样本,通过链接分析的方法,选取网页数、内链数、影响因子等指标考查公共图书馆和高校图书馆网站的影响力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号