首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
杨泳丹 《科技通报》2019,35(7):178-181,185
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。  相似文献   

2.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

3.
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。  相似文献   

4.
文章针对当前网络搜索中主体爬虫搜索策略进行了探讨,而针对搜索策略主要通过两个部分进行分析论述,一部分是建立在Web链接结构之上的策略,而另一种则是建立在网页内容基础之上的策略。最后则是介绍了用以计算相似度的模型,分别为经典模型VSM以及文章所用到的计算方法。  相似文献   

5.
刘启华 《情报科学》2013,(4):51-55,62
将网页内容分析和网页链接分析结合起来,构建了一个基于LDA和领域本体的竞争情报采集系统。实验结果表明,该系统能防止主题漂移的发生,带来较好的主题收获率。  相似文献   

6.
在对PageRank算法和主题链接分析的基础上,提出了一种面向主题的链接评价算法TL-PageRank,该算法以"主题随机冲浪"模型为基础,同时利用网页主题分布特性和网页之间相互引用特性,对未爬行链接的权威值进行综合评价.实验表明,TL-PageRank算法在收获率方面比经典的链接评价算法获得了明显的提高.  相似文献   

7.
结合网页内容分析的PageRank算法初探   总被引:1,自引:0,他引:1  
李树青 《情报杂志》2005,24(12):34-35,38
作为一种相当成功的基于超链分析的算法,PageRank算法可以有效地衡量网页重要度权值,然而进一步的研究也表明,这种纯粹依赖于超链分析的算法由于没有考虑到网页内容对网页重要度权值的影响,所以在一定程度上会造成偏差。因此,合理的将两者进行结合,充分利用网页内容特征对PageRank算法进行改进,可以极大的提高这种算法的有效性。  相似文献   

8.
【目的/意义】网络舆情的热点话题对政府和网民有着很大的影响,及时发现热点话题有利于政府监控话题 的发展。【方法/过程】本文提出了基于时间序列的话题动态演化两层模型,并将新闻网页内容的相似度和页面链接 分析作为话题热度的计算依据,然后利用改进的Single-Pass算法进行增量聚类获得聚类中心,最后根据热度权重将 聚类中心进行排序,获得热点话题。【结果/结论】通过实验验证,该算法发现效果好,能够更好地获得热点话题。  相似文献   

9.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

10.
分析了基于链接结构的PageRank算法,考虑算法在网页排序方面的客观优点的同时,指出了其在判定网页主题相关性方面的不足,提出了基于主题预测相关度加权的改进策略,为提高定向信息采集的准确率和召回率提供了理论依据.  相似文献   

11.
语义Web与网络信息过滤   总被引:3,自引:1,他引:3  
分析了信息过滤的方法、实现技术和存在问题,介绍了语义Web的定义、关键技术、体系结构,以及对网络信息过滤的意义,指出基于语义Web的网络信息过滤是实现智能信息过滤的发展方向。  相似文献   

12.
网络挖掘   总被引:3,自引:0,他引:3  
随着WWW上信息资源的急剧增加,用户越来越要求使用自动化工具来查找所期望的信息资源.同时随着网络成为电子商务的主要工具,要求那些已投资于因特网的企业跟踪和分析用户的访问模式来进行个性化的服务.这些都要求建立服务器端和客户端的智能系统能够挖掘站点上的数据,有关网络挖掘方面的研究也成为现在的热点.  相似文献   

13.
丁振国  凌仲权 《情报杂志》2003,22(12):70-71
首先介绍了网络信息挖掘的概念,深入分析研究了网络信息挖掘中的几种关键技术并比较了网络信息挖掘与网络信息检索的异同,最后展望了网络信息挖掘在未来的应用方向。  相似文献   

14.
异构Web数据库集成检索系统的网页分析技术   总被引:2,自引:0,他引:2  
宋武伟 《情报杂志》2006,25(3):102-104
国外很早就开始异构数据源的集成检索研究和开发,已经有多种成型的系统产品投入使用,近年来国内也陆续有相关产品出现。但能够查阅到的相关文献多是关于系统的整体设计或功能特性的介绍,有关具体实现技术的文章比较少见,本文介绍了相关网页分析技术的使用方法和经验。  相似文献   

15.
谷斌 《情报科学》2002,20(3):320-323
本文论述了当前几种开发Web数据库的主要方案,简明介绍了他们的工作原理,重点介绍了基于ASP技术的Web数据库开发方案,并在此基础上,给出了两种开发动态网页的实例。  相似文献   

16.
The dynamic nature and size of the Internet can result in difficulty finding relevant information. Most users typically express their information need via short queries to search engines and they often have to physically sift through the search results based on relevance ranking set by the search engines, making the process of relevance judgement time-consuming. In this paper, we describe a novel representation technique which makes use of the Web structure together with summarisation techniques to better represent knowledge in actual Web Documents. We named the proposed technique as Semantic Virtual Document (SVD). We will discuss how the proposed SVD can be used together with a suitable clustering algorithm to achieve an automatic content-based categorization of similar Web Documents. The auto-categorization facility as well as a “Tree-like” Graphical User Interface (GUI) for post-retrieval document browsing enhances the relevance judgement process for Internet users. Furthermore, we will introduce how our cluster-biased automatic query expansion technique can be used to overcome the ambiguity of short queries typically given by users. We will outline our experimental design to evaluate the effectiveness of the proposed SVD for representation and present a prototype called iSEARCH (Intelligent SEarch And Review of Cluster Hierarchy) for Web content mining. Our results confirm, quantify and extend previous research using Web structure and summarisation techniques, introducing novel techniques for knowledge representation to enhance Web content mining.  相似文献   

17.
基于页面链接挖掘的Web信息检索   总被引:5,自引:0,他引:5  
胡明  王小虎  刘钢 《情报杂志》2003,22(9):21-22,25
对Web链接结构挖掘在信息检索方面上进行了研究,介绍了Web挖掘的概念、分类,以及HITS与Page-rank等算法,并提出了一种基于样本模式特征提取的信息检索方法。分析了Web链接挖掘面临的问题和未来研究的发展趋势。  相似文献   

18.
袁援  凌卉 《情报杂志》2012,(9):109-114,120
在信息爆炸和知识经济时代,知识共享是推动人机交互的重要手段,现有的Web难以达到其追求目标.但语义Web、语用Web等新一代Web形式能促使其目标的实现,如何权衡其利弊以推动知识共享是将Web推向更广应用的重要问题.在调研Web知识共享相关研究的基础上,比较分析了语义Web、语用Web在知识共享方面的优劣,并提出了采用语义Web和语用Web方法论共同推动知识共享的新思路;基于该思路以数字图书馆为应用案例,并分析了案例中两种Web形式方法论推动的显式和隐式知识共享方法.分析表明:两种Web形式的方法论在推动知识共享方面有其各自优势,对其整合可有效构建Web知识共享模式.  相似文献   

19.
试论网页制作   总被引:8,自引:0,他引:8  
徐亚先 《情报科学》2001,19(2):182-184
本文论述了制作网页的意义,网页设计工具,网页设计的一般原则,网页设计的要素分析以及网页设计中应注意的问题。  相似文献   

20.
网络阅读探析   总被引:11,自引:0,他引:11  
罗燕 《情报探索》2007,(3):89-91
文章阐述了阅读的意义。从阅读取向、阅读心理、阅读材料、阅读特点分析了网络阅读的特性,剖析了网络阅读的本质。探讨了网络阅读的优势和局限性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号