首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search 两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。  相似文献   

2.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

3.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

4.
Web信息主题采集技术研究   总被引:9,自引:0,他引:9  
李春旺 《图书情报工作》2005,49(4):77-80,70
简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。  相似文献   

5.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

6.
网络竞争情报主题采集技术研究   总被引:2,自引:0,他引:2  
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。  相似文献   

7.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

8.
链接分析与引文分析的比较   总被引:13,自引:1,他引:12  
网络影响因子沿用了期刊影响因子对引文分析的基本思路,但作为链接分析的指标,用于网络环境中的质量评价是不可靠的。可以根据Pagerank算法提出用于论文质量评价的Pagerank算法;可以根据引文衰减系数提出"链接衰减系数"和"平均链接时距"用于研究网页的老化规律。理想的链接分析工具应当是一种专用搜索引擎。  相似文献   

9.
网络使用因子反映某一国家或网站的网页指向其他网页能力的分布情况,可用于测度某一国家或网站的链接分布特征。网络使用因子自诞生起就不可避免的存在一些缺陷,尤其是假设前提、数据获取和算法本身等方面。建议开发专业链接分析工具,构建链接分类体系并对不同类型的链接进行加权得到“加权出链数”,并据此计算“加权网络使用因子”。  相似文献   

10.
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。  相似文献   

11.
黄名选 《图书情报工作》2011,55(15):110-113
针对情报检索系统中存在的词不匹配问题,提出一种基于相关性-兴趣度架构的关联规则挖掘的局部反馈查询扩展算法,并论述查询扩展基本思想、扩展算法模型以及扩展词权值的计算方法。该算法主要特点是采用支持度-置信度-相关性-兴趣度框架衡量关联规则,避免产生负相关的、虚假的和无兴趣的规则,提高来自于关联规则的扩展词的质量。实验结果表明,该算法能有效地改善和提高信息检索性能, 有很高的实际应用价值和推广前景。  相似文献   

12.
将叙词表同传统的信息检索技术相结合,提出用叙词表的族对爬虫的主题进行描述的方法并用该方法设计实现一主题爬虫。实验结果证明本文提出模型和算法的有效性。  相似文献   

13.
基于主题的网络舆情分析模型及其应用   总被引:12,自引:0,他引:12  
网络舆情分析是信息处理领域内的一个新兴且有实用价值的方向。文章分析了网络舆情分析的基本问题,提出了难点以及相关的解决方案,并在此基础上设计了基于主题的网络舆情分析模型。  相似文献   

14.
丁骋  李西铨 《新闻春秋》2020,(1):63-66,75
互联网时代的新闻传播环境发生了巨大变化,虚假新闻及其传播也呈现出新特点。作为互联网技术条件下新闻生产过程的方法论变革,新闻“透明性”原则在实践和理论两个层面不断发展。本文结合《新闻记者》2010—2018虚假新闻研究报告,从“新闻生产前”“新闻生产中”和“新闻生产后”三个层次分析了虚假新闻产生的原因,论述了透明性原则在新闻生产各阶段对规避虚假新闻的生产与传播起到的作用,探讨了透明性原则作为一种新的理念引入新闻工作实践对规避虚假新闻的可行性。  相似文献   

15.
On the heterogeneous web information spaces, users have been suffering from efficiently searching for relevant information. This paper proposes a mediator agent system to estimate the semantics of unknown web spaces by learning the fragments gathered during the users' focused crawling. This process is organized as the following three tasks; (i) gathering semantic information about web spaces from personal agents while focused crawling in unknown spaces, (ii) reorganizing the information by using ontology alignment algorithm, and (iii) providing relevant semantic information to personal agents right before focused crawling. It makes the personal agent possible to recognize the corresponding user's behaviors in semantically heterogeneous spaces and predict his searching contexts. For the experiments, we implemented comparison-shopping system with heterogeneous web spaces. As a result, our proposed method efficiently supported the users, and then, network traffic was also reduced. An erratum to this article can be found at  相似文献   

16.
随着互联网新媒体的迅猛发展,虚假信息随之泛滥,作为高校信息中心的图书馆有责任和义务培养用户信息辨识能力。与一些做得较好的国外高校图书馆相比,国内高校图书馆对用户辨识虚假信息能力的培养不够系统和清晰,具体培训过程的趣味性、实用性及深入性有待提高。文章通过文献和网络调研法,对国内外知名高校图书馆虚假信息辨识培养相关的研究和实践成果进行对比、分析和总结,提出提升馆员媒介与信息素养能力及开展跨学科合作、建立识别虚假信息的指南和网站、建立虚假信息辨别指标体系和培养方法体系、设计实施培养媒介与信息素养的多元实践项目、构建基于信息真假辨识能力的评价体系等五个方面建议,期以有助于我国高校图书馆完善与深化用户虚假信息辨识能力的培养。  相似文献   

17.
本文通过近年来出现的违法广告事件现象,对我国现有的广告监管机制及违法广告背后的利益链进行了分析,提出了建立法治与自治并举广告管理机制的构想,呼唤对社会公民广告素养的普及教育,从而实现自上而下、从外部到内部杜绝虚假违法广告的出现。  相似文献   

18.
浅议近年我国假新闻的发展趋势及新闻职业精神缺失   总被引:1,自引:0,他引:1  
许丽华 《新闻界》2008,(5):56-57
比较近几年的假新可以发现一个令人担忧的现象:假新闻之风越演越烈,不但数量增、媒介增多,而且故意失实也增多。究其原因在于把新闻当作一般信息传播,完全忽视了新闻的本源观,这是新闻职业精神缺失的表现。  相似文献   

19.
《档案法》对保护档案作了多处规定,对于如何保障档案内容的真实,却是空白.由于立法的缺失,导致虚假的文件材料进入档案,由此而引发的案件媒体也多有报道.本文提出了对归档程序的立法,就是文件材料在归档时,必须依据相应的法定程序办理,杜绝虚假的文件材料进入档案.归档程序的立法,是档案工作与时俱进的必然产物,是档案管理的一个新进程.  相似文献   

20.
企业知识管理出现了两大理论方向:流程导向和实时导向。基于二者本身的不足以及知识管理和知识的本质,本研究提出流程为实时知识管理提供一种方向,实时知识管理为流程导向提供一种实现途径,并对知识管理的本质、战略、边界等问题进行了新的阐释。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号