首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于二部图的搜索引擎排序欺骗检测算法
引用本文:陶剑文,方程.基于二部图的搜索引擎排序欺骗检测算法[J].情报学报,2008,27(4).
作者姓名:陶剑文  方程
作者单位:1. 浙江工商职业技术学院信息工程系,宁波,315012;宁波大学信息科学与工程学院,宁波,315211
2. 浙江工商职业技术学院信息工程系,宁波,315012
基金项目:浙江省宁波市自然科学基金
摘    要:"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.

关 键 词:页面排序  链接分析  链接工厂  链接欺骗

An Efficident Detection Algorithm for Search Engine Ranking Spam Based on Bipartite Graph
Tao Jianwen,Fang Cheng.An Efficident Detection Algorithm for Search Engine Ranking Spam Based on Bipartite Graph[J].Journal of the China Society for Scientific andTechnical Information,2008,27(4).
Authors:Tao Jianwen  Fang Cheng
Institution:Tao Jianwen~(1,2) Fang Cheng~1 (1.Department of Information Engineering,Zhejiang Business Technology Institute,Ningbo 315000,2.College of Information Science , Engineer,Ningbo University,Ningbo 315211)
Abstract:Link farm spare and replicated pages can greatly deteriorate link-based ranking algorithms such as HITS.In order to identify and neutralize link farm and replicated pages,we look for sufficient material copied from one page to another.In particularly,we focus on the use of complete hyperlinks to distinguish link targets by the anchor text used.We build and analyze the bipartite graph of documents and their complete hyperlinks to find pages that share anchor text and link targets.Link farms and replicated pa...
Keywords:page rank  link analysis  link farm  link spam  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号