首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于属性权值分组聚类的相似重复记录检测方法
引用本文:王琛.一种基于属性权值分组聚类的相似重复记录检测方法[J].宁波职业技术学院学报,2015(2).
作者姓名:王琛
作者单位:江苏建筑职业技术学院 信息传媒与艺术学院,江苏 徐州,221116
摘    要:为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。

关 键 词:相似重复记录  聚类  特征属性  字段匹配  记录匹配

Approach for Approximately Duplicate Records Detecting Based on a Grouping and Clustering of Attribute Weights
WANG Chen.Approach for Approximately Duplicate Records Detecting Based on a Grouping and Clustering of Attribute Weights[J].Journal of Ningbo Polytechnic,2015(2).
Authors:WANG Chen
Abstract:
Keywords:approximately duplicate records  clustering  attributions  field matching  record matching
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号