首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于改进编辑距离的相似重复记录清理算法
引用本文:叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(Z1):82-90.
作者姓名:叶焕倬  吴迪
作者单位:中南财经政法大学信息与安全工程学院;
基金项目:国家自然科学基金资助项目“持续审计中智能数据处理及其应用框架研究”(项目编号:70972138); 湖北省教育厅人文社会科学基金项目“基于SOA和MAS的金融监管信息系统总体框架研究”(项目编号:2009b080)的研究成果之一
摘    要:相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。

关 键 词:相似重复记录  编辑距离  语义  同义词词库

Approximately Duplicate Data Cleaning Algorithm Based on Improved Edit Distance
Ye Huanzhuo Wu Di.Approximately Duplicate Data Cleaning Algorithm Based on Improved Edit Distance[J].New Technology of Library and Information Service,2011(Z1):82-90.
Authors:Ye Huanzhuo Wu Di
Institution:Ye Huanzhuo Wu Di(School of Information and Safety Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China)
Abstract:Similarity calculation is a key issue in the process of approximately duplicate data cleaning,and edit distance algorithm is widely used in this application.Based on the traditional edit distance algorithm,by analyzing the sequence length,synonyms and other factors which affect the similarity of the results,an improved approximately duplicate data cleaning algorithm based on semantic edit distance is proposed.This algorithm used synonyms thesaurus and normalized distance metric,and it can be applied to simi...
Keywords:Approximately duplicate data Edit distance Semantic Synonyms thesaurus  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号