排序方式: 共有16条查询结果,搜索用时 0 毫秒
1.
相似重复记录清理方法研究综述 总被引:3,自引:0,他引:3
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。 相似文献
2.
3.
"相似重复记录检测"是数据清洗要解决的主要问题之一,对于提高数据质量及决策可靠性起到关键作用。编写SQL存储过程脚本实现了一种相似重复记录检测算法———PCM算法,测试了算法性能,针对PCM算法时间复杂度较高的缺陷,提出了利用SQL语句优化技术改进算法执行效率。 相似文献
4.
随着计算机的普及与Internet的发展,信息技术的大量应用,人们做决策时对数据的依赖性越来越强。通过了解数据清理的概念、意义,分析数据中存在的"脏数据"、数据清理的方式、方案、流程及所用的技术与方法等。 相似文献
5.
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度。在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并。 相似文献
6.
邹亚会 《内蒙古科技与经济》2011,(14):77-78
提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验证明,该方法是有效的。 相似文献
7.
王琛 《宁波职业技术学院学报》2015,(2)
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。 相似文献
8.
本文讨论了在使用ORACLE作为管理信息系统(MIS)的数据库管理系统时,如何来保证数据记录的唯一性。当由于一些原因已经产生了重复记录时,如何将重复记录删除。 相似文献
9.
一种deep web数据源下重复记录识别模型 总被引:1,自引:0,他引:1
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的. 相似文献
10.
关于联合目录数据库的数据查重问题 总被引:2,自引:0,他引:2
数据查重是维护联合目录数据库质量的重要措施.本文分析了机读目录中数据查重的复杂性,介绍了几种有代表性的数据查重方法. 相似文献