首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   13篇
  免费   0篇
  国内免费   3篇
教育   6篇
科学研究   3篇
综合类   1篇
信息传播   6篇
  2022年   1篇
  2015年   1篇
  2014年   2篇
  2011年   3篇
  2010年   1篇
  2008年   2篇
  2007年   3篇
  1999年   1篇
  1996年   2篇
排序方式: 共有16条查询结果,搜索用时 0 毫秒
1.
相似重复记录清理方法研究综述   总被引:3,自引:0,他引:3  
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。  相似文献   
2.
数据清洗研究综述   总被引:9,自引:0,他引:9  
对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模型,分析相关算法与工具,给出数据清洗评估方法;并对今后数据清洗的研究和应用进行展望。  相似文献   
3.
"相似重复记录检测"是数据清洗要解决的主要问题之一,对于提高数据质量及决策可靠性起到关键作用。编写SQL存储过程脚本实现了一种相似重复记录检测算法———PCM算法,测试了算法性能,针对PCM算法时间复杂度较高的缺陷,提出了利用SQL语句优化技术改进算法执行效率。  相似文献   
4.
冷鹏 《科协论坛》2007,(7):55-56
随着计算机的普及与Internet的发展,信息技术的大量应用,人们做决策时对数据的依赖性越来越强。通过了解数据清理的概念、意义,分析数据中存在的"脏数据"、数据清理的方式、方案、流程及所用的技术与方法等。  相似文献   
5.
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度。在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并。  相似文献   
6.
提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验证明,该方法是有效的。  相似文献   
7.
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。  相似文献   
8.
本文讨论了在使用ORACLE作为管理信息系统(MIS)的数据库管理系统时,如何来保证数据记录的唯一性。当由于一些原因已经产生了重复记录时,如何将重复记录删除。  相似文献   
9.
一种deep web数据源下重复记录识别模型   总被引:1,自引:0,他引:1  
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.  相似文献   
10.
关于联合目录数据库的数据查重问题   总被引:2,自引:0,他引:2  
数据查重是维护联合目录数据库质量的重要措施.本文分析了机读目录中数据查重的复杂性,介绍了几种有代表性的数据查重方法.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号