首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 775 毫秒
1.
有效的挖掘频繁项集是挖掘最大频繁项集的关键步骤.为了克服Apriori算法在挖掘最大频繁项集上的不足,以及FP-Tree存储结构算法多次遍历的缺点,本文引进了新的矩阵技术,减少了FP-Tree遍历次数来挖掘频繁项集,提高了挖掘频繁项集和最大频繁项集效率.并以此提出基于FP-Tree的改进算法FPgrowth*和FPmax*.最后实验结果说明,矩阵技术的引进有效的提高了频繁项集和最大频繁项集挖掘效率.  相似文献   

2.
提出一种多数据流频繁模式挖掘算法Multiple Data Stream Mining(MDSM).MDSM算法用Multiple Frequent Pattern Tree(MFP-Tree)结构来存储多数据流中的频繁项集和潜在的频繁项集,并通过增量更新的方式高效地挖掘多数据流中的协同频繁模式和比较频繁模式.通过理论分析和实验证明其可行性.  相似文献   

3.
随着互联网的快速发展,频繁模式的挖掘从以往的频繁项集逐渐发展到了结构化的数据,主要包括频繁子树挖掘和频繁子图挖掘。介绍了频繁子树挖掘算法的基本概念及研究现状,对有序树挖掘算法和无序树挖掘算法进行分析,并实现树挖掘相关算法,比较算法的效率和有效性。  相似文献   

4.
在挖掘关联规则的过程中,关键步骤是产生频繁项集.文中提出一种有效的频繁项集挖掘算法—FLMA.算法利用逻辑运算挖掘频繁项集,不产生候选项集,且只需扫描数据库一次,所以此算法是非常有效的.  相似文献   

5.
分析了挖掘频繁访问模式的过程和当前Apriori算法的缺陷,提出了一种Apriori算法的改进算法:BLApriori算法.改进的算法采用不规则数组来保存项集信息,有效省去了扫描数据库所耗费的大量时间.将项集有序性引入到该数组上,减少了候选项集的个数.并采用二进制来表示1阶频繁访问模式,提高了模式匹配和连接的效率.试验结果表明,该改进算法能更有效地发现各种长度不同的访问模式.  相似文献   

6.
Apriori算法是关联规则挖掘技术中的一个经典算法。笔者通过对该算法的思想和性能分析,认为它存在两方面的不足。本文提出了一种提高频繁项集挖掘算法效率的优化方法。实验表明,该优化算法对提高频繁项集挖掘算法的效率是有效的。  相似文献   

7.
本文在分析经典Apriori算法和FP-growth算法存在问题的基础上,提出了一种基于索引数组的频繁项集挖掘算法.该算法以Apriori算法为基础,通过引入索引数组,有效缩小了候选集的范围,同时,因无需要采用FP树的存储结构,节省内存.通过实验性能分析比较,该算法可以有效提高频繁项集挖掘效率.  相似文献   

8.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

9.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

10.
一种基于二进制编码的频繁项集查找算法   总被引:1,自引:0,他引:1  
在数据挖掘中频繁项集的查找时间是影响挖掘关联规则效率的关键因素,Apriori算法是用来找出频繁项集的典型算法,本文针对Apriori算法需反复扫描数据库、产生大量候选项集的不足,提出一种效率更高的基于二进制编码的频繁项集查找算法,该算法找出频繁项集只需一次数据库扫描,不产生候选项集,与Apriori算法相比,算法效率更高.  相似文献   

11.
针对传统的数据频繁项集挖掘技术无法快速有效地获取不确定数据中有价值信息的缺点,通过分析不确定数据产生的原因和当前已开展不确定数据挖掘的相关工作,在结合传统频繁项集挖掘算法的基础上,提出需要明确不确定数据特点,运用几种比较高效的新方法来进行不确定数据的频繁项集挖掘,从而为后续做更深入研究奠定扎实基础。  相似文献   

12.
发现最大频繁项目集在关联规则挖掘中有着重要意义。通过已发现的最大频繁项目集,可容易地发现频繁项目集。提出了一种基于事务树(T-tree)的最大频繁项目集挖掘算法MFIA(Maximum Frequent Itemsets Algorithm),其挖掘过程中只需对数据库扫描一次,从而提高了最大频繁项目集的挖掘效率。  相似文献   

13.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,其挖掘过程的高花费要求对高效更新算法进行深入研究。为此,我们在改进频繁模式树(FP-Tree)的基础上提出了处理最小支持度和数据库都发生变化时的最大频繁项目集更新算法FUMFIA(Fast Updating Maximal Frequent Itemsets Algorithm)。通过对实验结果的分析可以看出,该算法在进行更新挖掘时具有很好的时空效率。  相似文献   

14.
计算机软件蕴含大量工作信息,有效挖掘软件数据信息之间的内在关联是信息时代对软件应用的潜在要求。针对经典Apriori算法挖掘数据效率低、复杂度高的问题,提出一种改进Apriori算法用于挖掘计算机软件数据的关联规则。为计算机软件算法设置双重支持度阈值,即频繁项集与非频繁项集支持度阈值,快速获得强关联的频繁项集;在此基础上基于映射规则重构事务数据库,压缩数据库规模,减少算法的剪枝操作,降低计算机软件数据关联规则挖掘复杂度。以人力资源类计算机软件数据为例展开关联分析测试,结果显示,该算法挖掘的关联信息与人力资源实际管理情况一致,相比经典Apriori算法其效率有所提升。  相似文献   

15.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。  相似文献   

16.
潘磊 《教育技术导刊》2009,19(9):186-189
为提升电网系统日志故障诊断效率,在 Spark 环境下,基于并行 Apriori 算法构建分布式日志故障挖掘系统,针对电网系统相关设备后台日志数据,构建频繁项集并挖掘关联规则,形成系统故障规则库,用于系统故障诊断。系统对 50 万条真实日志数据进行检验。结果表明,该系统可有效发现相关故障日志。同时,该系统在 80G 内存、10 个虚拟节点的集群上以 50s 的速度完成了故障挖掘工作,准确率达 90%,同时提升了原单机系统效率,实现了预期效果。  相似文献   

17.
Querying XML data is a computationally expensive process due to the complex nature of both the XML data and the XML queries. In this paper we propose an approach to expedite XML query processing by caching the results of frequent queries. We discover frequent query patterns from user-issued queries using an efficient bottom-up mining approach called VBUXMiner. VBUXMiner consists of two main steps. First, all queries are merged into a summary structure named "compressed global tree guide" (CGTG). Second, a bottom-up traversal scheme based on the CGTG is employed to generate frequent query patterns. We use the frequent query patterns in a cache mechanism to improve the XML query performance. Experimental results show that our proposed mining approach outperforms the previous mining algorithms for XML queries, such as XQPMinerTID and FastXMiner, and that by caching the results of frequent query patterns, XML query performance can be dramatically improved.  相似文献   

18.
介绍了Web日志挖掘的模型,分析了使用关联规则挖掘Web日志时遇到的规则数量大且存在冗余等问题,提出了基于频繁闭项集的挖掘办法来减少规则数量.同时引入最小关联规则的概念,从而避免了冗余规则的产生.最后用实验验证了算法的有效性,并以周口师范学院校园网为例,对该网站日志数据进行分析,得到了有价值的规则,并对该网站提出了相应的建议和意见.  相似文献   

19.
INTRODUCTIONMiningfrequentitemsetsisafundamentalandessentialprobleminmanydataminingapplica tionsincludingthediscoveryofassociationrules,strongrules,correlations,sequentialrules,epi sodes,multi dimensionalpatterns,andmanyoth erimportantdiscoverytasks (AgarwalandSri kant,1994;Wangetal.,2 0 0 2 ) .Mostalgo rithmsproposedsofarworkwellondatasetswherethesizesofitemsetsarerelativelysmall.Howev er,theyusuallycrashwithdensedatasetswheretheitemsetsizesarelarge.Suchdatasetsincludethosecomposedofque…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号