首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
INTRODUCTIONMiningfrequentitemsetsisafundamentalandessentialprobleminmanydataminingapplica tionsincludingthediscoveryofassociationrules,strongrules,correlations,sequentialrules,epi sodes,multi dimensionalpatterns,andmanyoth erimportantdiscoverytasks (AgarwalandSri kant,1994;Wangetal.,2 0 0 2 ) .Mostalgo rithmsproposedsofarworkwellondatasetswherethesizesofitemsetsarerelativelysmall.Howev er,theyusuallycrashwithdensedatasetswheretheitemsetsizesarelarge.Suchdatasetsincludethosecomposedofque…  相似文献   

2.
为了解决频繁闭项目集挖掘中时间和存储开销大的问题,提出了一种基于FC-tree(频繁闭模式树)的频繁闭项目集挖掘算法max-FCIA(最大频繁闭项目集挖掘算法).该算法利用哈希表映射事务数据库,通过对哈希表进行操作从而得到所有频繁项目集的支持度,进而生成包含所有频繁项目的有序树.经过剪枝处理的有序树就是包含所有最小频繁闭项目集的FC-tree,最后用最小频繁闭项目集生成频繁闭项目集.实验结果表明,该算法通过映射事务数据库,减少了扫描数据库所浪费的时间,提高程序执行效率.另外,运用有效的剪枝策略,避免了不必要候选项目集的生成,节省了存储空间,实验证明该算法是有效的.  相似文献   

3.
提出了一种新的挖掘最大频繁集的深度优先算法GMPV。该算法利用集合枚举树,并用位置向量来表示项目子集,挖掘过程中使用了超集检测和基于支持度的剪枝技术,减少了某些项目子集的支持度计算。  相似文献   

4.
提出了一种挖掘频繁项目集的有效算法——FFP-Growth,该算法采用自底向上的策略搜索频繁模式树,但不同于FP-Growth的是它无须生成条件模式基和频繁模式子树,且生成的频繁模式树较TD-FP-Growth生成的频繁模式树小,因而能提高关联规则的挖掘效率.类似于TD-FP-Growth的扩展TD-FP-Growth(M)和TD-FP-Growth(C),FFP-Growth很容易被扩展,以此来有效地减小搜索空间.实验结果表明本提出的算法是有效可行的.  相似文献   

5.
关联规则挖掘用于发现大量数据中项集之间有趣的关联或相关联系,在关联规则挖掘过程中,频繁项集的产生是最重要的步骤。本文提出一种新的频繁项集生成算法,基于项分组的思想,利用矩阵来存储各项的频率信息.只需扫描数据库一次。由于对项进行了分组,充分利用了各个事务的重复信息,因此在项数很多时算法效率仍然较高,实践证明,这是一个高效的频繁项集生成算法。  相似文献   

6.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,其挖掘过程的高花费要求对高效更新算法进行深入研究。为此,我们在改进频繁模式树(FP-Tree)的基础上提出了处理最小支持度和数据库都发生变化时的最大频繁项目集更新算法FUMFIA(Fast Updating Maximal Frequent Itemsets Algorithm)。通过对实验结果的分析可以看出,该算法在进行更新挖掘时具有很好的时空效率。  相似文献   

7.
针对传统的数据频繁项集挖掘技术无法快速有效地获取不确定数据中有价值信息的缺点,通过分析不确定数据产生的原因和当前已开展不确定数据挖掘的相关工作,在结合传统频繁项集挖掘算法的基础上,提出需要明确不确定数据特点,运用几种比较高效的新方法来进行不确定数据的频繁项集挖掘,从而为后续做更深入研究奠定扎实基础。  相似文献   

8.
针对Apriori算法寻找频繁项集问题,提出了一种基于有向图的频繁集挖掘算法DGFM,该算法将事务数据库表示成二进制矩阵,利用有向图的思想,将频繁项的二进制位串作为有向图的权值,再将二进制矩阵用邻接表存储,通过搜索邻接表来生成频繁项集,最后试验证明该方法比Apriori算法具有更高的效率和性能.  相似文献   

9.
计算机软件蕴含大量工作信息,有效挖掘软件数据信息之间的内在关联是信息时代对软件应用的潜在要求。针对经典Apriori算法挖掘数据效率低、复杂度高的问题,提出一种改进Apriori算法用于挖掘计算机软件数据的关联规则。为计算机软件算法设置双重支持度阈值,即频繁项集与非频繁项集支持度阈值,快速获得强关联的频繁项集;在此基础上基于映射规则重构事务数据库,压缩数据库规模,减少算法的剪枝操作,降低计算机软件数据关联规则挖掘复杂度。以人力资源类计算机软件数据为例展开关联分析测试,结果显示,该算法挖掘的关联信息与人力资源实际管理情况一致,相比经典Apriori算法其效率有所提升。  相似文献   

10.
为明确中医治疗抑郁症用药规律,融合Apriori优化算法与Relim算法,采用数据挖掘技术进行分析。针对传统Apriori算法频繁扫描数据库从而生成大量候选项集的缺点,改变其原有剪枝方式以减少扫描次数。将改进后的Apriori算法与无需产生候选项集的Relim算法就中医治疗抑郁症的方剂数据进行关联规则分析,并绘制两个算法时间效率图。结果发现,两种算法在挖掘药物频繁项集与关联规则的结果基本相同,通过分析发现,中医常以疏肝、理气、补肾、滋阴等药物为主治疗抑郁症。改进后的Apriori算法可降低数据库扫描次数,较传统Apriori算法运行效率有所提高,Relim算法在空间利用率和时间执行率上均略优于改进后的Apriori算法。两种算法挖掘结果体现出中医治疗抑郁症注重疏肝理气、补肾滋阴、调理气血等特点。基于关联规则的方法可作为中医用药规律分析的重要工具。  相似文献   

11.
文章提出了一种基于位图矩阵技术和Apriori性质的多维关联规则改进算法.该算法利用位图矩阵技术降低扫描数据库的开销,应用Apriori性质减少频繁项集的搜索范围,从而提高算法运算速度.实践表明,该算法是一种有效的多维关联规则算法,具有较好的性能.  相似文献   

12.
针对Apriori算法多次扫描事务数据库且产生庞大的候选集性能瓶颈,本文提出了Apriori算法的优化算法。该算法利用频繁项集产生时需要自身连接的特征,在连接前对频繁项集依据支持度由小到大进行排序,从而优化连接策略,并将其运用到描述事务数据库的布尔矩阵中。经实验证明,该算法随着事务数据库规模的扩大,较Apriori算法有明显的优越性。  相似文献   

13.
基于项目增长法高效求解最大频繁项集   总被引:1,自引:0,他引:1  
针对Apriori算法存在的问题提出了一种改进方法.本算法只需对数据库一次扫描,即可得到所有频繁项集;增强了产生候选项的针对性和有效性;提高了候选项的支持事务计数的效率;在求解最大频繁项集时,由于求解过程中无需用到大量的中间结果,节省了内存空间;通过比较分析,本方法提高了挖掘效率和性能.  相似文献   

14.
A novel algorithm for frequent itemset mining in data warehouses   总被引:2,自引:0,他引:2  
INTRODUCTION A data warehouse (Inmon, 1996) is an integrated and time-varying database primarily used for the support of decision-making, and integrates volumi- nous data from multiple and independent data sources consisting of operational databases in a common repository for querying and analysis. In terms of data modeling, a data warehouse consists of one or several dimensional models that are composed of a central fact table and a set of surrounding dimension tables each corresponding t…  相似文献   

15.
发现最大频繁项目集在关联规则挖掘中有着重要意义。通过已发现的最大频繁项目集,可容易地发现频繁项目集。提出了一种基于事务树(T-tree)的最大频繁项目集挖掘算法MFIA(Maximum Frequent Itemsets Algorithm),其挖掘过程中只需对数据库扫描一次,从而提高了最大频繁项目集的挖掘效率。  相似文献   

16.
提出一种多数据流频繁模式挖掘算法Multiple Data Stream Mining(MDSM).MDSM算法用Multiple Frequent Pattern Tree(MFP-Tree)结构来存储多数据流中的频繁项集和潜在的频繁项集,并通过增量更新的方式高效地挖掘多数据流中的协同频繁模式和比较频繁模式.通过理论分析和实验证明其可行性.  相似文献   

17.
介绍了Web日志挖掘的模型,分析了使用关联规则挖掘Web日志时遇到的规则数量大且存在冗余等问题,提出了基于频繁闭项集的挖掘办法来减少规则数量.同时引入最小关联规则的概念,从而避免了冗余规则的产生.最后用实验验证了算法的有效性,并以周口师范学院校园网为例,对该网站日志数据进行分析,得到了有价值的规则,并对该网站提出了相应的建议和意见.  相似文献   

18.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

19.
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。  相似文献   

20.
为了解决MINWAL(O)算法存在的重复扫描数据库、挖掘出的加权频繁项集可能包含多个权值较低的项目等问题,提出一种新的加权关联规则算法.该算法定义了新的加权关联规则模型,提出最小支持期望的概念用于候选项集的修剪,挖掘出感兴趣的加权频繁项集.测试结果证明该算法有较高的时间效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号