首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
文章讨论了在数据垂直分布、水平分布时的保护隐私线性回归问题,提出了两个保护隐私的线性回归协议,并对协议的正确性、安全性进行了分析.两个协议使用MIARCL函数库进行了实验验证,实验结果表明该方案能够解决两方参与的线性回归问题,并且计算效率是可以接受的.  相似文献   

2.
随着信息技术的发展,大量的数据不断被收集和存储,对数据的挖掘规模越来越大,传统的数据挖掘已经无法解决海量数据挖掘问题。网格技术的发展,使得广域分布的海量数据的挖掘问题得到解决。文章根据现实中海量数据挖掘的需求和网格的本质,把并行关联规则挖掘算法应用于网格数据挖掘中,并建立了一个并行数据挖掘模型,验证了并行数据挖掘系统在网格环境的可行性与合理性。  相似文献   

3.
详细了分析传统关联规则Apriori算法的不足,提出了一种改进的关联规则快速挖掘算法。针对当前高校招生录取后大量考生流失问题,使用该算法对某地区考生信息进行数理分析和仿真实验,挖掘了隐含的有用信息,为高校招生录取提供决策性的作用。  相似文献   

4.
INTRODUCTION Improvements in sensor and wireless commu-nication technology enable accurate, automated de-termination and dissemination of a user or object’sposition. There is great interest in exploiting thispositional data through location-based services (LBS)Because of the widespread use of relatively cheapcellular phones or other mobile devices, many loca-tion services will be based on tracking technology toreveal the mobile user’s “personal” location at anygiven time (Einar, 200…  相似文献   

5.
介绍了现有联机分析处理,数据挖掘概念,重点介绍了联机挖掘处理,在联机分析挖掘的基础上提出了一种多数据源流程式数据挖掘的系统框架。  相似文献   

6.
大数据时代,数据和算法正在改变新闻的生产方式以及受众的信息接触行为。一方面,受众的信息获取体验得到了较大提升,另一方面也让受众迷失在新闻媒介构建的拟态环境中,带来隐私权被侵犯、数字鸿沟不断扩大等不利影响。在大数据时代,新闻媒介应该借助数据挖掘和算法技术,提供更多的新闻精品,以提高新闻报道的预测性,引导受众培养高品位的新闻诉求,提升新闻服务功能和舆论引导功能。只有这样,新闻媒介才能在服务好受众的同时,坚守新闻的专业标准,更好地推动社会的和谐发展。  相似文献   

7.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

8.
特征选择及规则提取是数据挖掘过程中的重要环节.Rough集理论提供了一种新的属性约简即特征选择及规则提取工具,但目前Rough集理论研究主要针对单个决策表(或信息系统),分布式环境下的粗糙集理论研究还不多见.文章提出一种垂直分布环境下的特征选择及规则提取算法,算法分析结果表明,该种算法是有效可行的.  相似文献   

9.
分布式算法具有高度的适应性、可伸缩性、低性能损耗和容易连接等特性,可以作为挖掘关联规则的理想平台。分布式系统环境下实现高效分布式算法的方法。数据挖掘同关系数据库的关系,实现算法对数据库结构的要求,明确在实现中需要解决的几个核心问题。  相似文献   

10.
分布式数据挖掘作为适用于异质异构数据的一种数据挖掘方式,它能有效处理数字图书馆分布式数据库的数据挖掘,解决好元数据集中管理与对象数据分散存取之间的矛盾。数字图书馆分布式数据系统在目前技术水平下,可根据PADMA系统理论,基于智能化的软件代理进行构建。  相似文献   

11.
A cluster analyzing algorithm based on grids is introduced in this paper,which is applied to data mining in the city emergency system. In the previous applications, data mining was based on the method of analyzing points and lines, which was not efficient enough in dealing with the geographic information in units of police areas. The proposed algorithm maps an event set stored as a point set to a grid unit set, utilizes the cluster algorithm based on grids to find out all the clusters, and shows the results in the method of visualization. The algorithm performs well when dealing with high dimensional data sets and immense data. It is suitable for the data mining based on geographic information system and is supportive to decision-makings in the city emergency system.  相似文献   

12.
Querying XML data is a computationally expensive process due to the complex nature of both the XML data and the XML queries. In this paper we propose an approach to expedite XML query processing by caching the results of frequent queries. We discover frequent query patterns from user-issued queries using an efficient bottom-up mining approach called VBUXMiner. VBUXMiner consists of two main steps. First, all queries are merged into a summary structure named "compressed global tree guide" (CGTG). Second, a bottom-up traversal scheme based on the CGTG is employed to generate frequent query patterns. We use the frequent query patterns in a cache mechanism to improve the XML query performance. Experimental results show that our proposed mining approach outperforms the previous mining algorithms for XML queries, such as XQPMinerTID and FastXMiner, and that by caching the results of frequent query patterns, XML query performance can be dramatically improved.  相似文献   

13.
随着数据挖掘技术的广泛使用,产生了信息安全和隐私保护的新问题。对当前分布式隐私保护关联规则挖掘的经典算法进行了改进,在不使用当前流行的多方安全计算(SMC)的条件下,用较简单的方法进行隐私保护关联规则挖掘,降低了运算量。同时,在分布式关联规则挖掘的同时,很好地保持了各个站点的数据和信息。  相似文献   

14.
数据挖掘是目前一种新的重要的研究领域。本文介绍了数据挖掘的概念、目的、常用方法、数据挖掘过程、数据挖掘软件的评价方法,对数据挖掘领域面临的问题作了分析和展望。  相似文献   

15.
针对大规模数据集上的模式分类任务,提出了一种基于Parzen窗核密度估计的模式分类隐私保护算法。该算法首先利用Parzen窗算法对原始大规模训练集服从的概率密度进行估计,然后根据估计的概率密度函数构造la个替换训练样本,其中l为原始样本的数目,a通过10折交叉验证方式确定。最后发布替换训练样本进行模式分类,以实现原始数据上的隐私保护。在Adult数据集上的仿真实验充分验证了该算法的有效性。  相似文献   

16.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。  相似文献   

17.
基于信任中心的匿名通信技术已经不适应无线网络和分布式环境,提出了基于网络编码的信息分割匿名交易机制,并将其应用到电子商务活动中,实现了客户身份和交易过程的匿名,保护了客户的隐私和交易过程的安全。理论分析和仿真结果表明,该机制能够有效地防御联合攻击和通信路径追踪,匿名系统的安全性明显提高。  相似文献   

18.
随着www的广泛应用及相应的Web技术的出现,数据挖掘的研究进入了基于Web的新阶段.文章阐述了web数据挖掘的特点,Web数据挖掘的类型以及Web数据挖掘的技术在搜索引擎、电子商务、网络设计中的应用.  相似文献   

19.
通过对数据仓库和分布式数据仓库体系构架的分析,得出当前分布式数据仓库存在的缺点:不能进行灵活的定制,易用性差。分布式数据仓库为了保持全局数据仓库和局部数据仓库的数据一致性,需购买大量昂贵的存储设备来保存两份相同的数据。针对这些缺点,提出了一种基于工作流的分布式数据仓库模型,模型的整体结构基于SOA面向服务的体系结构、分布式。引入了工作流技术来实现灵活定制数据提取需求、分析挖掘需求及结果可视化的需求,并将这些功能封装成整体模型中的业务流程服务。在业务流程服务模型部分提出了数据仓库业务流程执行语言、业务流程的可达性验证算法和优化算法。  相似文献   

20.
聚类是有广泛应用的基本数据挖掘任务.现实生活中大多数的数据是高维的,并且通常相关信息分布在多重关联上.为了保证高效的高维、交叉关联聚类.本文提出了一个有效方法:交叉聚类(CrossClus),该法在用户的指导下执行,既考虑了特征提取的质量,又考虑了聚类的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号