首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
针对传统装箱算法在处理海量数据时所存在的的运行效率与空间利用率低的问题,在深入研究已有装箱算法的基础上,在分布式系统中定义一种可变大小的箱子,结合动态和静态算法的优势,提出基于MapReduce的动态装箱算法。实验结果表明,针对海量动态数据,运用基于MapReduce的动态装箱算法,结果接近最优解,同时具有很高的处理效率。  相似文献   

2.
针对现有序列聚类算法在对大规模数据进行聚类时,内存空间和计算时间开销较大的问题,提出了基于MapReduce的人工蜂群聚类算法。该算法通过引入MapReduce并行编程范式,快速计算聚类中心适应度,可实现对大规模数据的高效聚类。基于仿真数据对算法的聚类效果和聚类效率进行了验证。实验结果表明,与现有PK-Means算法和并行K-PSO算法相比,该算法具有更好的聚类效果和更高的聚类效率。  相似文献   

3.
对云计算技术和数据挖掘进行研究,分析Apriori算法,针对其局限性,提出优化方案,引入云计算中MapReduce模型,实现并行化。提出一种基于MapReduce的频繁项集挖掘方法,以提高算法的运行效率,降低算法执行所需的开销。  相似文献   

4.
随着信息技术的发展,基于MapReduce模型的大数据分析算法不断更新优化,出现一批典型的算法及模型。这些算法根据其自身特点可分为Map阶段算法、Reduce阶段算法和迭代算法。影响算法执行效率的因素包括数据规模、数据结构和算法流程等。不同的算法具有不同的适用范围,需要根据数据规模和应用情形进行算法选择和多种算法组合。  相似文献   

5.
Fp-Growth算法是频繁模式挖掘的经典算法,已在许多领域得到了良好应用。传统Fp-Growth算法是基于内存的,而计算机内存却无法装载入大数据,故传统Fp-Growth算法并不能有效地处理大数据。提出一种新的基于MapReduce并行计算框架的Fp-Growth实现,使Fp-Growth算法在多台计算机上并行计算,从而实现大数据的有效处理。实验结果表明,该算法具有很好的扩展性,频繁模式挖掘效率随着用于计算的主机的增加而平稳提升。  相似文献   

6.
针对MapReduce任务调度中任务属性取默认值的不合理性以及人为指定值的不确定性,对调度算法实现动态调整任务优先级、计算合理的Reduce任务数、明确Reduce任务启动时机等改进,达到提升任务并行度、缩短作业执行时间的目的.Fair与LATE算法改进前后的实验结果表明,基于任务属性的改进能提高调度算法性能与作业整体执行效率.  相似文献   

7.
李冲 《教育技术导刊》2018,17(10):76-80
基于用户的协同过滤推荐算法是应用范围广且应用效果较好的推荐算法之一。传统单机模式下运行的基于用户的协同过滤推荐算法在面对海量数据时存在严重的性能瓶颈问题,很难满足实际计算需求,而基于MapReduce的并行计算框架为解决该问题提供了新思路。MapReduce是Hadoop开源框架的核心计算编程模型, MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,可将自己的程序运行在分布式系统上。根据基于用户的协同过滤推荐算法特点,提出MapReduce并行化实现方法。实验结果表明,在MapReduce并行计算框架下实现的基于用户的协同过滤推荐算法在算法性能及稳定性方面都取得了理想效果。  相似文献   

8.
民航信息系统日志包含大量信息,但由于日志数据非结构化,不易被读取且数据量巨大,难以通过人工分析得出有价值信息。Hadoop分布式计算技术恰好可以很好地解决这个问题。设计了基于Hadoop的民航日志分析系统,系统结合数据挖掘领域经典的KNN分类算法,对算法进行了并行化改进,给出算法在Hadoop平台的MapReduce编程模型上的执行流程。对系统进行单机和集群测试,集群系统在处理较大规模数据时更高效。实验结果证明,系统具有较高的执行效率和可扩展性,对民航日志分析具有较高的实用价值。  相似文献   

9.
不断增大的数据规模给Hadoop集群处理能力带来了挑战,而合理的作业调度方式与策略能够提高集群的运行效率。通过对Hadoop MapReduce的任务调度机制进行研究,设计了节点负载能力与动态优先级的计算方式,提出了一种动态优先级的负载均衡调度算法,并搭建小型Hadoop平台进行了实验分析。结果表明,该算法在集群负载均衡方面的效果要优于传统调度算法。  相似文献   

10.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

11.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

12.
针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集来描述集群中节点的负载和作业的数据本地性需求,使用状态转移函数表示调度策略对状态的影响,采用值迭代求解算法求取最优策略,实现集群中节点的最优调度.实验结果表明,该算法能够保证数据本地性的同时,减少作业响应时间,提高系统综合性能.  相似文献   

13.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。  相似文献   

14.
Collaborative Filtering (CF) technique has proved to be one of the most successful techniques in recommendation systems in recent years. However, traditional centralized CF system has suffered from its limited scalability as calculation complexity increases rapidly both in time and space when the record in the user database increases. Peer-to-peer (P2P) network has attracted much attention because of its advantage of scalability as an alternative architecture for CF systems. In this paper, authors propose a decentralized CF algorithm, called PipeCF, based on distributed hash table (DHT) method which is the most popular P2P routing algorithm because of its efficiency, scalability, and robustness. Authors also propose two novel approaches: significance refinement (SR) and unanimous amplification (UA), to improve the scalability and prediction accuracy of DHT-based CF algorithm. The experimental data show that our DHT-based CF system has better prediction accuracy, efficiency and scalability than traditiona  相似文献   

15.
改进了传统的神经网络BP算法,提出了基于广义BP算法的非线性不确定系统的神经网络模型参考自适应控制方案.并将其用于非线性不确定系统的控制,仿真实验表明了控制器具有良好的非线性控制性能.  相似文献   

16.
工业串联机械臂是工业机器人的一种,由多个关节串联而成.由于关节较多,机械臂在运动过程中各关节运动误差不断叠加,导致机械臂末端执行器误差较大.为了更加精确控制机械臂运动,文章在分析微分先行PID算法的基础上,结合HOOKE搜索法,改进了原始人造鱼群优化算法.基于传统无模型控制理论,提出一种改进的无模型控制算法,并进行了相关仿真分析.仿真结果表明,改进后的人造鱼群优化算法具有较高的准确性,收敛速度大大加快,改进后的无模型自适应算法,具有较好的鲁棒性,系统跟踪误差明显降低。  相似文献   

17.
常浩 《太原大学学报》2012,13(1):131-133,140
云计算通过互联网提供随需应变的资源或服务,通常依据数据中心的规模和可靠性水平而定。MapReduce是一个为并行处理大量数据设计的编程模型,在云环境中实现HadoopMapReduce框架,使用虚拟的负载平衡来改进单节点和多节点系统的性能。  相似文献   

18.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。  相似文献   

19.
布谷鸟算法是基于启发式搜索的智能仿生算法。传统的布谷鸟算法收敛速度较慢,容易陷入局部最优解。针对该算法特点,对算法原理进行了分析,并就算法中步长和发现概率两个控制因素进行改进,使其根据迭代次数动态变化,提出了具有自适应调整特点的搜索算法,改变了步长和发现概率相应的更新方式,避免了传统布谷鸟算法容易陷入局部最优的缺陷,以增强算法搜索性能。实验对比表明,自适应调整的布谷鸟算法具有更好的寻优性能。  相似文献   

20.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号