首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 23 毫秒
1.
个性化推荐系统被越来越多地应用到各类网站中,以解决信息增长带来的信息迷失和信息过栽问题,而协同过滤算法是个性化推荐系统的重要算法之一,但是传统的协同过滤算法存在数据稀疏、冷启动等问题,为了解决这些问题,在综合WEB日志挖掘和聚类两个因素基础上,提出基于WEB日志和聚类的协同过滤算法,并将该算法与传统的协同过滤算法进行分析比较,验证了该算法能够提高推荐的精确度和实时性.  相似文献   

2.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。  相似文献   

3.
流数据是近年来关注比较多的一种数据形式,但由于它自身的特点,无法使用传统的算法对它进行聚类分析.数据挖掘是从大规模数据库中提取感兴趣的信息.聚类是数据挖掘的重要工具,它根据数据间的相似性将数据库分成多个类,每类中数据要求尽可能相似.针对流数据的特点,引入一种采用渔夫捕鱼策略的新的聚类算法.该算法采用动态多点随机投鱼网方法,并且根据捕鱼环境的不同采用不同的探测策略.流数据聚类的捕鱼算法是一种即时更新模型的在线聚类算法.  相似文献   

4.
针对Kmeans算法对海量数据聚类效率过低的不足,基于Hadoop的分布式架构思想,提出一种多核果蝇-Kmeans聚类算法(MKFOA-Kmeans)。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法,综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程,避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验,表明MKFOA-Kmeans算法对大数据的聚类准确率高,并且随着数据量的增加,聚类效率优势也愈加明显。  相似文献   

5.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

6.
肺栓塞是一种致死率很高的常见疾病,肺栓塞的预测和早期诊断对于人类的健康具有重要意义。本文提出了一种基于属性聚类的多示例集成学习方法,首先采用K-Means聚类算法对CTA数据进行属性聚类,降低数据的维度,然后用多示例集成学习方法进行肺栓塞预测。在真实世界数据集上的实验结果显示,与属性聚类前、单个分类器及一般的简单集成学习方法相比,该方法构造的分类器取得了更好的预测效果。  相似文献   

7.
协同过滤算法在互联网飞速发展的今天得到了广泛应用。由于数据量的膨胀式发展,传统推荐系统的推荐效率受到前所未有的挑战。提出一种改进的协同过滤推荐算法,对数据库数据先进行聚类操作,将用户对项目的平均评分和项目被评价过的次数作为二位网格的维,再根据项目相似性,运用CLIQUE网格聚类算法进行基于项目的聚类。应用协同过滤推荐算法在对应的聚类簇中找到推荐项目。实验证明,该方法能明显提高推荐系统的推荐效率。  相似文献   

8.
传统的基于支持向量机的文本分类器需要大量的人工标注的正类训练文档和负类训练文档。当前流行的文档标注库中,文档通常仅仅是划入不同的类别。为了解决在负类训练数据缺乏的情况下建立文本分类器的问题,提出了一种高效的方法,它结合了Rocchio方法和K均值聚类算法来获取充足的负类训练数据。  相似文献   

9.
聚类分析广泛应用于商务智能、图像模式识别、Web搜索、生物学等领域,是一种无指导的观察式学习。然而,绝大多数聚类分析算法都面临着一个非常棘手的问题——最佳聚类数的确定。K-means是典型的基于划分的聚类方法,它需要用户输入聚类数K,但这通常非常困难。聚类数的确定是决定聚类质量的关键因素。虽然有许多被用来估计最优聚类数的聚类评价指标,但对于不同的聚类算法,不同的评价指标效果差异很大。为确定针对K-means聚类算法效果最好的评价指标,采用4种典型的不同聚类结构特征的人工模拟数据以及来自UCI的真实数据集对7种评价指标的性能进行实验比较,结果表明CH指标和I指标在评估K-means算法的最佳聚类数时效果较好。  相似文献   

10.
提出了基于在线被动-主动学习的多视觉特征自主加权组合算法。该算法在模型训练阶段预先依据视觉特征与图像类别之间的相互关系赋予恰当的权值,减少了多特征组合的计算复杂度。通过推导出在线被动-主动学习算法的闭式解,提出的算法在满足确保图像分类准确度的同时,提高了多特征组合的执行效率,降低了基于直方图交核学习算法的计算复杂度。与多核学习算法相比,基于在线被动-主动学习的多特征融合图像分类算法在保持图像分类准确度的情况下,所需的计算时间只有多核学习算法的10%左右。  相似文献   

11.
负荷预测是电力系统分析与运行的基础,对机组组合、经济调度、安全校核等均具有重要意义。随着电网规模不断增大,数据库时间跨度也随之变大,对不良数据及冗余数据的处理造成影响,负荷预测精度和速度的提高难度显著增大。针对这一问题,提出基于懒惰学习与聚类算法的组合模型。该模型以懒惰学习(Lazy Learning, LL)算法为基础,通过选择相似样本对负荷进行差异性预测建模。在预测应用中,为缩小样本库数量,减小 LL算法的预测时间,利用模糊C均值聚类(Fuzzy C-means,FCM)对用电特征进行聚类从而生成局部训练集,以改进LL算法局部建模。实验结果表明, FCM-LL组合算法不仅能高效精确地预测负荷,而且能实现数据库的实时更新。  相似文献   

12.
为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。  相似文献   

13.
针对协同过滤算法中存在数据稀疏的问题,提出一种基于融合用户标签和蚁群的协同过滤微博推荐算法。将表示用户兴趣的标签引入推荐模型中,利用标签和用户以及标签和微博的关联度,建立用户对微博的兴趣度模型。另外结合蚁群聚类和协同过滤为目标用户进行用户聚类,计算出对目标用户的待推荐微博集。最后利用用户对微博的兴趣度模型从待推荐微博集中选出Top-N为目标用户进行推荐。实验引入标签和蚁群算法的有效性,将测试结果与传统协同过滤推荐算法和纯基于标签的微博推荐算法进行比较,该算法不仅改善了协同过滤算法中数据稀疏和冷启动的问题,而且推荐准确度有明显提高。  相似文献   

14.
针对传统协同过滤推荐算法中存在的数据稀疏性问题,提出了一种基于二分K means的协同过滤推荐算法。该算法在K means算法的基础上,为了降低初始质点选择对聚类结果的影响,在运行中逐个添加质点。首先初始化评分数据并将其作为初始簇,然后选择合适的簇随机产生两个质点将簇分裂为两个簇,重复上述步骤,直到聚类完成。最后为了降低不同用户评分标准差异,将用户评分的平均值和用户同簇内相互间的相似度相结合,计算预测评分矩阵,生成推荐结果。实验结果表明,改进后的算法较好地解决了数据稀疏问题,提高了推荐质量。  相似文献   

15.
不同的聚类算法都可以完成对无标签数据的分类,而Kmeans聚类算法是一种无监督静态数据分析机器学习方法,已被广泛应用于机器学习、模式识别、数据挖掘等领域.但对维度数据准确率不高,本文引入深度自动编码器完成对输入样本的特征自动学习和重构,实现对数据的降维和特征提取,代替原始数据通过Kmeans算法进行聚类分析.实验结果证明,改进后的AE Kmeans(Auto Encoder Kmeans)算法与单独使用Kmeans算法完成聚类相比,准确率得到明显提高.  相似文献   

16.
为了解决数据高维、海量导致聚类算法处理效果不佳的问题,提出将流形学习理论引入客户关系管理进行聚类研究。为了较好的分析客户价值,在Kmeans聚类的基础上引入流形学习理论。客户价值分析一般包含数据的抽取、探索以及预处理、模型建立几个步骤。在模型建立过程中一般采用Kmeans聚类实现。使用流形学习的谱聚类来替代Kmeans聚类。使用泰迪杯数据挖掘大赛中的数据进行试验,通过实验的雷达图可以看出,谱聚类与Kmeans聚类具有相似的分类构成。同时对于分类后的数据进行规约并绘制散点图,比较后发现,谱聚类后的数据类间相似度比Kmeans高,表明将流形学习方法引入客户价值分析,对于聚类稳定性有一定改善。  相似文献   

17.
协同过滤推荐系统是电子商务系统中最成功、最重要的技术之一,而在协同过滤算法中用户相似度的计算是影响算法效率的重要因素。针对传统协同过滤算法中数据稀疏导致的近邻选择不准确问题,引入灰关联分析理论进行项目聚类和用户相似度计算,并以此为基础提出了一种新的协同过滤算法,既解决了对象匹配的不足,又提高了近邻选择的准确性。实验表明,该算法可以有效解决大规模数据下用户评分数据极端稀疏带来的问题,显著提高系统的推荐质量。  相似文献   

18.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。  相似文献   

19.
根据文本信息在聚类过程中的特点构建了一种基于K medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高。  相似文献   

20.
目前对聚类算法的研究越来越多,在数据挖掘领域,聚类面临着新的形势。总结了数据挖掘中主要的传统聚类算法,介绍了聚类方法的最新发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号