共查询到20条相似文献,搜索用时 47 毫秒
1.
在动态数据流挖掘过程中,对数据流进行聚类,把未知的数据流划分或者生成到一个簇中。发现隐含的知识、价值和模式,是一种非常有效的数据流挖掘技术。分析和研究了数据流挖掘的聚类算法,并对数据流聚类技术发展进行了展望,提出了数据流挖掘的研究方向。 相似文献
2.
提出了一种新的多数据流聚类算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行聚类.算法采用自回归模型技术度量数据流间的延迟相关,利用频谱估计来抽取数据流的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据流间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据流间距离的度量.此外,算法采用滑动窗口技术对多数据流进行聚类,实时地得出聚类结果且动态地调节聚类的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的聚类效果. 相似文献
3.
4.
针对常规有效信息过滤算法对数据间关联规则识别能力较弱等问题,提出物联网环境下大数据流中有效信息过滤算法。该算法根据数据权重向量维度,通过余弦夹角构建目标相似的大数据推荐模型;设置表层关联与隐含关联预测规则,利用预测函数确定数据间的关联程度;按照数据间的衔接性质,将数据集合划分成若干子集,模糊聚类物联网中的有效信息;根据用户主观倾向设置偏好函数,以协同过滤方式,得到有效信息过滤算法。实验结果表明,与常规有效信息过滤算法相比,该算法对数据关联规则识别能力提升 14.97%,满足当前物联网大数据流中对有效数据的过滤要求。 相似文献
5.
数据流聚类和传统的聚类有很大不同,本文首先介绍了数据流的定义和窗口模型的分类,然后比较了几种具有代表性的数据流聚类算法,最后展望了数据流聚类的发展. 相似文献
6.
7.
8.
《赤峰学院学报(自然科学版)》2016,(8)
聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的聚类算法.本文提出了一种基于k NN的聚类算法k-Nearest Neighbor Cluster(k NNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到聚类效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚类簇数,它可以大致的找到聚类的簇数. 相似文献
9.
探讨了基于大数据的定性数据流聚类优化模型,设计了一个函数作为评价聚类模型有效性的目标函数,同时考虑了聚类模型的确定性和与上一个聚类模型的连续性.根据概念漂移的检测指标,提出了一种综合检测指标和优化模型的定性数据流聚类结构演化趋势的检测方法.通过对几个真实数据集的实验研究,验证了该算法在定性数据流聚类中的有效性,并与现有的数据流聚类算法进行了比较. 相似文献
10.
11.
针对传统协同过滤推荐算法在大数据环境下存在数据稀疏性及计算复杂性等问题,提出一种双向聚类协同过滤推荐算法。该算法首先从用户维度和项目维度两个方向分别进行属性聚类,然后在目标用户和目标项目所在类簇中分别使用改进后的相似度计算方法进行协同过滤推荐,最后通过平衡因子综合预测评分并形成最终推荐列表。在 MovieLens 公开数据集上进行实验,结果表明,该算法(DCF)相比传统协同过滤推荐算法(TCF)、基于用户聚类的协同过滤推荐算法(UCF)以及基于项目聚类的协同过滤推荐算法(ICF),在平均绝对误差上分别降低了 16%、8.1%、7.5%,有效提高了推荐精度。 相似文献
12.
数据流分段是数据流处理技术的基本任务,然而,它在多数据流环境下并不是一个小问题。该文提出了一个高效算法(即QPAAS算法),它能实时处理多个数据流分段。该算法利用了PAA技术中的增量计算特性,能快速处理单个数据流分段。为了处理多个数据流,它索引所有数据流的当前分段到一颗B^+树中,这样算法即可实时分段多个数据流。在真实的数据流上的多个实验表明,QPAAS算法有效而高效,仅具有线性时间和空间复杂度。而且,它比传统的PAA分段算法快几个数量级。 相似文献
13.
针对传统协同过滤推荐算法中存在的数据稀疏性问题,提出了一种基于二分K means的协同过滤推荐算法。该算法在K means算法的基础上,为了降低初始质点选择对聚类结果的影响,在运行中逐个添加质点。首先初始化评分数据并将其作为初始簇,然后选择合适的簇随机产生两个质点将簇分裂为两个簇,重复上述步骤,直到聚类完成。最后为了降低不同用户评分标准差异,将用户评分的平均值和用户同簇内相互间的相似度相结合,计算预测评分矩阵,生成推荐结果。实验结果表明,改进后的算法较好地解决了数据稀疏问题,提高了推荐质量。 相似文献
14.
15.
针对数据流的特点,提出了一种新的网格密度结合的GCTS算法.它采用了双层架构,在线层实现了网格密度参数的自设定,离线层以网格单元的重心为中心点,建立一个最大的子网格,使候选网格中的局部密集区域转化成了密集网格.最后使用最小生成树的算法生成进行聚类结果.提高了聚类效果. 相似文献
16.
传统的集中式聚类算法不适宜对传感器网络的分布式数据进行聚类,用遗传进化机制对传统k-means的分布式聚类算法进行优化,可得出遗传k-means聚类算法。遗传k-means聚类算法即在传感器网络中sink节点传送随机选取的初始k个簇心到各个传感器节点,在这些节点上分别用遗传k-means聚类算法将本地的数据划分到距离最近的簇,然后将簇信息在无线传感器网络里通过路由逐层上传合并汇聚到sink节点,计算k个簇心的平均值,再往下传送k个簇心,反复迭代更新直至聚类目标函数值达到最小为止。实验表明,遗传k-means聚类算法的聚类效果较好,收敛速度较快。 相似文献
17.
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进 K 均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的 PSO 算法迭代寻找全局最优解作为 K-means 聚类所需初始值,然后通过 K-means 进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在 UCI 数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。 相似文献
18.
为了提高超点检测的精度并控制测量资源的使用,提出了一种基于抽样和数据流算法的超点检测方法.该方法通过抽样从概率上保证发送或接收大量流的节点能被检测,同时采用数据流技术建立了IP table和流BF(BF)两个数据结构.其中IP table结构用于判断IP是否已经被创建,如果已经被创建,则将属于该IP的所有后续的流记录在流BF结构中:如果IP table结构中不存在该IP记录,则对属于该IP的流进行抽样.对提出方法的精度和内存需求从理论上进行了分析,并采用CERNET数据进行验证.理论分析和实验测试表明,提出的超点检测算法的测量误差基本控制在5%以内,而其他算法的误差在10%左右.另外,由于使用BF数据结构,提出的算法在使用空间上也优于其他算法. 相似文献
19.
20.
为解决k-means聚类算法在聚类过程中隐私泄露风险,在满足ε-差分隐私保护前提下,提出一种隐私保护的RDPk-means聚类方法。该方法与传统随机选取初始点方式不同,采取基于网格密度的方式选取初始聚类中心,并在UCI数据集中进行有效性验证。采用543条数据生成2个聚类簇和19 020条数据生成3个聚类簇分别进行实验。结果表明,该聚类方法在不同的数据规模和维数情况下可以很好地保护数据隐私,能保证聚类结果的可用性。 相似文献