首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张蓉  钟艳 《科技通报》2014,(4):47-49
为开发高效的数据挖掘算法,实现模糊集聚类算法的高效性,将BIRCH聚类算法思想与模糊集算法进行融合。通过对模糊集算法处理的数据进行二次聚类计算,细化群边缘,最后加载判别函数进行数据定位,完成数据挖掘。最后使用KDDCUP2011数据库进行仿真实验,对目标数据进行挖掘,证实了融合BIRCH聚类算法思想的模糊集算法具有可行性,对比改进前的算法在数据挖掘方面效率更高。  相似文献   

2.
对海量数据信息进行迭代聚类能够为数据挖掘提供准确的依据,具有重要的应用价值。传统算法对于初始参数的选取过于敏感,从而降低了迭代聚类的准确率。提出基于并归聚类的海量数据信息中的迭代聚类方法。采用离差隶属度进行数据信息聚类中心的计算,确定数据信息的聚类中心;采用类间距离作为并归聚类判别的标准,用于判定数据信息特征与聚类中心的距离;对海量数据信息特征与聚类中心的计算结果进行归类处理,直至所有的数据信息的聚类中心都结束并归,从而获得准确的迭代聚类结果。仿真实验结果表明,改进算法能够提高海量数据信息中的迭代聚类结果,效果令人满意。  相似文献   

3.
数据挖掘是目前信息领域和数据库技术领域的前沿研究课题,它涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度也较大.本文研究了关联规则挖掘技术的基本概念、过程和算法等,为提高数据挖掘效率,提出了基于聚类划分的增量式关联规则挖掘算法.即运用快速聚类方法实现数据划分、运用改进的FP-growth算法实现关联规则的挖掘和运用增量FP-growth挖掘算法实现增量数据挖掘的关联规则挖掘算法.  相似文献   

4.
提出一种基于最大熵功率谱估计的Hadoop云平台下网络音视频数据特征挖掘方法,实现对数据信息的高速访问。构建数据挖掘Hadoop云平台和数据挖掘访问模型,设计最大熵功率谱特征提取算法,采用分段思想将同一时间段的视音频数据进行群体分割,分段提取最大熵功率谱特征。将提取的特征信息进行维度匹配分箱和溯源处理,实现信息恢复,最终完成高速数据访问。仿真测试表明,该算法能有效地实现对网络音视频数据的特征挖掘,提高访问效率,访问响应时间较当前方法缩短明显。  相似文献   

5.
面对电力系统中海量的多维数据,传统的可视化数据挖掘无法满足空间数据处理的需要,多维数据可视化也不利于用户获取知识。因此提出了基于SOM(自组织特征映射网络)聚类的电网可视化数据挖掘新模型VSDMmodel,模型利用改进的SOM聚类算法对高维电网数据进行降维,提出一种基于颜色映射的可视化方法,对聚类结果进行低维展现,加快了用户对挖掘结果的理解,并且允许用户对结果中感兴趣的区域加以深入分析,实现对电力系统海量数据的可视化挖掘。  相似文献   

6.
密度峰值聚类(Density peaks clustering简称DPC)算法是2014年在美国Science期刊上发表的一种非常简洁优美的聚类算法,它不需要像经典K-means算法那样迭代,也不需要很多参数。DPC算法的核心思想在于对聚类中心的刻画,它通过计算数据集中每个数据点的局部密度和该点到具有更高局部密度的点的最小距离,当数据点的■的值较大时,该点为聚类中心。然而通过分析,发现这样选取聚类中心得聚类效果不具有稳健性,依赖于和的量纲。本文提出一种改进的密度峰值聚类算法,将和归一化后的和记为每个点的权重,构造函数■作为选取聚类中心的判决函数,结合模拟计算,验证本文的方法更鲁棒,选取聚类中心效果更好,且复杂度降低。  相似文献   

7.
提出改进的并行化谱聚类算法。该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果。仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升。  相似文献   

8.
由于原有挖掘方法不易于计算、准确度差的弊端。基于改进遗传算法的不完整网络数据异常挖掘研究显得十分重要。通过确定不完整数据适应值、设立浮点代码、选择不完整数据进行挖掘操作等措施,实现提升数据挖掘的准确性,降低不完全数据挖掘的误报率。从而,保证数据的科学性,为日后网络技术的发展提供基础。  相似文献   

9.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

10.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

11.
针对K-Means算法中对初始聚类中心进行随机选择并未达到理想优化的情况,提出一种改进的初始聚类中心选择算法。改进算法首先将原始数据进行预处理并计算各维有效数据的最大值和最小值,然后利用各维有效数据的最大值和最小值进行数据分段和初始聚类中心选择,最后采用VS集成开发环境进行建模。采用遵义医学院2010级的学生计算机考试成绩数据对模型进行仿真,仿真结果显示聚类挖掘性能相对K-Means算法较高,证明改进的初始聚类中心选择算法可以提供精确的聚类挖掘结果。  相似文献   

12.
在云计算环境下,针对K-means对初始聚类中心敏感和易陷入局部最优的缺点,进行K-means聚类中心优化求解,提高对海量数据的聚类处理能力。传统方法采用动态干扰信任感推荐方法进行数据聚类中心求解,聚类中心对初始值敏感性较强,数据聚类效果不好。提出一种基于粒子群密度最大距离凹函数构建和边界隶属度特征分析的云计算中K-means聚类中心优化求解方法。通过云计算处理,对数据聚类余下样本点按照与聚类中心的相似程度来划分成k类,对原始变量数据的差异化特征进行降维处理,通过搜索空间中的粒子,每一个粒子自身都有速度、位置和适应度,通过迭代找到最优解,进行数据规范化预处理,数据预处理包括选择数量,类型和特征的标度,进行边界隶属度特征分析,实现云计算数据的聚类改进。仿真结果表面,该算法对云计算数据的聚类性能优越,聚类中心求解准确,克服了传统的K-means对初始聚类中心敏感和易陷入局部最优的缺点,应用价值较大。  相似文献   

13.
最近邻协同过滤常用的计算用户访问行为相似程度的距离函数仅是测定访问者对象在所有测试属性空间上的平均测定,而在属性集的子维空间上的相似模式并没有有效地挖掘出来,用户评分数据稀疏等问题使其推荐质量下降。针对这些问题,提出一种基于用户模式聚类的协同过滤推荐算法,该算法采用基于用户模式相似的子空间聚类方法产生聚类,并且利用模式相似度改进协同过滤,从而对用户产生个性化推荐。实验结果表明,该方法改善了推荐系统的效率和精度。  相似文献   

14.
引入或然状态指数矩阵,对网络文本特征进行指数分离处理和挖掘优化导向性控制,提出一种引入或然状态指数矩阵优化控制的网络文本特征导向性挖掘新技术。对具有或然性的文本数据进行分离修补导向性挖掘聚类,在文本数据择取过程中,将不同文本分量元素进行初始化倾向性分类处理,由指数矩阵确定元素属性类别概率,从而确定多个导向性聚类中心,从而实现了对或然网络文本特征的准确挖掘。仿真实验表明,新的挖掘技术能有效提取到模凌两可的或然性弱聚类导向性分类特征,数据挖掘准确率达到99.97%,而传统方法是根本无法对这类文本特征进行有效挖掘,展示了算法的优越模糊数据处理价值。  相似文献   

15.
在社交网络媒体上,热点话题由一系列相互联系的事件及其互动信息引起,追踪参与热点话题传播的负能量贡献者,对监测、预警和管控网络舆情具有重要的价值。本文将网络社区话题事件以及其成员之间互动关系映射为社交网络,运用社会性网络分析、离差最大化和类熵距离等方法,计算参与事件交互成员的聚焦指标及其权重、类熵距离、优劣度以及贡献率数值,从而在互联网中找出参与热点话题传播的能量贡献最大者,并运用实证方法验证本文方法的合理有效性。  相似文献   

16.
内容中心网络中,Internet用户通常更加关心移动终端的数据内容,需要对此进行有效挖掘,传统的内容中心网络移动终端数据挖掘模型采用关联性辅助挖掘算法,由于内容中心网络的数据之间的关联性是自反的和传递的,导致挖掘效果不好。提出一种基于压缩频谱联合特征识别的内容中心网络移动终端数据优化挖掘模型。构建网络模型和数据挖掘结构模型,进行移动终端数据提取预处理,该内容块被划分成多个分片,把特征数据并行化地存储到不同的存储服务器中,实现对移动终端数据的压缩频谱联合特征识别,达到数据挖掘的目的。仿真实验表明,采用该模型进行数据挖掘,具有较大数据挖掘吞吐量,使得数据存储对象数目有明显提升,数据挖掘精度和收敛性能得到提高。  相似文献   

17.
针对K-means聚类算法中的k值确定给聚类算法效果带来不确定性的问题,本文通过引入多层变量加权概念,提高聚类效果的收敛性,引入改进的非加权组平均法和最大最小距离算法有效的解决k值确定问题,引入Max-Entropy算法解决分布簇内节点分布不均导致的计算问题。仿真实验中,将本文算法的改进的效果进行研究,并结合云计算环境下通过使用本文算法在挖掘的加速比,花费时间上都取得了比较好的效果。  相似文献   

18.
基于多层次灰色评价模型的社区信息化绩效评价研究   总被引:2,自引:0,他引:2  
建立了社区信息化绩效评价指标体系,并运用灰色理论的思想,结合熵值法处理指标体系的权重,提出了基于多层次灰色评价模型的社区信息化绩效评价模型,该模型有效地实现了对社区信息化绩效的综合评价.  相似文献   

19.
李保珍  苏菁 《情报科学》2018,36(10):13-19
【目的/意义】基于专业性多源网络数据,构建同质性或异质性领域知识图谱。【方法/过程】基于场景性关键 词相似度计算进行同质网络层次聚类,揭示症状的同质性网络层次以及治疗方案的同质性网络层次;基于 2-mode 共现矩阵进行异质网络聚类,兼顾症状及治疗方案的关联关系,通过设置不同阈值揭示其异质关联性网络层次。 【结果/结论】基于聚类纯度及熵值评价指标,实验结果显示:就纯度评价指标而言,进行同质性网络知识图谱分析 较为合理;就熵值指标而言,进行异质性网络知识图谱分析较为合理。  相似文献   

20.
将信息熵对信息和数据的不确定性分析来度量数据所带来的不确定性程度,利用数据挖掘算法中的蚁群聚类算法,结合信息熵理论对网络客户数据进行分析,其中,信息熵理论中的不确定性分析,可以较好的帮助聚类数据对象,数据在此基础上进行再重组,其结果可进一步提高决策的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号