共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
基于关键词和摘要相关度的文献聚类研究 总被引:1,自引:0,他引:1
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法. 相似文献
3.
粒子群优化算法是一类基于群智能的随机优化算法,该算法简单易懂,优化性能良好。本文提出改进的PSO算法结合MATLAB强大的矩阵运算能力和Simulink系统仿真功能,对文中非线性PID控制系统参数进行了优化整定。仿真显示优化结果比传统的优化方法好,收敛性能也较好。 相似文献
4.
5.
基于样本加权的文本聚类算法研究 总被引:3,自引:0,他引:3
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献
6.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能. 相似文献
7.
基于粒子群的模糊C均值文本聚类算法研究 总被引:1,自引:0,他引:1
8.
文本软聚类是适应学科发展而逐步兴起的一项文本聚类技术,它更加全面地反映文本的特征信息.本文首先分析了文本软聚类技术的现状,提出了基于惩罚性矩阵分解(PMD)的文本软聚类算法,并应用于文本聚类研究.实验结果表明,本文提出的算法具有较好的聚类结果. 相似文献
9.
基于Single-Pass算法思想,研究网络话题的在线聚类方法,以期及时捕捉网络信息的动态变化在分析该方法聚类流程的基础上,重点研究网络动态信息流的文本特征抽取和权重计算方法,以及话题类表示和更新等关键问题,设计实验对比分析不同的标题中特征加权系数、特征权重计算和标准化方法以及话题类向量维度对话题聚类质量和时间效率的影响。 相似文献
10.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠. 相似文献