首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 18 毫秒
1.
基于粒子群的模糊C均值文本聚类算法研究   总被引:1,自引:0,他引:1  
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。  相似文献   

2.
一种基于自组织神经网络的中文文本聚类新方法   总被引:8,自引:0,他引:8  
徐建锁  王正欧  王莉 《情报学报》2003,22(6):676-680
针对传统K—均值等算法在文本聚类中的缺陷 ,本文提出了一种树形动态自组织映射 (TGSOM)神经网络来实现中文文本聚类 ,克服了传统的K—均值等算法中文本种类需要预先给定的缺点。本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用 ,并阐述了中文文本的数字化方法———TF .IDF .IG方法  相似文献   

3.
耿新青  王正欧 《情报学报》2006,25(3):296-300
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。  相似文献   

4.
冯珺  孙济庆 《情报学报》2007,26(3):356-360
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。  相似文献   

5.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

6.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

7.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

8.
雷震  吴玲达  雷蕾  黄炎焱 《情报学报》2006,25(3):289-295
传统的增量k均值法用于事件探测时存在着诸多不足。为了克服其缺陷,本文提出了一种用于事件探测的改进的增量k均值算法(IIKM)。该算法使用密度函数法进行聚类中心的初始化以便客观地选择初始聚类中心,既可以用于在线探测也可以用于回溯探测,并且执行结果受新闻语料被处理顺序的影响较小。本文对有效密度半径和特征空间维数的选择问题进行了讨论,并比较了该方法和Single-pass法及传统的K均值法的性能差异。实验结果表明本文所提出的方法是有效的。  相似文献   

9.
用户兴趣模型是个性化服务的核心,对用户兴趣的挖掘可以发现潜在的兴趣知识,提供更为优化的服务.本文将主题图技术与用户兴趣模型结合起来,研究了用户兴趣知识的主题图表示,并在此基础上运用无尺度图K-中心点聚类算法对构建的主题图进行深层次的聚类挖掘,建立了基于主题图的用户兴趣挖掘模型.在解释模型各个模块功能的同时,提出了该过程模型中的关键问题,并对建立模型过程中的无尺度图K-中心点聚类算法、文档中的主题图表示及主题概化和主题图合并等关键问题进行了深入的分析,最终构建了智能主题图,实现了过程建模和事物建模.  相似文献   

10.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

11.
基于神经网络的概念联想和概念聚类   总被引:8,自引:0,他引:8  
宋玲  马军  刘怀辉 《情报学报》2002,21(2):167-172
本文针对信息检索中自动标引和用户的检索提问问题 ,介绍了一种概念空间技术以及采用Hopfield神经网络进行概念联想与概念聚类的算法 ,并对其中部分算法进行了模拟和实验 ,针对存在的问题提出了改进方法 ,并通过数据说明其可行性  相似文献   

12.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.  相似文献   

13.
基于控制词集的中文信息动态自动聚类研究   总被引:1,自引:0,他引:1  
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式。该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动聚类程序、聚类算法,以及结合控制词集对聚类结果进行优化控制等,最后对实验结果给出了概要评价。  相似文献   

14.
图像分割是对遥感图像进行分析处理的一个重要内容。本文针对遥感图像的特征,首先根据多波段合成RGB图像,并转换成和HSI颜色空间,进而运用多信息的K -均值聚类算法,选择适当的初始聚类中心,实现了对图像中目标区域的有效快速分割,为遥感图像识别与计算提供了可靠的基础。研究实例表明了算法的有效性。  相似文献   

15.
Web中文文本聚类研究及实现*   总被引:5,自引:0,他引:5  
采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。  相似文献   

16.
基于粗糙用户聚类的协同过滤推荐模型   总被引:1,自引:0,他引:1  
【目的】将粗糙集引入到基于用户聚类的协同过滤中,提高推荐质量。【方法】提出一种基于粗糙用户聚类的协同过滤推荐模型:离线时采用粗糙K-means用户聚类算法,根据用户与聚类中心的相似度将其分配到K个类的上、下近似中,形成用户的初始近邻集;在线时从目标用户的初始近邻集中搜索其最近邻,预测项目评分并向其产生推荐。【结果】通过实验对比发现,该模型比传统的和基于项目的协同过滤推荐算法降低约14%的平均绝对误差,比基于用户聚类的协同过滤推荐算法降低约10%的平均误差。【局限】在考虑上、下近似对聚类中心调整的重要程度时,忽略了用户聚类数目和最近邻集用户数阈值的变化所产生的影响。【结论】该模型能有效提高推荐精度,具有较强的可行性和现实意义。  相似文献   

17.
聚类有效性指标用于评价聚类质量和确定最佳聚类数,针对包含大小和密度差异性较大数据类的数据集,在分析了传统模糊聚类有效性指标不足的基础上,提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS.类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示,一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度,类间分离性的度量为最小类间距离,使COS指标值最大的聚类数即为最佳聚类数.在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明,COS指标可以有效发现小类和低密度类.  相似文献   

18.
本文提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。  相似文献   

19.
与传统静态聚类系统相比,动态自动聚类系统有以下特点:聚类是动态进行的,它是在检索结果返回的基础上进行的实时操作;每次聚类的文献对象数量有限;用来作为聚类依据的文献数据只是文献的局部;参与聚类的资源在整个资源集合中的分布是随机的。动态自动聚类方法有:直接将专指性短语作为揭示类目相似性识别的依据;更多使用线性聚类策略;使用等级显示、多维聚类的形式;采用优化算法;扩大预处理的应用。表1。图1。参考文献12。  相似文献   

20.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号