首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

2.
基于《现代汉语语义分类词典》的文本聚类方法   总被引:1,自引:0,他引:1  
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率.  相似文献   

3.
在前期的相关研究中,一种基于"引文-文本"相似度的混合聚类方法被用来对2002-2006年期间Webof Science数据库中8305种期刊进行了聚类分析,得到22聚类和7聚类两种体系。与之前的宏观分析不同,7聚类体系中的一个特定的聚类,即"心理学、社会学和教育学"聚类,将被集中研究。该聚类的内部学科结构以及其在22聚类体系中如何分解为三个子聚类将被细致地讨论和分析。对聚类之间的互引网络以及聚类中不同类型的"重要期刊"进行了展示,此外,还进一步将该聚类中760种期刊的混合聚类结果与Thomson-Reuters公司的ESI学科分类进行了对比,基于比较分析的结果,对该领域内部的科学结构进行了量化解读。  相似文献   

4.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

5.
基于文本聚类与LDA相融合的微博主题检索模型研究   总被引:1,自引:0,他引:1  
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题.  相似文献   

6.
通过研究聚类算法在图像处理上的应用,提出了一种基于高斯混合模型聚类的图像检索方法。该检索方法首先提取每幅图像的特征,并以特征值为数据集建立高斯混合模型,得到所有图像的高斯混合模型。再以所有图像的混合模型参数集作为数据集,用基于高斯混合模型的聚类算法进行聚类。最后输出检索例图所在的类,即得到检索结果。  相似文献   

7.
一种基于DASOM的两阶段中文文本聚类方法   总被引:2,自引:0,他引:2  
朱红灿  唐毅 《情报杂志》2007,26(9):101-104
研究了一种基于动态自组织神经网络(The Dynamic Adaptive Self-Organizing Map Neural Network简称:DA-SOM)的两阶段中文文档聚类方法,第一阶段对中文文本向量进行DASOM训练,第二阶段对虚拟的坐标集聚类。该算法动态地组织DASOM,由文本的内容来决定模型的结构;与直接聚类相比,降低了计算时间;与基于静态SOM文本聚类相比,减少了输出层节点数,改善了聚类效果。通过数值实验对比表明该方法对中文文本聚类具有有效性。  相似文献   

8.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

9.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。  相似文献   

10.
文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。  相似文献   

11.
基于土拱效应的筒仓土压力研究   总被引:1,自引:0,他引:1  
蒋波  应宏伟  谢康和 《科技通报》2005,21(5):624-627,632
对筒仓小主应力拱形状进行了理论分析,发现墙土摩擦角部分发挥时的小主应力拱形状较充分发挥时平缓。根据土拱形状的理论分析计算平均竖向应力,由此得到了对应不同内摩擦角和墙土摩擦角的侧土压力系数,以及筒仓侧土压力的理论公式。  相似文献   

12.
本文利用网民和网站作为互联网发展的衡量指标,通过面板数据分析了影响互联网发展的因素,认为居民文化程度、电脑拥有量、信息化水平是影响互联网发展的主要因素。经济发展水平、居民收入对互联网没有影响,我国互联网正处于高速成长期。  相似文献   

13.
尹春华  周西平 《情报科学》2005,23(4):568-572
复杂科学的研究是当代科学研究的重要领域,尤其是复杂适应系统的研究更为人们所关注。本文首先论述了复杂系统的几个重要特征:开放性、复杂性、层次性及复杂适应系统的七个基本点,然后从其中的几个方面探讨了internet所呈现出的复杂适应系统特征;从而说明了internet是一个复杂适应系统。该系统所呈现的特征将为进一步研究其他复杂适应系统提供理论依据。  相似文献   

14.
15.
对文献计量学研究的一些看法   总被引:7,自引:0,他引:7  
1文献计量学目前的状态 文献计量学存在着定义多、模型多、争论多的问题,总的说来,对文献计量学是什么,研究什么,还存在分歧,突出表现在以下3个方面.  相似文献   

16.
基于证据理论的信息服务成熟度评价模型研究   总被引:1,自引:0,他引:1  
本文在借鉴CMMI技术上,构建了信息服务成熟度模型。通过引入证据理论方法评价信息服务提供商的成熟度,其目的在于解决现有评价方法存在的判断矩阵一致性难以满足、以及专家对指标属性值和隶属度值难以确定等问题。经算例研究结果证明:本文提出的评价模型能够准确可靠的评价信息服务成熟度,亦可作为用户评价或选择信息服务提供商的重要工具。  相似文献   

17.
薛捷 《科学学研究》2016,(7):1111-1120
设计作为技术和市场之外的第三种创新驱动力已开始得到越来越多的研究重视,但从顾客感知的视角来探讨产品设计如何对渐进性创新和根本性创新产生影响的经验研究尚不多见。基于"产品设计→顾客感知质量→顾客购买意愿和口碑传播"的理论模型,通过针对渐进性创新和根本性创新分别展开调查研究,实证分析结果显示设计驱动力的美学维度和功能维度对于渐进性创新和根本性创新的顾客感知与行为的影响并不一致,对渐进性创新来说,设计的美学维度和功能维度除了对于顾客购买意愿和口碑传播具有直接的正向影响,还通过顾客感知质量对其产生间接作用;对于根本性创新来说,设计的美学维度和功能维度均要完全通过顾客感知质量来间接作用于顾客购买意愿和口碑传播。此外,设计驱动力的象征意义维度对于渐进性创新和根本性创新的顾客感知与行为的影响具有一致性,即设计的象征意义维度对于两种创新类型的顾客购买意愿和口碑传播均有着直接的正向影响,但对于顾客感知质量的影响都不显著。  相似文献   

18.
评析历年来创新联盟记分牌(IUS)及其指标体系的演化,对IUS2015中欧盟与全球主要竞争对手的创新绩效及其差距进行研究,发现我国公共部门的研发投入亟须加强,而专利创造和运用、创新合作及劳动者受教育程度虽然严重薄弱,但其增长潜力很大。最后,探索IUS对"新常态"下我国创新能力指标体系的构建及创新型国家建设方向的启示。  相似文献   

19.
基于XML的数据交换探讨   总被引:1,自引:0,他引:1  
作为数据表示和交换的工业标准,XML的应用日益广泛。本文论述了XML及XML的相关标准,对基于XML的数据交换实现原理进行了重点分析,并采用Java编程技术提供了简单的实例加以说明。  相似文献   

20.
要培养面向未来,能参与竞争的各级各类人才,学校工作要体现以人为本的教育理念。注重教师的主体地位,充分发挥全体教师主人翁的作用,在学校创建有序而又自由、紧张而又宽松的工作氛围。践行以人为本的教育理念,这是教育现代化的必然方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号