首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 379 毫秒
1.
文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。  相似文献   

2.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

3.
较为系统的综述了当前空间聚类算法的相关研究。依据这些算法的特点,将它们归纳为两类:划分聚类算法、层次聚类算法。针对划分聚类算法,重点分析了PAM、CLARA和CLARANS算法。针对层次聚类算法,重点分析了BIRCH、CURE算法。比较了这些算法的复杂度,并介绍了相关应用。  相似文献   

4.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

5.
针对经典K-means聚类算法过于依赖初始聚类中心和易陷入局部最优的不足,提出一种带有学习能力的人工蜂群算法(ABC)与K-means迭代相结合的聚类算法。该算法通过能动态调节的学习权重因子来平衡人工蜂群算法的全局探测与局部搜索能力,同时结合K-means聚类快速的优点,来提高聚类算法的全局寻优能力,降低初始聚类中心对算法聚类质量的影响。通过仿真试验验证,该算法克服了K-means算法的缺点,具有收敛速度快、稳定性强和聚类精度高的优势,得到良好的聚类效果。  相似文献   

6.
谢静  苏一丹 《大众科技》2010,(12):38-39
文章提出了一种基于人工免疫增量的聚类算法。该算法在人工免疫可更新聚类算法的基础上,结合蚁群增量聚类算法的思想,将原聚类得到的记忆抗体矩阵作为初始矩阵,调用人工免疫聚类算法处理增量数据,然后采用类解体机制处理类内误差超过规定阈值的聚类。  相似文献   

7.
介绍聚类算法的过程以及聚类有效性指标的分类,分别评述科学计量学常用软件中的几种聚类算法,分析聚类算法的特性并采用基于类内紧密度和类间分离度对聚类结果的有效性进行探讨,总结各聚类算法的效果并对应软件分析的结果进行案例分析。  相似文献   

8.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

9.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

10.
共词聚类分析法通过聚类的方式对学科主题词进行归类划分,从而实现对学科结构的分析研究.没有聚集中心的聚类,使得类团划分方式与学科研究点主题词分布模式存在一定的差别,并对类团分析产生较大负面影响.为类团指定核心词,并把核心词放置于共词矩阵中进行分析,有助于对类团概念的正确定义以及类团之间的关系分析,其至修正聚类算法中存在的一些问题.笔者的创新点在于通过指定类团核心词,解决没有聚集中心的聚类过程所存在的问题.  相似文献   

11.
宋秀芬 《科技广场》2014,(5):142-145
本文以CNKI为数据源,基于文献计量的角度,对2000-2013年国内馆际互借领域发表的论文进行分析,利用社会网络分析方法生成国内馆际互借的研究成果年限分布表、关键词共现矩阵和关键词共现图谱,剖析了国内馆际互借领域的研究前沿与研究热点。  相似文献   

12.
宋秀芬 《科技广场》2014,(7):102-105
本文以CNKI为数据源,从文献计量的角度,对2000—2014年国内系统动力学领域发表的文献进行统计分析。利用社会网络分析方法生成研究成果年限分布图、关键词共现矩阵、关键词共现图谱和作者合作度图谱,剖析了国内系统动力学领域的研究前沿与研究热点。  相似文献   

13.
用R语言分析关键词集共现网络研究   总被引:1,自引:0,他引:1  
袁润  李莹  王琦  王婧怡 《现代情报》2018,38(7):88-94
[目的/意义]提出关键词集的概念,探索R语言编程实现关键词集共现网络的创建和可视化,为进一步研究基于关键词集的数据挖掘和知识发现提供更为通用的途径和方法。[方法/过程]运用R语言编程技术及igraph等贡献包,自编了关键词集共现网络的创建和可视化函数,分析了图情学科领域的18种CSSCI源刊的载文数据。[结果/结论]计算了关键词集共现网络的中心性等特征参数,绘制了关键词集共现网络图。研究表明,关键词集共现网络揭示了关键词集的分布、聚类和关系特征,能更为直观的揭示分析对象的主题内容及其关联关系,其特征参数的构建及其表征等理论问题值得系统而深入的研究。  相似文献   

14.
针对协同创新网络与创新绩效国内相关文献进行科学计量和分析,绘制该研究主题的关键词共现网络及聚类;依据其聚类图谱分析结果,分别归类为网络特性、知识管理及资源整合三大视阈,逐一进行细化解读,其中网络特性主要包含网络结构位置、网络关系镶嵌及网络组织能力3个子层面;最后,指出当前国内研究存在3个方面的不足,并点明未来研究的3个主要方向,以供后续研究参考及借鉴。  相似文献   

15.
通过研究聚类算法在图像处理上的应用,提出了一种基于高斯混合模型聚类的图像检索方法。该检索方法首先提取每幅图像的特征,并以特征值为数据集建立高斯混合模型,得到所有图像的高斯混合模型。再以所有图像的混合模型参数集作为数据集,用基于高斯混合模型的聚类算法进行聚类。最后输出检索例图所在的类,即得到检索结果。  相似文献   

16.
促进产学研创新的集群式发展,需要识别与发现产学研创新主体潜在关联的技术主题,使高校和科研机构产出更多有助于企业创新所需的科学技术成果、企业更容易找到适合的研发合作对象。基于核心专利集识别专利技术主题,以机构-技术二模共现网络分析企业、大学和研究机构之间的相似技术主题,据此分析和研究产学研关联创新的热点主题和潜在合作对象。并对石墨烯在生物医药领域的应用相关专利进行实证分析,从而验证所提出方法的可行性。  相似文献   

17.
We consider a challenging clustering task: the clustering of multi-word terms without document co-occurrence information in order to form coherent groups of topics. For this task, we developed a methodology taking as input multi-word terms and lexico-syntactic relations between them. Our clustering algorithm, named CPCL is implemented in the TermWatch system. We compared CPCL to other existing clustering algorithms, namely hierarchical and partitioning (k-means, k-medoids). This out-of-context clustering task led us to adapt multi-word term representation for statistical methods and also to refine an existing cluster evaluation metric, the editing distance in order to evaluate the methods. Evaluation was carried out on a list of multi-word terms from the genomic field which comes with a hand built taxonomy. Results showed that while k-means and k-medoids obtained good scores on the editing distance, they were very sensitive to term length. CPCL on the other hand obtained a better cluster homogeneity score and was less sensitive to term length. Also, CPCL showed good adaptability for handling very large and sparse matrices.  相似文献   

18.
国际图书情报领域作者、机构和国家合著网络剖析   总被引:1,自引:0,他引:1  
曹霞  崔雷  黄鹏 《现代情报》2017,37(1):142
借助SPSS软件从2015年JCR收录的图书情报学领域的86种核心期刊中,随机选取20种期刊作为数据来源,利用书目共现分析系统——BICOMB软件生成共现矩阵,运用UCINET和Pajek软件实现作者、机构和国家3个合著网络的可视化,分析各合著网络的聚类系数、平均距离、高频合作群体,检验小世界特性,揭示网络整体结构、核心学术群体和高频合著集团之间的关系。结果表明国际图书情报领域发文量、合著率及合著规模基本逐年上涨,合作科研已成为不可逆转的大趋势,3个合著网络均具聚类系数大,平均距离短的特点,符合复杂网络的小世界理论,说明国际图书情报领域整体合著网络具有较高的连通性、内部交流频繁、信息传递畅通。高频合著作者和高频合作机构有着确定的研究方向,且倾向于将其连续性的科研成果发表于同一期刊。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号