首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

2.
文章提出一种改进的关联规则方法,用于抽取文本中的非分类关系。首先利用基于上下文的术语相似度获取方法得到术语间的相似度权重,再通过加入谓语动词的关联规则算法计算,结合搜索引擎技术得到候选关系对集合,并通过置信度和支持度的对比分析,抽取最终的非分类关系结果,最后对测试数据进行实验,并对结果进行分析。  相似文献   

3.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

4.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

5.
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。  相似文献   

6.
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。  相似文献   

7.
SOM聚类算法在文本分类上的应用   总被引:2,自引:0,他引:2  
丁露  崔平 《现代情报》2007,27(9):162-164
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。  相似文献   

8.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

9.
介绍聚类算法的过程以及聚类有效性指标的分类,分别评述科学计量学常用软件中的几种聚类算法,分析聚类算法的特性并采用基于类内紧密度和类间分离度对聚类结果的有效性进行探讨,总结各聚类算法的效果并对应软件分析的结果进行案例分析。  相似文献   

10.
刘剑兰 《情报杂志》2004,23(12):41-42
用信息萃取方法对文本信息进行挖掘,用聚类算法对萃取的结果进行聚类而得到可视化的结果表达,最终使其结论更直观明了并具有一定的直接意义。  相似文献   

11.
在文献挖掘的基础上,设计了集群企业持续成长能力的评价指标体系.考虑指标之间的相互影响与制约关系,以及专家的主观评价存在非线性的特点,研究了网络分析法进行评价的可行性;最后,给出了具体算例,实证表明采用该算法获得的结果是令人满意的.  相似文献   

12.
李素梅 《现代情报》2015,35(5):105-111
本文以2005-2014年CNKI数据库中收录的主题为Human Library的文献为数据源,借助信息可视化软件——CiteSpaceⅡ绘制相应的知识图谱,通过对发文作者及研究机构知识图谱的分析,确定了该领域的代表作者、核心研究机构及其相互关系;通过对高频关键词聚类知识图谱的分析,识别出Human Library研究的4个热点研究主题,最后,本文通过对突现关键词的解读探析了该领域的前沿研究趋势。  相似文献   

13.
通过超星图书检索199本中外文知识管理图书目录,在此基础上,构建出57个高频词的共词矩阵,运用SPSS软件进行聚类分析和多维尺度分析,得出目前知识管理学科体系包括11个方面的内容,并可以分为4种类型。  相似文献   

14.
李颖  贾二鹏 《现代情报》2011,31(4):82-86,93
共词分析法是科学计量学中最常用的方法之一。论文以共词分析法为工具,将CNKI数据库中有关竞争情报的研究文献作为分析对象,通过对这些文献高频关键词的共现分析,利用聚类分析与多维尺度分析方法以可视化方式来揭示目前国内竞争情报研究的演进态势。  相似文献   

15.
赵跃民  张锐  王章红  王伟 《现代情报》2016,36(8):160-167
情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现关系。结果表明,情报检索的相关研究正处于快速发展阶段,研究主题明确、地域差距显著,已经形成了一批具有核心影响力的专家学者。本文通过分析情报检索领域的发展脉络,对于情报学领域的学者进一步寻找研究热点、挖掘新的研究问题具有一定的参考意义。  相似文献   

16.
[目的]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论]同时,该方法的性能比BoVW方法有显著提高。  相似文献   

17.
在文本检索过程中充分利用词语之间的上下文关系有助于提高检索性能.首先对已有的相关工作进行综述;然后针对已有研究对词语上下文关系应用不足的现状,提出一种基于词语上下文关系的文本检索算法;最后通过实验对该算法进行验证.  相似文献   

18.
信息价值研究的热点领域可视化分析   总被引:1,自引:0,他引:1  
罗贤春  余波  姚明 《现代情报》2015,35(11):120-126
以CNKI数据库中收录的1982-2013年关于信息价值研究的2119篇论文为样本,以社会网络分析软件Gephi为工具,通过对核心作者、高频关键词及热点主题的可视化展示,对国内信息价值的研究热点主题进行划分。研究发现,信息价值研究有会计信息、信息产品、图书馆服务、企业信息技术与系统、信息分析与共享和档案管理6大热点研究领域。通过揭示核心作者和热点主题之间的关系和特征,探讨了国内信息价值研究的现状和发展趋势,为国内信息价值领域的研究提供借鉴和参考。  相似文献   

19.
集群社会资本对集群内品牌学习关系的影响研究   总被引:1,自引:0,他引:1  
姚伟坤  周梅华  陈金波 《软科学》2010,24(1):32-36,41
在梳理集群社会资本的构成维度以及集群内品牌学习关系的基础上,分析了集群社会资本对集群内品牌学习关系的影响。分析表明:集群社会资本能够促进集群内的非正式沟通,增强人才流动的效率,从而促进品牌的非正式学习的效率;集群社会资本能够促进品牌与相关主体的学习互惠性,降低合作学习的冲突以及合作成本,从而促进品牌的正式学习的效率;集群社会资本能够促进品牌知识吸收能力的提高,从而提高个体品牌学习的效率。  相似文献   

20.
The fundamental idea of the work reported here is to extract index phrases from texts with the help of a single word concept dictionary and a thesaurus containing relations among concepts. The work is based on the fact, that, within every phrase, the single words the phrase is composed of are related in a certain well denned manner, the type of relations holding between concepts depending only on the concepts themselves. Therefore relations can be stored in a semantic network. The algorithm described extracts single word concepts from texts and combines them to phrases using the semantic relations between these concepts, which are stored in the network. The results obtained show that phrase extraction from texts by this semantic method is possible and offers many advantages over other (purely syntactic or statistic) methods concerning preciseness and completeness of the meaning representation of the text. But the results show, too, that some syntactic and morphologic “filtering” should be included for effectivity reasons.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号