共查询到20条相似文献,搜索用时 250 毫秒
1.
2.
3.
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。 相似文献
4.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 相似文献
5.
6.
7.
SOM聚类算法在文本分类上的应用 总被引:2,自引:0,他引:2
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。 相似文献
8.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。 相似文献
9.
10.
用信息萃取方法对文本信息进行挖掘,用聚类算法对萃取的结果进行聚类而得到可视化的结果表达,最终使其结论更直观明了并具有一定的直接意义。 相似文献
11.
在文献挖掘的基础上,设计了集群企业持续成长能力的评价指标体系.考虑指标之间的相互影响与制约关系,以及专家的主观评价存在非线性的特点,研究了网络分析法进行评价的可行性;最后,给出了具体算例,实证表明采用该算法获得的结果是令人满意的. 相似文献
12.
本文以2005-2014年CNKI数据库中收录的主题为Human Library的文献为数据源,借助信息可视化软件——CiteSpaceⅡ绘制相应的知识图谱,通过对发文作者及研究机构知识图谱的分析,确定了该领域的代表作者、核心研究机构及其相互关系;通过对高频关键词聚类知识图谱的分析,识别出Human Library研究的4个热点研究主题,最后,本文通过对突现关键词的解读探析了该领域的前沿研究趋势。 相似文献
13.
知识管理学科体系研究(下)——聚类分析和多维尺度分析 总被引:1,自引:0,他引:1
通过超星图书检索199本中外文知识管理图书目录,在此基础上,构建出57个高频词的共词矩阵,运用SPSS软件进行聚类分析和多维尺度分析,得出目前知识管理学科体系包括11个方面的内容,并可以分为4种类型。 相似文献
14.
共词分析法是科学计量学中最常用的方法之一。论文以共词分析法为工具,将CNKI数据库中有关竞争情报的研究文献作为分析对象,通过对这些文献高频关键词的共现分析,利用聚类分析与多维尺度分析方法以可视化方式来揭示目前国内竞争情报研究的演进态势。 相似文献
15.
情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现关系。结果表明,情报检索的相关研究正处于快速发展阶段,研究主题明确、地域差距显著,已经形成了一批具有核心影响力的专家学者。本文通过分析情报检索领域的发展脉络,对于情报学领域的学者进一步寻找研究热点、挖掘新的研究问题具有一定的参考意义。 相似文献
16.
[目的]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论]同时,该方法的性能比BoVW方法有显著提高。 相似文献
17.
在文本检索过程中充分利用词语之间的上下文关系有助于提高检索性能.首先对已有的相关工作进行综述;然后针对已有研究对词语上下文关系应用不足的现状,提出一种基于词语上下文关系的文本检索算法;最后通过实验对该算法进行验证. 相似文献
18.
19.
20.
The fundamental idea of the work reported here is to extract index phrases from texts with the help of a single word concept dictionary and a thesaurus containing relations among concepts. The work is based on the fact, that, within every phrase, the single words the phrase is composed of are related in a certain well denned manner, the type of relations holding between concepts depending only on the concepts themselves. Therefore relations can be stored in a semantic network. The algorithm described extracts single word concepts from texts and combines them to phrases using the semantic relations between these concepts, which are stored in the network. The results obtained show that phrase extraction from texts by this semantic method is possible and offers many advantages over other (purely syntactic or statistic) methods concerning preciseness and completeness of the meaning representation of the text. But the results show, too, that some syntactic and morphologic “filtering” should be included for effectivity reasons. 相似文献