共查询到20条相似文献,搜索用时 937 毫秒
1.
基于聚类分析的学科交叉研究 总被引:1,自引:0,他引:1
聚类分析是数据挖掘中的一项重要技术,通过聚类可以发现隐藏在海量数据背后的知识.本文提出了一种通过文献数据聚类分析来研究学科交叉的方法.首先提出了一种基于摘要词与关键词加权的相似度模型,使得文献之间的相似度更加精确.利用FCM 算法对2005年CSSCI文献数据库中图书情报学的文献数据进行聚类,通过建立学科原子特征词的学科交叉表统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对分析结果进行了检验,结果表明本文所提出的方法是科学的、切实可行的. 相似文献
2.
3.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果. 相似文献
4.
刘剑涛 《现代图书情报技术》2012,(2):18-22
针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出一种基于用户多态聚类的数字图书馆个性化推荐方法。该方法以改进的海明距离计算候选邻居集,结合多态相似度进行二次聚类,预测用户的多态需求度并形成推荐。实验表明,使用多态聚类产生的推荐精确度上优于单一聚类产生的推荐。 相似文献
5.
6.
基于主要主题词加权的共词聚类分析法效果研究 总被引:4,自引:1,他引:3
共词聚类分析法在词对共现频率的基础上,采用聚类的算法把词(通常是主题词)聚集成类,从而揭露隐含在文献群中知识.词对共现频率结果的准确性、科学性是共词聚类分析成功的关键.本文对共词聚类分法中的词对共现频率进行深入的分析,认为在文献的标引中存在主要主题词与次要主题词的差别,在词对共现频率计算时应对主要主题词进行加权计算,从而突出主要主题词在聚类过程中的主导地位.通过实例的对比分析,说明这种加权对共词聚类分析法的改进是有效的,也是有必要的. 相似文献
7.
赵华茗 《现代图书情报技术》2015,(1):82-88
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。 相似文献
8.
许琦 《中国科技资源导刊》2010,42(4)
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的. 相似文献
9.
邢美凤 《现代图书情报技术》2012,(1):34-39
提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N-gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。 相似文献
10.
11.
Document clustering offers the potential of supporting users in interactive retrieval, especially when users have problems
in specifying their information need precisely. In this paper, we present a theoretic foundation for optimum document clustering.
Key idea is to base cluster analysis and evalutation on a set of queries, by defining documents as being similar if they are
relevant to the same queries. Three components are essential within our optimum clustering framework, OCF: (1) a set of queries,
(2) a probabilistic retrieval method, and (3) a document similarity metric. After introducing an appropriate validity measure,
we define optimum clustering with respect to the estimates of the relevance probability for the query-document pairs under
consideration. Moreover, we show that well-known clustering methods are implicitly based on the three components, but that
they use heuristic design decisions for some of them. We argue that with our framework more targeted research for developing
better document clustering methods becomes possible. Experimental results demonstrate the potential of our considerations. 相似文献
12.
13.
领域热点识别是科技情报与文献计量领域研究的关键问题之一,其能够为科技、教育部门的政策制定及科研人员的研究决策提供参考和依据。现有领域热点识别的研究主要基于文献计量学方法,并没有利用丰富的Web数据。本文提出了一种基于涌现模式挖掘的框架,利用社会化问答社区中的问答内容来识别领域研究热点。首先,提取问答内容中的关键词,并基于关键词的共现性进行聚类;然后,基于聚类结果构建候选研究热点模式集合,利用涌现模式挖掘方法识别领域研究热点并分析其发展趋势。本文基于知乎社区的“机器学习”话题数据集进行实验,利用卡方检验与领域前沿进行对比,结果表明该框架能够有效识别领域研究热点。该方法利用关键词聚类较好的缓解了涌现模式识别方法计算复杂度大等问题,具有良好的可行性;同时,该方法在线社区热点识别等问题中具有潜在的应用价值。 相似文献
14.
基于标引经验和机器学习相结合的多层自动分类 总被引:6,自引:0,他引:6
由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。 相似文献
15.
一种使用自动聚类思想的自动文摘方法 总被引:5,自引:0,他引:5
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘 相似文献
16.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。 相似文献
17.
18.
Document clustering of scientific texts using citation contexts 总被引:3,自引:0,他引:3
Document clustering has many important applications in the area of data mining and information retrieval. Many existing document
clustering techniques use the “bag-of-words” model to represent the content of a document. However, this representation is
only effective for grouping related documents when these documents share a large proportion of lexically equivalent terms.
In other words, instances of synonymy between related documents are ignored, which can reduce the effectiveness of applications
using a standard full-text document representation. To address this problem, we present a new approach for clustering scientific
documents, based on the utilization of citation contexts. A citation context is essentially the text surrounding the reference
markers used to refer to other scientific works. We hypothesize that citation contexts will provide relevant synonymous and
related vocabulary which will help increase the effectiveness of the bag-of-words representation. In this paper, we investigate
the power of these citation-specific word features, and compare them with the original document’s textual representation in
a document clustering task on two collections of labeled scientific journal papers from two distinct domains: High Energy
Physics and Genomics. We also compare these text-based clustering techniques with a link-based clustering algorithm which
determines the similarity between documents based on the number of co-citations, that is in-links represented by citing documents
and out-links represented by cited documents. Our experimental results indicate that the use of citation contexts, when combined
with the vocabulary in the full-text of the document, is a promising alternative means of capturing critical topics covered
by journal articles. More specifically, this document representation strategy when used by the clustering algorithm investigated
in this paper, outperforms both the full-text clustering approach and the link-based clustering technique on both scientific
journal datasets. 相似文献
19.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升. 相似文献
20.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献