共查询到19条相似文献,搜索用时 156 毫秒
1.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果. 相似文献
2.
3.
4.
论“引文耦合”与“同被引” 总被引:3,自引:0,他引:3
科学文献的引用与被引用,使得大量文献分群聚类.引文聚类包括“双引”、“三引”以及三引以上的引文聚类.科学文献的双引聚类分析涉及两个最本的概念:“引文耦合”与“同被引”.对“引文耦合”与“同被引”的分析研究,是文献计量学的重要内容之一.本文主要讨论这两种引文聚类关系的广义概念、分析方法及其意义. 一、“引文耦合”与“同被引”的概念在科技文献的引文中,人们经常可以看到不同文章的作者在不约而同地引用某篇或某几篇完全相同的文献.针对这种现象,美国学者开斯勒(M·M·Kessler)博士于1963年首次提出 相似文献
5.
6.
[目的/意义]基于专利共被引聚类和专利组合分析构建关键技术识别分析框架,可为产业、企业决策和规划提供参考依据。[方法/过程]首先通过专利共被引聚类获得若干个聚类簇;再通过领域专家对聚类簇进行判读和命名;最后从专利活动和专利质量两个维度对聚类簇进行专利组合分析,其中专利申请数量和被引频次均较高的专利簇即为关键技术。[结果/结论]与已有方法比较研究表明,本方法不仅可以有效识别产业关键技术,还能在中观的产业层面揭示出切合实际需求的技术方向,也可为企业根据自身需求制定不同的技术发展战略提供指导。 相似文献
7.
2001~2006年国际情报学研究的引文分析 总被引:1,自引:0,他引:1
目的:了解当前国际情报学研究现状,总结研究热点,提供参考信息。方法:采用引文分析方法,对国外6种情报学核心期刊2001~2006年发表的学术论文进行调查分析,并用SPSS对高频被引文献进行同被引聚类分析。根据各个类中的文献内容分析当前研究的热点。结果:检得SSCI数据库中相关文献2320篇,其参考文献出现频次高于30次的论文47篇。高被引论文聚类分析树图分6类。结论:当前情报学研究热点主要集中于六个方面:网络信息资源评价、文献及作者同被引分析、信息组织处理、用户信息检索行为研究、情报学在医学领域的应用及基本理论阐述。 相似文献
8.
文章运用引文分析法对2005-2010年间发表的目录学论文进行统计,从引文量、引文学科种类、高被引作者和高被引论文数量及被引次数、共被引次数四个方面分析目录学发展现状,最后运用引文分析的多元统计方法(聚类分析法、多维尺度分析法)探讨目录学研究的不足之处。 相似文献
9.
文献数据库中书目信息共现挖掘系统的开发 总被引:9,自引:0,他引:9
针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。 相似文献
10.
采用模糊聚类分析方法对科技期刊综合学术影响力的分类进行研究。选取总被引频次、影响因子、即年指标、他引总引比、引用刊数、扩散因子和被引半衰期等7个期刊引证指标作为特征指标,以20种核科技期刊为分类对象,采用相关系数法建立模糊相似矩阵,进而对样本的聚类状态进行动态分析。分析结果显示,在λ=0.912水平下,20种核科技期刊聚为综合学术影响力明显不同的5类。同时,利用这一聚类结果,对某一核科技期刊的综合学术影响力作出了预报。 相似文献
11.
文章的研究对象为高校优秀硕、博学位论文,研究方法为引文共引聚类分析与关键词词频分析相结合的方法。根据引文共引理论设计了CIT系统。通过操作CIT系统得出相关矩阵,将CIT系统计算的数据导入SPSS中聚类,得出了客观的数据结果。最后,科学地分析了国内外数字图书馆学科的研究热点,并进行了比较。 相似文献
12.
期刊共引分析及可视化实证研究——以图书情报学研究为例 总被引:3,自引:0,他引:3
文章利用ISI的Web of Science中的SSCI数据库,对1996~2008年8月期间收录的24种图书情报学核心期刊引文进行了期刊共引分析,并绘制了图书情报科学研究的知识图谱.知识图谱显示,目前国际图书情报学领域主要分为图书馆学和情报学两大部分.图书馆学研究大致包括网络资源组织、数字图书馆、开放获取、知识组织、用户服务等主流学科领域;情报学大致包括网络计量研究、信息(引文)计量研究、科学计量学理论、科研指标与评价、信息检索及用户检索行为理论研究、电子信息系统与服务及用户行为研究等主流学科领域. 相似文献
13.
从共被引角度对我国图书馆联盟研究领域的核心作者进行其被引分析,运用h指数确定核心作者,构建作者共被引次数矩阵,在进行因子分析、聚类分析、多维尺度分析等的基础上,运用社会网络分析工具Pajek进行可视化处理,试图揭示我国图书馆联盟信息资源共享研究的结构和状况。 相似文献
14.
期刊共被引矩阵对角线问题的实证研究 总被引:1,自引:0,他引:1
15.
基于作者同被引分析的我国图书情报学知识结构及其演变研究 总被引:1,自引:1,他引:0
提出“聚类分析”和“pathfinder算法”为一体的可视化方法,阐述了其原理和实现步骤,在此基础上利用大样本数据,分时段研究了我国图书情报学知识结构,并分析了其发展演变的具体情况。研究表明,我国图书情报学在1998—2007年的研究主要集中在11个方面:文献计量、科学计量与信息计量,情报学基本理论与方法,竞争情报,网络信息组织、检索与服务,知识产权,知识管理与信息资源管理,数字信息资源开发与利用,目录学,信息标引与检索,图书馆学基本理论。随着时间的推移,网络计量学、竞争情报等方向逐步兴盛,传统目录学、数字图书馆等方向则走向分化或衰退。图5。表1。参考文献20。 相似文献
16.
本文以引文分析、共引分析、聚类分析和社会网络分析等方法为理论依据,通过Citespace、Bibexcel、Pajek和Ucinet等信息可视化工具,以公共卫生与预防医学学科为例,探讨信息可视化技术在医学情报分析中的应用,通过绘制知识图谱,揭示了该学科领域的七种核心期刊。运用社会网络分析法,分析了核心期刊、参考文献、核心作者在社会网络的地位和作用。通过对关键词和从题目中提取出来的名词性短语的知识图谱的绘制,揭示本学科2005~2009年的主要研究主题和关注热点。为研究者利用信息可视化技术开展医学情报分析提供借鉴和帮助。 相似文献
17.
基于C-value与TF-IDF的文献簇主题识别研究 总被引:1,自引:0,他引:1
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一.引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征.本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法.实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别. 相似文献
18.
利用作者共被引分析,探索基于作者共被引的馆藏资源聚合模式,并在实现资源聚合的基础上,探析聚合服务的途径。以图书情报领域研究本体的作者为例进行实证分析,聚合得到5个学术共同体以及各组的研究主题,包括理论研究、面向数字图书馆、基于概念格、知识地图、模块化、叙词表的本体研究等。结果显示基于作者共被引的馆藏资源聚合是一种有效的馆藏资源聚合方式。 相似文献
19.
在共被引分析中,还有诸多问题未解决,如原始数据是否需要标准化,选择何种相似性测度方式更为准确可靠。从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊共被引分析是否需要将数据进行标准化处理的结论及切比雪夫距离是期刊共被引分析中相似性测度的理想选择。 相似文献