首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 28 毫秒
1.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

2.
宋江春  沈钧毅 《情报学报》2006,25(4):488-492
提出了一个新的基于双向近邻技术的多层文档聚类算法。使用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向。利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高。最后对算法的有效性、可伸缩性和时间复杂度进行了研究。  相似文献   

3.
进行学术期刊关键词分析对于掌握学科主题和学科构成脉络具有重要意义,由此本研究利用网络嵌入技术提取了大型关键词关联网络的高阶信息,并利用聚类算法对“图书馆学;情报学”学科进行关键词主题可视化分析。首先,刻画了关键词之间的局部聚集和全局分布,并分析了最近四年中该学科的热度持续、热度增加和热度减退主题,最后通过国内外关键词关联网络对比揭示了中外研究热点异同。  相似文献   

4.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

5.
孙海生 《图书情报工作》2016,60(10):123-129
[目的/意义] 传统共词分析的聚类算法存在以下不足:①关键词只能被划归一个聚类;②聚类过程对分类数目的确定缺乏严格判断标准。针对以上问题,采用复杂网络理论进行改进研究。[方法/过程] 采用连边社团检测算法对关键词进行聚类,以科学计量学为例进行实证研究。[结果/结论] 分析结果表明:算法对关键词的聚类结果有较好的改进效果,能够把核心度高的关键词同时划分到不同的研究主题之中,克服传统聚类算法的不足,而且划分密度可为聚类数目的确定提供客观判断依据。  相似文献   

6.
支持向量聚类(Support Vector Clustering, SVC)算法主要分为两个阶段:训练阶段和聚类分配阶段.由于需要计算邻接矩阵,聚类分配阶段消耗的计算时间远比训练阶段多.本文在计算邻接矩阵前先利用核矩阵对数据进行初始分类,在每个初始类中寻找一个代表点.因为代表点和它所在的初始类拥有相同的簇标号,所以只需计算这些代表点集上的邻接矩阵.给每个代表点分配一个簇标号,代表点所代表的初始类内的数据点也就获得相同的簇标号,这样将有效减少聚类分配的时间.数值实验结果表明,本文提出的改进SVC算法不仅显著改善了SVC算法的时间性能,而且在聚类精度上也有一定程度的提高.  相似文献   

7.
基于聚类的网络舆情热点发现及分析*   总被引:9,自引:0,他引:9  
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。  相似文献   

8.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

9.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。  相似文献   

10.
一种使用自动聚类思想的自动文摘方法   总被引:5,自引:0,他引:5  
杨建林 《情报学报》2001,20(5):532-536
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘  相似文献   

11.
基于阅读价值的科技文献排序方法研究   总被引:1,自引:1,他引:0  
科技文献的准备是开展科研工作的必须步骤和重要基础,而当前从电子期刊数据库中检索到的相关文献往往成百上千篇.如何判断一篇文献的阅读价值,并快速准确地获得相关知识,成为科技文献服务方面的一个共性需求.本文针对在科研工作中需要快速对文献按阅读价值进行排序并获得相关知识这一共性需求,以PageRank算法为基础,提出并验证了一种综合考虑文献的内容、期刊、作者、时间等反映文献阅读价值的因素对文献进行排序的PaperRank方法.该方法在得到依据文献阅读价值的排序结果的同时,还可获得在某一问题或领域研究中的重要作者和重要文献等相关知识.  相似文献   

12.
王芳  李薇  杨错 《图书馆学刊》2013,35(1):127-130
以中国知网(CNKI)的相关数据库作为数据来源,采用文献计量学方法,从文献年代分布、作者分布、文献期刊来源、基金项目资助情况和关键词统计等几个方面,对学科馆员与学科服务发展研究的246篇文献进行统计.结合关键词频次和相关文献的内容,对研究主题进行分析,为学科馆员与学科服务研究进一步发展提供参考.  相似文献   

13.
[目的/意义]数字人文作为新兴的跨学科研究领域,受到许多学科的广泛关注。本文旨在探析数字人文在图情档学科中的知识扩散,供数字人文和图情档发展借鉴。[方法/过程]以Web of Science核心数据集为数据来源,通过对数字人文在图情档的目标文献以及目标文献的图情档施引文献两部分数据的期刊扩散性和主题扩散性两个维度进行分析。其中,期刊扩散性采用来自传播学的期刊双向传播理论以及改良的消除时间因素影响的期刊引证系数两个指标进行分析,主题扩散性采用基于关键词的词云图和基于关键词的聚类进行分析。[结果/结论]研究表明,期刊双向传播中扩散性大于1的期刊共有13个,JOURNAL OF INFORMETRICS为双向扩散性能最好的期刊;数字人文在图情档学科所属学科期刊引证系数排名靠前的期刊有JOURNAL OF INFORMETRICS、SCIENTOMETRICS、JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY等;期刊引证系数均呈现上下波动的现象,但是基本上top10的期刊在2006、2012、2016年出现了峰值,表明这些期刊在这些年份的影响力较大;数字人文研究现状、数字人文与图书馆融合、数字人文在教学中的应用、数字人文的激励措施在目标文献和施引文献的主题中均形成了规模,可以认为这四个方向的主题为数字人文在图情档的重点研究内容。  相似文献   

14.
杨艳萍  董瑜  韩涛 《图书情报工作》2016,60(19):143-148
[目的/意义]基于专利共被引聚类和专利组合分析构建关键技术识别分析框架,可为产业、企业决策和规划提供参考依据。[方法/过程]首先通过专利共被引聚类获得若干个聚类簇;再通过领域专家对聚类簇进行判读和命名;最后从专利活动和专利质量两个维度对聚类簇进行专利组合分析,其中专利申请数量和被引频次均较高的专利簇即为关键技术。[结果/结论]与已有方法比较研究表明,本方法不仅可以有效识别产业关键技术,还能在中观的产业层面揭示出切合实际需求的技术方向,也可为企业根据自身需求制定不同的技术发展战略提供指导。  相似文献   

15.
一种基于改进K-means的文档聚类算法的实现研究   总被引:1,自引:1,他引:0  
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。  相似文献   

16.
冯珺  孙济庆 《情报学报》2007,26(3):356-360
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。  相似文献   

17.
基于粗糙用户聚类的协同过滤推荐模型   总被引:1,自引:0,他引:1  
【目的】将粗糙集引入到基于用户聚类的协同过滤中,提高推荐质量。【方法】提出一种基于粗糙用户聚类的协同过滤推荐模型:离线时采用粗糙K-means用户聚类算法,根据用户与聚类中心的相似度将其分配到K个类的上、下近似中,形成用户的初始近邻集;在线时从目标用户的初始近邻集中搜索其最近邻,预测项目评分并向其产生推荐。【结果】通过实验对比发现,该模型比传统的和基于项目的协同过滤推荐算法降低约14%的平均绝对误差,比基于用户聚类的协同过滤推荐算法降低约10%的平均误差。【局限】在考虑上、下近似对聚类中心调整的重要程度时,忽略了用户聚类数目和最近邻集用户数阈值的变化所产生的影响。【结论】该模型能有效提高推荐精度,具有较强的可行性和现实意义。  相似文献   

18.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

19.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

20.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号