首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

2.
本研究在总结现有以共链分析和社会网络分析为主的学术网络局部结构识别方法的基础上,提出了改进的两步式K核分析方法,首次引入了复杂网络中的社区识别算法进行链接网络的分割,并尝试通过适用性评测验证快速聚类算法在同质Web链接网络的主题结构识别方面的有效性.最后的实验结果表明,本研究提出的改进K核分析方法可以有效地发现存在于链接网络中的主题聚类现象;同时研究中引入的快速聚类算法对以93所大学网站进行了聚类并获得六个主题类.通过聚类准确率指标计算,该聚类方法的平均准确率为72%.以上结论证实了本研究中采用的从链接关系度量,数据矩阵构建、到链接网络分析的方法体系是有效的.  相似文献   

3.
宋江春  沈钧毅 《情报学报》2006,25(4):488-492
提出了一个新的基于双向近邻技术的多层文档聚类算法。使用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向。利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高。最后对算法的有效性、可伸缩性和时间复杂度进行了研究。  相似文献   

4.
冯珺  孙济庆 《情报学报》2007,26(3):356-360
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。  相似文献   

5.
一种新的自适应蚁群算法及仿真   总被引:1,自引:0,他引:1  
蚁群算法是一种崭新的仿生模拟进化算法,该算法在许多领域已经得到应用。本文在阐述蚁群算法概念和基本原理的基础上,提出一种新的自适应调整信息素挥发因子的改进算法,以克服其收敛速度慢、易陷入局部最优等缺点,并给出了伪代码,最后将基本的蚁群算法与本文改进后的蚁群算法进行了仿真实验,仿真结果表明,改进后的蚁群算法具有优良的全局优化性能,效果明显。  相似文献   

6.
论文探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,指出:在文本分词、构建词频——文档矩阵的基础上,使用Pamk算法和Kmeans算法进行微博聚类,获取图书馆服务质量评价与建议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改进服务质量。  相似文献   

7.
K-means算法研究综述   总被引:4,自引:0,他引:4  
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。  相似文献   

8.
孙海生 《图书情报工作》2016,60(10):123-129
[目的/意义] 传统共词分析的聚类算法存在以下不足:①关键词只能被划归一个聚类;②聚类过程对分类数目的确定缺乏严格判断标准。针对以上问题,采用复杂网络理论进行改进研究。[方法/过程] 采用连边社团检测算法对关键词进行聚类,以科学计量学为例进行实证研究。[结果/结论] 分析结果表明:算法对关键词的聚类结果有较好的改进效果,能够把核心度高的关键词同时划分到不同的研究主题之中,克服传统聚类算法的不足,而且划分密度可为聚类数目的确定提供客观判断依据。  相似文献   

9.
基于蚁群算法与K-means算法相结合的Web用户聚类   总被引:1,自引:1,他引:0  
Web用户聚类是指用聚类算法产生用户会话的聚类,是电子商务中的一个重要问题.该问题的难度在于有成千上万的会话需要聚类,而且每个会话都可描述为一个高维向量.此外,该问题就聚类的数目而言具有指数的复杂性,是一个NP-难的问题.本文提出一种新的聚类方法,该方法将蚁群算法与K-means算法相结合对用户会话进行优化聚类.实验结果表明,与K-means算法相比,该方法在Web导航推荐的应用中具有更好的性能.  相似文献   

10.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

11.
[目的/意义] 在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法/过程] 基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果/结论] 采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。  相似文献   

12.
孙佳佳  李雅静 《情报学报》2022,41(2):118-129
对作者关键词进行价值细分研究,有助于识别学科高价值研究热点主题,帮助研究者们精确把握高价值研究主题和学科研究前沿。本文引入营销领域客户价值细分RFM (recency,frequency,monetary)模型,对各个指标进行动态加权,多次实验后,形成多组关键词价值细分结果;从关键词生命周期的角度,结合医学领域的生存分析方法,使用Kaplan-Meier曲线和Logrank检验验证,识别出最优价值细分结果;依据帕累托原则和聚类算法得到高价值热点主题。数据源选择CSSCI (Chinese Social Sciences Citation Index)收录的图情档领域期刊论文,对1998—2019年的题录数据进行实验。相较于已有的热点主题识别方法,本文的识别结果考虑了关键词的价值属性和分类,较好地识别了高价值热点主题。  相似文献   

13.
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。  相似文献   

14.
基于CiteSpaceⅡ的数字图书馆研究热点分析   总被引:3,自引:0,他引:3  
通过CiteSpaceⅡ对Web of Science中数字图书馆领域相关论文进行共被引分析,利用CiteSpaceⅡ的聚类结果和聚类标识结果,从研究热点、研究热点的时间、关键点三个方面对数字图书馆研究热点进行了分析。  相似文献   

15.
元搜索引擎研究综述*   总被引:3,自引:0,他引:3  
介绍元搜索引擎的起源与发展、基本原理和分类,重点从元搜索引擎关键技术的实现上阐述元搜索引擎研究的主要内容与进展,最后分析现有元搜索引擎存在的各种局限性,归纳出未来值得研究和探讨的若干方向。  相似文献   

16.
进行学术期刊关键词分析对于掌握学科主题和学科构成脉络具有重要意义,由此本研究利用网络嵌入技术提取了大型关键词关联网络的高阶信息,并利用聚类算法对“图书馆学;情报学”学科进行关键词主题可视化分析。首先,刻画了关键词之间的局部聚集和全局分布,并分析了最近四年中该学科的热度持续、热度增加和热度减退主题,最后通过国内外关键词关联网络对比揭示了中外研究热点异同。  相似文献   

17.
[目的/意义] 探讨不同学科分类体系在机构科研影响力评价中的差异及对评价结果的影响。[方法/过程] 以Incites数据库为数据来源,选择5种分类体系、8种分类方案。首先对14 955个机构不同分类方案下的学科标准化引文影响力(Category Normalized Citation Impact,CNCI)进行相关性分析,考察不同分类体系下评价结果的整体相似性。然后以国内双一流建设中的36所高校为例,比较和分析不同分类方案下机构CNCI值的变化情况及差异产生的具体原因,研究分类体系对个体机构评价的影响。[结果/结论] 不同学科分类方案下得到的CNCI值相关性显著(最低相关性达到0.85),即不同分类体系得到的整体评价结果具有较高的相似度。但是不同分类体系下的评价结果也存在聚类特征,OECD、ESI、SCADC、CT1相互之间相关系数高、结果更相近,WoS、CT2和CT3评价结果更接近,分类体系的粒度是决定评价结果的重要因素。36所高校在不同的分类体系下评价结果的整体相关性较高,但个别高校CNCI值变化较大,特别是在热点主题上有突出发文的机构。评价结果的巨大差异其根本原因是论文划分到不同类目中,不同类目下的引用基准值不同。在评价过程中更加推荐粒度较细的分类体系,减少热点主题等对引用基准值的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号