首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于主题聚类的主题数字图书馆是针对某一个特定的主题,获取与该主题相关的数字资源集合(本文以文本资源为研究对象),然后再依据主题聚类算法,对该主题的信息资源集合进行聚类,生成可供用户浏览的多层次结构导航,结合全文检索实现基于主题聚类的主题数字图书馆系统.主题数字图书馆系统主要包括主题采集模块、主题聚类模块和数据集成模块,构建过程中主要涉及主题提取、主题聚类以及聚类结果描述等三类关键技术.表2.图1.参考文献20.  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。  相似文献   

4.
自动文本摘要中一个关键的步骤是确定文章的主旨并将反映文章主旨的句子提取出来.在讨论分析k-means, k-medoids等聚类算法的基础上,根据对文本摘要的实际要求以及文档自身的特点,提出一种基于聚类算法的主旨句提取方法.实验结果表明,在提高聚类准确性的基础上,新方法较其他聚类算法能够更加有效地避免遗漏主题的问题,能较全方位地反映全文的主旨,提取出的摘要既覆盖全面又突出重点.  相似文献   

5.
文章通过对时序高频词聚类,把情报学与计算机科学两个学科的交叉研究主题分为核心、新兴、衰退与稳定四种不同趋势变化的主题类型;通过对时序低频词聚类,预测两个学科的潜在交叉研究主题将会集中在新兴技术方法的应用、信息检索的深入研究和网络信息的有效组织、管理与利用三大方面.  相似文献   

6.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

7.
隗玲  许海云  郭婷  方曙 《图书情报工作》2015,59(21):105-114
[目的/意义]运用弱共现和突发监测两种研究方法,在微观层面对情报学学科的研究主题及其交叉性进行分析,以期揭示与科交叉规律,促进学科交叉研究。[方法/过程]获取情报学学科科研论文的高频主题词,在此基础上生成高频词共现矩阵,并进一步生成弱共现网络,对弱共现网络呈现出的主题及交叉性进行分析。同时,对高频主题词进行突发监测。[结果/结论]研究结果显示,在高频词强共现网络中不突出的研究主题会在高频词弱共现网络凸显出来,这些研究主题可能是当期的研究重点,也可能是将来的研究重点和热点;主题之间弱关系被定义为4类,体现了情报学学科微观层面的交叉性;突发探测结果在研究时间段内显示的研究热点趋势和强共现网络的聚类结果具有一致性,在揭示具有学科交叉性的新研究主题时体现出敏感性、突出性和动态性优势。  相似文献   

8.
宋江春  沈钧毅 《情报学报》2006,25(4):488-492
提出了一个新的基于双向近邻技术的多层文档聚类算法。使用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向。利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高。最后对算法的有效性、可伸缩性和时间复杂度进行了研究。  相似文献   

9.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

10.
面向网络问答社区海量问题内容组织的现实需求,针对用户提问的文本特点对其进行多层次主题聚类与图谱构建。通过充分融合Glove和Word2vec算法的优势,对用户提问进行文本特征表示。在此基础上利用不同聚类算法对用户提问进行多层次聚类,并利用TextRank生成聚类标签,然后基于主题间层次结构,利用图模型将不同提问文本的关联关系呈现出来,从而构建网络问答社区用户提问主题聚类图谱,以此提升网络问答社区平台知识资源的组织与利用效率,为知识查询和推荐提供索引。  相似文献   

11.
[目的/意义] 学科主题演化研究有助于掌握学科发展现状、研究热点、研究前沿和发展趋势等情况,是进行科技创新的基础,是面向科技创新的重要研究方向。[方法/过程] 提出一种语义分类的学科主题演化分析方法:将关键词分为研究问题、研究方法和研究技术3类,构建不同语义分类的共词网络;然后基于Fast Unfolding社区发现算法识别具有语义特征的社区(主题);利用相似度算法计算相邻子时期主题间的相似度,构建学科主题演化图谱,以分析某学科领域研究问题、研究方法和研究技术的变化,实现深度、细致的学科主题演化分析。[结果/结论] 通过对2012-2015年CNKI数据库收录的我国大数据研究领域相关论文数据的处理分析,证明该方法的准确性和有效性。  相似文献   

12.
王平 《图书情报工作》2014,58(22):70-77
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用.针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型hLDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词.最后,利用先/后离散分析方法研究主题随时间的演化问题.实验结果验证了主题发现及演化方法的可行性及有效性.  相似文献   

13.
[目的/意义] 基于主题关联相似度揭示主题汇聚及变异过程,识别学科交叉主题及交叉模式,归纳学科主题的演化趋势及演化路径模式。[方法/过程] 获取情报学学科科研论文的高频主题词,构造主题词共词矩阵,利用网络社区演化分析工具生成学科主题演化网络图,结合指标数据对学科主题演化过程进行分析。[结果/结论] 总体上看,情报学学科的研究主题虽然在反复地变化,但核心主题一直存在;扩张、收缩和合并是研究主题最普遍的变化态势,分裂现象较少,产生和消亡现象存在;有3条特定社区演化轨迹清晰地贯穿始终,活跃度相对稳定,反映了3类核心研究主题;3类核心研究主题的演化路径呈现出升华吸纳、共融迭新和辐射推进3种演化模式。研究结果显示,基于主题关联学科主题演化路径的多模式识别方法既能从宏观层面呈现学科主题演化形式,也能从微观层面分析学科主题交叉模式,结合二者可揭示学科主题的继承或创新,预测学科交叉主题的发展方向。  相似文献   

14.
在分析文献在不同研究阶段用词时间特征的倾向性基础上,提出一种基于主题模型的研究发展阶段识别方法。重点阐述该方法的构建过程,包括时间特征抽取、发展阶段界定、主题冷热变化分析等步骤。为验证该方法的有效性,针对词频统计法和主题模型方法在主题演化分析中的效果进行比较分析。结果表明,该方法能在识别主题热点和发展趋势的同时,有效地区分不同主题所反映的研究发展阶段。  相似文献   

15.
国内主题地图研究综述   总被引:2,自引:0,他引:2  
刘丹 《图书情报工作》2012,56(5):62-127
作为一种新兴的知识组织技术--主题地图,在国内外得到了广泛的研究和应用。利用文献调研法对国内关于主题地图的相关研究进行详细调研;采用内容分析法对这些研究内容进行深入分析。在此基础上,揭示国内关于主题地图的研究现状,为主题地图在国内的应用和发展提供一些参考和启示。  相似文献   

16.
微博主题发现研究方法述评   总被引:2,自引:1,他引:1  
[目的/意义]对现有微博主题发现的研究文献进行全面的梳理和评述,为研究人员深入开展相关研究提供借鉴。[方法/过程]针对传统的主题发现的基本原理和主要研究方法,分析微博文本的组织特征,从基于短文本特征和基于非文本特征的这两个角度对微博主题发现方法进行梳理,并对两类方法进行详细的阐述及特点分析,最后对微博主题发现研究的发展趋势进行展望。[结果/结论]目前微博主题发现的研究还处于探索阶段,未来应该继续深化理论探索、创新研究方法。  相似文献   

17.
[目的/意义]主题演化对科技前沿探测、创新战略部署具有十分重要的作用。[方法/过程]将主题演化分析过程分解为主题的表示、相似性关联和强度演化计算几个步骤,提出一种主题强度演化与预测模型,使用LDA模型进行主题的表示,提出内容、共现和趋势相似度等维度进行主题关联计算,引入基于Prophet的预测-修正模型进行主题演化趋势预测。并以干细胞领域为例,进行演化的实证分析。[结果/结论]实验表明,对每个研究主题采用Logistic增长模型进行预测R2Score都达到0.90以上,表明Prophet的Logistic增长模型与该领域主题增长趋势规律相符合,能够较好地拟合主题强度的演化趋势。提出的主题演化模型对专业领域内主题分布与演化分析有一定的借鉴意义。  相似文献   

18.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

19.
链接分析是近些年来信息计量学研究的一个热点问题。以国内2000-2010年链接分析的部分研究成果为对象,运用词频统计、共词网络等方法对其进行计量分析。研究发现,国内链接分析研究目前主要集中在图书情报学和计算机科学领域。这两个领域的研究既有一些交叉的内容,也各自有一些学科特色鲜明的研究子主题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号