首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 250 毫秒
1.
[目的/意义]分析中国国内基于主题模型的科技文献主题发现及演化研究进展,以期为相关研究人员提供参考借鉴及研究思路。[方法/过程]选取中国知网(CNKI)数据库及万方数据知识服务平台作为文献来源,检索并筛选相关文献,通过人工判读提炼出基于主题模型的科技文献主题发现及演化研究的分析流程,并采用文献分析法对流程中国内研究人员所使用到的策略、方法、分析手段等进行归纳和总结。[结果/结论]研究已初具规模,形成较为完整的分析流程,同时各个流程环节上所涉及到的策略、方法和分析手段较为多样化。另外,也存在着一些问题:主题模型方法在科技文献领域的应用尚且不成熟,主题数目固定,缺少对主题模型应用效果的评价方法与准则。  相似文献   

2.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

3.
[目的/意义]探测高血压医学文献的主题和演化趋势,对发现高血压领域的研究热点和前沿,理解高血压领域概况和促进专家之间的知识交流具有重要意义。[方法/过程]以PubMed数据库下载的26 717篇与高血压相关的文献题录数据作为研究对象,抽取高频主题词构造共现矩阵,同时采用社会网络分析(SNA)和狄利克雷多项回归(DMR)主题模型从中观、微观层面探测高血压医学文献的主题分布和演化趋势;比较这两种方法的关联和异同点。[结果/结论]研究发现,高血压医学文献主要集中在危险因素、研究方法、基本要素、诊断治疗和动物实验这5个研究主题,主题的相对分布比率随着时间变化而不断改变。利用SNA方法获取的主题词更加具体和明确,而DMR方法获取的主题词更加宽泛,但在探索各个主题的演化趋势方面比较有优势。  相似文献   

4.
梁爽  刘小平 《图书情报工作》2022,66(13):138-149
[目的/意义]梳理国内外基于文本挖掘的科技文献主题演化相关研究,对主题演化分析中使用的各种方法进行分类、归纳与总结,并提出现有研究存在的不足,为主题演化研究提供新的思路与借鉴意义。[方法/过程]依照国内外学者进行主题演化研究的一般流程,对数据集选取与对象分析、主题识别研究、主题演化研究(主题演化时序分析、主题强度演化分析、主题内容演化分析)3个分析层面中所使用的各类模型、指标与方法进行梳理比较与优缺点总结,提出现有研究的局限性并对未来发展做出展望。[结果/结论]当前研究已具有一定规模和较为成熟的分析体系,但仍存在以下不足:数据来源较为单一;LDA及相关扩展模型存在的弊端需进一步克服;缺乏对其他机器学习及深度学习算法的探索应用;演化分析方法需相互结合、互补互融。未来应针对以上问题做出相应改进与深入探究。  相似文献   

5.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

6.
[目的/意义] 基于主题关联相似度揭示主题汇聚及变异过程,识别学科交叉主题及交叉模式,归纳学科主题的演化趋势及演化路径模式。[方法/过程] 获取情报学学科科研论文的高频主题词,构造主题词共词矩阵,利用网络社区演化分析工具生成学科主题演化网络图,结合指标数据对学科主题演化过程进行分析。[结果/结论] 总体上看,情报学学科的研究主题虽然在反复地变化,但核心主题一直存在;扩张、收缩和合并是研究主题最普遍的变化态势,分裂现象较少,产生和消亡现象存在;有3条特定社区演化轨迹清晰地贯穿始终,活跃度相对稳定,反映了3类核心研究主题;3类核心研究主题的演化路径呈现出升华吸纳、共融迭新和辐射推进3种演化模式。研究结果显示,基于主题关联学科主题演化路径的多模式识别方法既能从宏观层面呈现学科主题演化形式,也能从微观层面分析学科主题交叉模式,结合二者可揭示学科主题的继承或创新,预测学科交叉主题的发展方向。  相似文献   

7.
[目的/意义]从主题时序视角出发,以中国图书馆学会年会主题和年会论文集题录为研究样本,进行相关主题词的分布和演化分析,梳理中国图书馆界近十年来理论与实践发展脉络。[方法/过程]获取2007-2017年间中国图书馆学会年会的相关主题词,从中选择高频词,利用Excel构造主题词共词矩阵,利用Ucinet和SPSS工具进行主题词静态分布分析,结合"流行研究热点权值(PRHW)"指标对主题词进行动态演化分析。通过词频、中心性、聚类对比分析相关主题词的静态分布特征;通过词频时序和共词时序分析主题词的动态演化特征,并采用PRHW指标进行识别和演绎;从7个类团中抽取两个典型主题词构筑全主题词的共词时序网络。[结果/结论]相关主题词的静态分布特征表现为:年会主题词和论文集主题词高频词一致性较好,论文主题词更微观具体;二者都不具备显著的中心性;聚类结果根据相近原则归并出7个具体类团。主题词的动态演化特征表现为:分长期关注、早期关注、近来关注上升和近来关注下降四类,相关主题的微观演化特征得到了精细化呈现。  相似文献   

8.
基于概率主题模型的文献知识挖掘   总被引:1,自引:0,他引:1  
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。  相似文献   

9.
基于概率图模型的科研文献主题演化研究   总被引:3,自引:2,他引:1  
学术文献的主题分析对于研究者进行思路整理及发现研究主题非常重要.通过进一步的分析,能够理解主题如何发展变化,以及如何影响研究者的行为等等.探索了基于概率图模型的科研文献主题演化问题,特别分析了主题随时间的相互影响问题,提出了基于模块化网络的方法研究主题之间的相互关系,从而理解其相互影响.首先,利用主题模型获取时间文本的主题及其强度曲线,然后利用时间序列的逐段线性表示方法去除序列中的噪音,从而有效反映趋势信息,使得利用模块化网络能够更加准确地反映主题的影响关系,实验结果及其相关分析证明了方法的有效性.  相似文献   

10.
[目的/意义] 概率主题模型算法在不断得到改进与扩展,本文对国内外已有的利用引文构建的主题模型进行研究,分析和对比不同模型的生成过程与算法,并探讨利用引文构建的主题模型在科技文本分析中的应用与可扩展的研究方向。[方法/过程] 通过Web of Science数据库和CNKI数据库获取国内外利用引文构建主题模型的相关文献,经人工判读后筛选出具有代表性的文献,对这些文献中利用引文构建的主题模型,从建模思想、生成过程、参数估计与推断算法等方面进行对比与分析。[结果/结论] 目前国内外利用引文构建的主题模型主要包括研究主题与引文分布的主题模型、研究被引与施引主题间关系的主题模型,以及基于引用内容的引用主题模型;主题模型中引入引文信息后,能够获得更完整的主题内容和特定主题下的重要文献,并可识别施引文献和被引文献之间主题间的关系及影响;已有的模型多集中在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型基础上进行扩展。未来可扩展研究引入引用内容的主题模型、模型的性能优化和评价方法、模型的应用研究等。  相似文献   

11.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

12.
科技期刊学论文对于科技期刊行业转型升级、提升期刊的影响力、加强编辑团队建设、提升编辑的业务水平等方面具有重要作用。本文概述了科技期刊学论文的4种选题类型——新题快做、新题深做、老题新做、老题深做,并结合已经发表的论文,讲述了这4种选题的写作模式,以及论文写作的6个技巧。  相似文献   

13.
[目的/意义]主题演化对科技前沿探测、创新战略部署具有十分重要的作用。[方法/过程]将主题演化分析过程分解为主题的表示、相似性关联和强度演化计算几个步骤,提出一种主题强度演化与预测模型,使用LDA模型进行主题的表示,提出内容、共现和趋势相似度等维度进行主题关联计算,引入基于Prophet的预测-修正模型进行主题演化趋势预测。并以干细胞领域为例,进行演化的实证分析。[结果/结论]实验表明,对每个研究主题采用Logistic增长模型进行预测R2Score都达到0.90以上,表明Prophet的Logistic增长模型与该领域主题增长趋势规律相符合,能够较好地拟合主题强度的演化趋势。提出的主题演化模型对专业领域内主题分布与演化分析有一定的借鉴意义。  相似文献   

14.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

15.
[目的/意义] 针对当前非正式信息交流主题演化研究在分析层次和测度指标两方面存在的局限,提出一种具有通用性的演化分析方法,从微观和中观层面探究主题演化特征与规律。[方法/过程] 引入会话分析理论,以新浪微博和知乎为例,通过对主题和主题簇运行过程进行分析,从会话内容和讨论方式两个维度揭示非正式信息交流演化特征与规律。同时,设计主题持续性计算判定方法,丰富主题演化的衡量标准。[结果/结论] 主题演化分析结果显示新浪微博和知乎意见群体的发文主题存在明显偏重,且表明了意见群体参与社会焦点事件讨论中观点的主要切入角度;主题簇演化分析发现了新浪微博意见群体在一定范围内发散探索多元主题、知乎意见群体始终关注聚焦核心主题的讨论特点。两个社交媒体中意见群体在会话内容和讨论方式方面的区别,喻示了新浪微博和知乎在网络环境的非正式信息交流中主要承担的角色差异。  相似文献   

16.
从工程需要中提炼报道选题之实践   总被引:2,自引:2,他引:0  
王汉熙 《编辑学报》2002,14(3):160-163
以<中国机械工程>杂志1998年第12期刊载的<面向产品全生命周期的设计>专辑为例,介绍一套科技期刊选题策划的工程化方案.从中可以看出:科技期刊选题策划不是始于期刊编辑部收到稿件之后,也不是结束于期刊编辑出版之时,而是包括期刊编辑经常性的调研活动在内一系列编辑活动的有机集成;选题策划所涉及的编辑活动是一种以期刊宗旨和发展战略为前提的期刊生产活动、经营活动和管理程序;选题策划成功的基础是对科学技术及工程实践已有成果的总结及其发展的需要;选题策划成功的条件是编辑者能够自觉地运用马克思主义的科学技术哲学观对工程实践中的现象进行分析判断,从繁杂纷纭的现象中找到隐藏在它后面的问题;选题策划成功的要诀在于编辑者深入工程实际,深入科学研究.必须强调的是,科技期刊选题策划不仅是一种期刊活动,更重要的它还是一种以科学家为中心的提炼工程成果、抽象科学理论的高级科学活动.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号