首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

2.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

3.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

4.
[目的/意义] 改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程] 将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以<词/词组,分类号>二元组的WI (Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论] 通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。  相似文献   

5.
[目的/意义] 为有效探测科技文献中潜在的研究热点,研究文献中关键词突发的特征条件,构建突发词识别模型对促进科研人员精确把握研究方向具有重要意义。[方法/过程] 获取各年度内关键词及词频,构建关键词-年度矩阵,将分析时间段划分为标准窗口、观察窗口和表现窗口,在观察窗口内利用多测度突发词探测模型识别具有突发特征的关键词;在表现窗口内利用LDA挖掘主题词汇作为热点词集合。设计突发词覆盖率指标,辅助滑动时间窗口法,计算不同时间窗口内突发词集合和热点词集合的覆盖率,验证模型识别准确性。[结果/结论] 3次滑动时间窗口,计算得到3次突发词覆盖率都在70%以上;与Citespace突发词的对照试验中,本模型3次覆盖率均大于前者,表明设计的突发词探测模型性能良好。  相似文献   

6.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

7.
[目的/意义] 为了解决研究生用户面临的检索问题,提出一种基于LDA和社会网络中心度分析的个性化检索推荐模型。[方法/过程] 首先,该模型以研究生学科专业为个性化特征,并据此选择相应的数据源。其次,该模型使用LDA识别主题内容,以完成全面知识的展示。再次,该模型根据用户提交的检索词在相应的关键词-主题共现网络中进行社会网络中心度分析,以完成用户相关知识的推荐。[结果/结论] 实验表明,该模型能够很好地解决研究生检索中个性化特征、全面知识展示以及相关知识推荐三大问题,其有效性得到一定程度的验证。  相似文献   

8.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

9.
[目的/意义] 为帮助读者从热点事件产生的海量微博报道中快速了解事件的来龙去脉,提高微博事件摘要的准确性和可读性,提出一种基于事件要素的多模型微博热点事件时间轴摘要提取方法。[方法/过程] 针对微博文本特征,结合主题模型(LDA)与互信息最大熵模型(MaRxEnt-MI)的特点提取事件摘要关键词,以微博传播价值和主题相关性为标准筛选微博,以时间-摘要关键词-摘要微博的形式生成时间轴摘要。[结果/结论] 利用人工标注的测试集,与传统的TextRank方法进行对比,F值提高8%-13%,内部测试表明摘要可读性提高明显。实验文本和测试集的数量及事件丰富度需要进一步扩展,应考虑更多的加权策略模型以提高摘要的准确性。实验结果及测试反馈表明,本文的方法能很好满足用户对热点事件摘要信息需求,提高微博摘要提取的准确率。  相似文献   

10.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

11.
��[Purpose/significance] The identification results of the LDA model is sometimes unsatisfactory due to some meaningless topics mixed together. Therefore, it's quite necessary to establish an effective topic filtering method to eliminate these noise topics and to ensure the accuracy of subsequent evolution analysis.[Method/process] Based on the co-occurrence relationship between keywords, keywords relevance index (KRI) was constructed. Taking the field of single cell research as an example, KRI values of the distribution of theme-keywords were calculated and compared with the results of manual interpretation.[Result/conclusion] Experimental results show that this method can effectively eliminate meaningless noise topics in the LDA model recognition results, which can improve the accuracy of topic recognition and the subsequent topic evolution analysis. It also helps to reduce the dependence on manual interpretation in the process of topic identification through the topic model method.  相似文献   

12.
��[Purpose/significance] This paper proposes the identification of the core research topics and their evolution path visualization methods, in order to provide reference for the field subject evolution analysis research, which has certain significance for revealing the evolution characteristics and development laws of the core topics.[Method/process] Using the LDA model for topic recognition and combining multi-dimensional scaling analysis and visualization techniques to map LDA topic recognition results to two-dimensional space. The topic similarity algorithm was used to detect the association between adjacent time topics, a new visual display method was proposed. We constructed cross-evolution paths of different types of research topics to reveal the dynamic changes of core topics and secondary topics in the evolution process.[Result/conclusion] Taking the medical health information field in China as an example, the research results show that the core research topics in the field of medical and health information in China mainly include electronic health records and Internet medical treatment. Among them, core themes such as health management and smart medical treatment show a good development trend.  相似文献   

13.
祝娜  王芳 《图书情报工作》2016,60(5):101-109
[目的/意义]科技创新需要快速发现特定科技领域中关键知识衍生与演化的路径,探索未来的知识创新趋势,为此,有必要对知识演化路径进行动态可视化研究。[方法/过程]从主题关联的角度入手,以3D打印领域为例,基于LDA识别出科技创新主题并进行分阶段细化分析,探测主题集群内部与外部的关联强度,识别出主题不同生命周期的演化能力及其演化类型。[结果/结论]实验结果表明,该方法从主题关联的角度入手,构建了基于时间序列的知识演化路径,丰富了知识管理和信息计量的理论研究方法,在实践上则有助于探测科技创新知识。  相似文献   

14.
��[Purpose/significance] In scientific research, identifying mining scientific research hotspots from different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed in this study, and provide support services for scientific research innovation.[Method/process] This paper proposed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for scientific research hotspot identification. This method combined the advantages of LDA topic model on implicit semantic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine learning as an example, the model extraction degree (perplexity) and topic coherence (topic coherence) were used to compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text.[Result/conclusion] After experiments, the results show that the method proposed in this paper is feasible and can be improved to some extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content in the multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and enrich the practical application of the multi-data source fusion theory system.  相似文献   

15.
[目的/意义]主题演化对科技前沿探测、创新战略部署具有十分重要的作用。[方法/过程]将主题演化分析过程分解为主题的表示、相似性关联和强度演化计算几个步骤,提出一种主题强度演化与预测模型,使用LDA模型进行主题的表示,提出内容、共现和趋势相似度等维度进行主题关联计算,引入基于Prophet的预测-修正模型进行主题演化趋势预测。并以干细胞领域为例,进行演化的实证分析。[结果/结论]实验表明,对每个研究主题采用Logistic增长模型进行预测R2Score都达到0.90以上,表明Prophet的Logistic增长模型与该领域主题增长趋势规律相符合,能够较好地拟合主题强度的演化趋势。提出的主题演化模型对专业领域内主题分布与演化分析有一定的借鉴意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号