首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
孙国超  徐硕  乔晓东 《情报工程》2016,2(4):020-029
随着科研人员需要处理的文献集规模的日益庞大,以LDA 为代表的主题模型能够从语义层面挖掘大规模文献集中隐含的主题,因此,LDA 主题模型的应用越来越广泛。LDA 模型仅仅关注文献集的内容,而忽略了文献其他重要的外部信息,AToT 模型在LDA 主题模型的基础上引入了文献作者和文献发表时间两个属性,使AToT 模型不仅可以挖掘文献中隐含的信息,还可以分析文献作者的研究兴趣及文献主题随时间的变化。AToT 模型对文献集建模的结果是以概率矩阵的形式呈现,不能直观、全面、清晰的呈现挖掘出来的信息,特别是对数据挖掘不熟悉的科研人员,因此,本文开发了一个基于AToT 模型的可视化系统,该可视化系统清晰、美观地展现了AToT 模型中文献、主题、作者、时间、词项间的关系。如文档中的主题分布、主题的词项分布、作者的研究兴趣分布、主题的相似主题和主题的演化趋势等。  相似文献   

2.
本体目前已成为人工智能、信息检索、信息集成和知识元挖掘等研究领域的热门课题.但本体的构造却又是一个非常费时费力的过程.文献主题成因原理具有普遍性,是构造文献主题标引的基本原理和实践经验.本文根据文献中的知识元语义深度挖掘的要求,探讨并实验了文献主题成因本体与知识元本体之间的本体映射模型.通过两种异构本体间的互操作建立了三种本体关系:本体间包含关系,本体间映射关系和本体间合并关系,初步实现了文献主题与知识元之间的本体转换模型,为基于文献的知识发现探索了一种新的研究方法.模型的实验结果令人鼓舞.  相似文献   

3.
现有的媒介融合研究综述侧重于主题归纳与内容分析,缺乏对量化数据的挖掘与考察。本文基于CSSCI数据库,采用文献计量学的方法,利用知识图谱软件CitespaceⅢ对我国媒介融合研究的知识生产脉络、重要作者及作者网络、知识基础、研究热点及其演化进行了挖掘与分析。研究发现,媒介融合研究在我国尚属新兴的增长领域;高产作者与高被引作者重合度低,作者合作频度低,存在派别分割现象;知识基础体现出稳定性和延续性。本文还通过统计关键词词频及其变化探讨了媒介融合研究的热点及其演化,发现研究热点呈现出技术层面—内容及产业层面—理念层面的变迁过程。  相似文献   

4.
基于文献的知识发现的应用进展研究   总被引:15,自引:0,他引:15  
张树良  冷伏海 《情报学报》2006,25(6):700-712
本文在对共词分析、共引分析理论、Swanson理论以及文本挖掘理论应用进展进行系统研究的基础上,将分别基于上述理论的基于相关文献发现、基于非相关文献发现和基于全文献发现统一整合于“基于文献知识发现”之下,构建起完整的基于文献知识发现的方法与应用研究体系,同时分析了其应用前景。  相似文献   

5.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

6.
本文运用文献计量分析,社会网络分析对2005至2015年国内外南海研究领域在核心期刊上的学术成果进行量化分析,整理出国内外南海研究文献分布与利用情况,探讨了关键词所表征的研究热点,发现了当前国际国内的主要研究主题,挖掘了核心学者对各研究主题研究分布和作者合作的智能发挥等信息,从文献计量角度反映出国际学界南海问题研究的热点和现状.  相似文献   

7.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

8.
基于文献结构的自动文摘的初探   总被引:5,自引:1,他引:4  
首先阐述了人们进行自动文摘研究的必要性,并介绍了自动文摘的技术背景。然后着重论述了基于文献结构的自动文摘的特点和实现方法,并对已有的数学模型进行评价,提出了作者的一些改进想法。指出了传统自动文摘方法的缺陷,并根据基于文献结构的自动文摘的特点提出了解决问题的办法。本文在最后还探讨了自动文摘在“知识发现”和文本信息挖掘领域内的初步应用。  相似文献   

9.
阮剑  杨海霞  黄瑱 《情报工程》2017,3(4):039-047
大数据时代下,运用文本挖掘技术自动从海量科技文献中提取研究主题并探测研究趋势十分重要。基于LDA 主题模型,考虑科技文献的发表时间信息,对优秀“综合性科学技术”类大学学报2006-2014 期间刊载的计算机科学类文献进行主题内容和主题强度分析;同时基于计算机专业期刊文献,进行研究趋势探测。本文从25 个研究主题中得到7 个强度增强的研究主题和6 个强度减弱的研究主题,揭示大学学报文献中我国高等院校对计算机科学领域的研究状态。通过对数据进行挖掘和分析,了解我国高等院校在计算机科学研究领域的研究趋势,帮助从事该领域研究的学者寻找新兴研究主题,有助于大学学报在定向组稿和学术专辑出版中,把握学术热点与前沿方向,进而提高学报的影响力。  相似文献   

10.
介绍了Swanson基于非相关文献知识发现的原理及国内外学者在此基础上进行的研究与进展情况,重点阐述了多种非相关文献知识发现过程的算法模型,提出了把该原理应用与汉语文献进行非相关文献知识发现的设想,并对算法模型进行了初步探讨。  相似文献   

11.
提出了一种基于数据挖掘技术的Web智能服务算法,它通过对Web数据模型的转换,发现并建立有关用户意向关联知识库,然后再利用知识库中的关联规则来预测用户行为,从而提高了用户浏览器访问速度。该研究内容属目前智能信息检索领域的重要研究课题,具有一定的理论和实践意义。  相似文献   

12.
信息系统中一种面向粗糙集的数据挖掘方法   总被引:17,自引:2,他引:15  
程岩  黄梯云 《情报学报》2001,20(1):90-99
数据挖掘技术是信息系统的一个重要研究内容 ,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术仅仅适用于精确集 ,不适用于粗糙集 ,而现实中粗糙集是普遍存在的现象 ,因此开发出一种面向粗糙集的数据挖掘技术在信息系统的研究领域具有重要意义。本文结合粗糙集理论提出了一个信息系统的粗糙集模型 ,在此基础上设计出一个属性约简方法及从粗糙集中发现规则的算法 :Apriori_2。  相似文献   

13.
介绍了中医药临床文献常用的数据挖掘技术及其在中医药临床文献分析中的应用,指出采用中医专家和数据挖掘专家密切协作挖掘中医药数据,不仅可以从理论和临床上解决中医药的难点,还可能是未来挖掘和利用中医药知识的重要方法。  相似文献   

14.
学科领域生命周期中作者研究兴趣演化分析   总被引:4,自引:3,他引:1  
关鹏  王曰芬 《图书情报工作》2016,60(19):116-124
[目的/意义]为揭示作者研究兴趣的演化特征,结合生命周期理论和Author-Topic(AT)主题模型提出作者研究兴趣演化分析框架。[方法/过程]收集CNKI数据库中锂离子电池领域的期刊论文数据,通过文献信息增长规律对学科生命周期发展阶段进行划分,利用AT主题模型抽取分析作者-主题、主题-词项以及文档-主题概率分布,通过追踪学科领域生命周期中主题强度和作者研究兴趣度的变化趋势进行演化分析。[结果/结论]实证研究选择核心作者作为分析对象,结果显示国内锂离子电池领域的核心作者的研究兴趣度普遍在成长期达到最大值,对学科发展起到促进作用。核心作者的研究兴趣演化趋势与相应的主题演化趋势一致时,能够引领该研究主题的发展。但也存在一些研究主题,其演化趋势并不同于核心作者的研究兴趣演化趋势,这部分主题往往强度值较大,涉及的研究方向比较广。  相似文献   

15.
如何有效的进行生物医学文献检索和信息挖掘,是计算机技术和生物信息技术研究领域中的一个经典课题。本文对生物医学文献中自然语言问题文档,片段,概念和RDF三元组,构建了高效的检索和问答系统。特别的,在文档检索中,我们搭建了基于顺序依赖模型,词向量,和伪相关反馈相结合的通用检索模型;同时,前k个文档被分离为句子和片段,并以此建立检索索引,并基于文档检索模型,完成片段检索;在概念挖掘中,提取生物医学的概念,列出相关的概念属于网络服务的五个数据库链接,通过得分排名得到最终的概念。在CLEF BioASQ几年的评测数据上,我们构造的检索系统都取得了不错的性能。  相似文献   

16.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

17.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

18.
[目的/意义]学术文献影响力评价指标不断推陈出新,但尚缺乏在研究主题层面对文献影响力的评价,为发现不同研究主题内具有高影响力和引用价值的文献,本研究给出一种基于研究主题的文献影响力评价方法。[方法/过程]以Web of Science数据库中2011年-2015年间情报学领域500篇高被引文献为样本,利用LDA模型对样本文献进行主题建模,将主题对文献的支持度与文献被引频次相结合,计算特定主题文献的被引频次(specific topic cited frequency,简称STCF),并根据每篇文献在相应主题内的STCF值对文献进行影响力排序。[结果/结论]结果表明,STCF值能反映文献的主题内容、细粒度体现文献的学术地位、呈现文献研究主题的多元性,能够有效弥补被引频次、Altmetrics指标的不足。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号