首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 703 毫秒
1.
[目的/意义] 概率主题模型算法在不断得到改进与扩展,本文对国内外已有的利用引文构建的主题模型进行研究,分析和对比不同模型的生成过程与算法,并探讨利用引文构建的主题模型在科技文本分析中的应用与可扩展的研究方向。[方法/过程] 通过Web of Science数据库和CNKI数据库获取国内外利用引文构建主题模型的相关文献,经人工判读后筛选出具有代表性的文献,对这些文献中利用引文构建的主题模型,从建模思想、生成过程、参数估计与推断算法等方面进行对比与分析。[结果/结论] 目前国内外利用引文构建的主题模型主要包括研究主题与引文分布的主题模型、研究被引与施引主题间关系的主题模型,以及基于引用内容的引用主题模型;主题模型中引入引文信息后,能够获得更完整的主题内容和特定主题下的重要文献,并可识别施引文献和被引文献之间主题间的关系及影响;已有的模型多集中在概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型基础上进行扩展。未来可扩展研究引入引用内容的主题模型、模型的性能优化和评价方法、模型的应用研究等。  相似文献   

2.
基于被引次数的引文分析无法直接揭示论文的研究内容,利用关键词或从标题、摘要和全文中抽取的主题词很难客观反映论文的被引原因。本文以碳纳米管纤维研究领域的高被引论文为研究对象进行引文内容抽取和主题识别,经人工判读验证:基于引文内容分析的高被引论文识别的核心主题能够较好地揭示高被引论文的被引原因(引用动机),而且与论文的研究内容相符合;与基于全文、基于标题和摘要的主题识别相比,在引文内容分析基础上识别的主题具有更好的主题代表性,能够有效揭示被引文献的研究内容,是对原文相关信息的重要补充。本文的实验表明基于引文内容分析的高被引论文主题识别是可行而且有效的。图4。表4。参考文献31。  相似文献   

3.
科学引文网络反映了科学知识的动态演化,作为一个复杂的网络系统已得到广泛研究。针对引文网络中主题不明确和热点问题不易跟踪的问题,提出了引文网络中的舆论评价计算方法和网络社区主题提取与表示方法。首先采用正则表达式和模板匹配方法提取元数据;并计算文献作者对参考文献的舆论评价,建立带有舆论评价权值的文献引用网络,并对网络中的突现语义进行描述;然后以此网络结构为基础,结合信息熵和网络中文献重要性权重改进TDIDF算法,计算得到每个社区主题的关键词概率描述,从而得到社区主题。本文的方法和实验对解释引文网络的演化、社区主题发现、文献的共享等有借鉴意义。  相似文献   

4.
科学文献之间通过引用关系构成了特定研究主题的知识网络,其单向无回路的特征揭示了学科主题的知识结构和发展过程.本文以WOS数据库中XML研究论文所构成的引文网络为例,利用引文关系权重与文献节点权重确定核心文献,并在此基础上从阈值和权值“高地”两个角度对核心文献进行聚合.研究发现:文献核心程度的确定过程充分考虑了不同引用实质上的重要程度区别,据此计算得到的引文和文献节点权重能够准确反映文献的质量;阈值聚合能够迅速发现整个学科发展过程中最核心的文献和引文;权值“高地”聚合分析结果更为多样,并能弥补阈值聚合在揭示次重要子结构方面的不足,发现整个知识体系发展过程中丰富的研究维度.  相似文献   

5.
文献三角引用是一种融合文献共被引与耦合的引用关系,具有较高的研究价值和应用意义。为了从深层次上挖掘三角引用现象的内在机理、特征,本文从引文内容分析角度,对三角引用结构中三种不同引用关系的引用强度、引用位置、引用情感进行分析。以CNKI数据库获取的18817条三角引用关系为实验样本,爬取相应的全文数据,并提取、标注、计算每条三角引用中发生的三种引用关系的引用强度、引用章节位置、引用相对顺序、引用情感极性。实验结果发现:A、B、C三种文献在三角引用结构中各具有不同的角色和影响力,B→A、C→A、C→B三种引用关系也各有不同的引用规律。在三角引用结构内部,原始文献A的被引用强度最大、被引用顺序最靠前、正向被引用情感数量最多。其次,由于文献A与B的共被引联系,C→A与C→B在引用位置上具有一致性;由于文献B与C的耦合联系,B→A与C→A在引用语境上也具有一致性。图2。表8。参考文献49。  相似文献   

6.
利用引文时序可视化挖掘专业学科发展规律   总被引:1,自引:0,他引:1  
文献计量学中的引文时序研究可以用来展示某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,并从中探讨科学技术的发展规律.本文对中国25年来关于杂交水稻研究的文献的引文数据进行整理,利用引文时序可视化软件构建引文编年图,鉴别出代表杂交水稻研究学科发展关键事件的文献,并就它们的关系和引用序列进行分析,梳理出杂交水稻研究在这段时间内的发展规律,最后把结果与从事杂交水稻研究的专家的观点进行对比,发现二者具有高度的重合性,证明了利用引文时序网络挖掘专业学科发展规律的可靠性和准确性.  相似文献   

7.
传统基于引文网络的主路径分析方法没有考虑引文对施引文献的相对价值,认为一篇学术文献的所有引文对该文献具有同等程度的知识贡献。本文从引用行为的统计学层面和语义信息层面综合区分引文重要性,探讨引文对施引文献的重要性对构造主路径的影响。构建了引文重要度指标对主路径分析方法中的链接遍历计数进行调节,并通过实例验证了改进后的主路径分析方法在提取知识流方面的性能。实验结果显示,经过引文重要度加权调节后的关键主路径和全局主路径取得了实验中最高的精确值和F1值。研究结果表明,通过引文重要度加权调节可以增加主路径链接在时间上的连续性,提高节点间的相关性,提升主路径分析方法找到关键节点的能力和链接溯源能力。  相似文献   

8.
本文借助《中文社会科学引文索引》(2000-2007)数据,利用引文分析法,对图书馆、情报与文献学学科论文引用的图书进行了统计,推出该学科领域最具学术影响力的21种工具书。通过简要介绍这些著作的内容,并结合来源文献主题对这些著作被引情况进行分析,以反映这些著作在本领域内的学术影响。  相似文献   

9.
介绍注疏文献的引用特点,并对注疏文献的引用情况进行分类。分析注疏文献引文分析的流程,提出利用学科本体和XML表示的注疏文献,解决引文分析中的难点。通过对《十三经注疏》中各部注疏文献之间的耦合分析,以及被引文献的同被引分析,尝试对古籍文献的影响力进行评估。  相似文献   

10.
[目的/意义]学术文献影响力评价指标不断推陈出新,但尚缺乏在研究主题层面对文献影响力的评价,为发现不同研究主题内具有高影响力和引用价值的文献,本研究给出一种基于研究主题的文献影响力评价方法。[方法/过程]以Web of Science数据库中2011年-2015年间情报学领域500篇高被引文献为样本,利用LDA模型对样本文献进行主题建模,将主题对文献的支持度与文献被引频次相结合,计算特定主题文献的被引频次(specific topic cited frequency,简称STCF),并根据每篇文献在相应主题内的STCF值对文献进行影响力排序。[结果/结论]结果表明,STCF值能反映文献的主题内容、细粒度体现文献的学术地位、呈现文献研究主题的多元性,能够有效弥补被引频次、Altmetrics指标的不足。  相似文献   

11.
Document clustering of scientific texts using citation contexts   总被引:3,自引:0,他引:3  
Document clustering has many important applications in the area of data mining and information retrieval. Many existing document clustering techniques use the “bag-of-words” model to represent the content of a document. However, this representation is only effective for grouping related documents when these documents share a large proportion of lexically equivalent terms. In other words, instances of synonymy between related documents are ignored, which can reduce the effectiveness of applications using a standard full-text document representation. To address this problem, we present a new approach for clustering scientific documents, based on the utilization of citation contexts. A citation context is essentially the text surrounding the reference markers used to refer to other scientific works. We hypothesize that citation contexts will provide relevant synonymous and related vocabulary which will help increase the effectiveness of the bag-of-words representation. In this paper, we investigate the power of these citation-specific word features, and compare them with the original document’s textual representation in a document clustering task on two collections of labeled scientific journal papers from two distinct domains: High Energy Physics and Genomics. We also compare these text-based clustering techniques with a link-based clustering algorithm which determines the similarity between documents based on the number of co-citations, that is in-links represented by citing documents and out-links represented by cited documents. Our experimental results indicate that the use of citation contexts, when combined with the vocabulary in the full-text of the document, is a promising alternative means of capturing critical topics covered by journal articles. More specifically, this document representation strategy when used by the clustering algorithm investigated in this paper, outperforms both the full-text clustering approach and the link-based clustering technique on both scientific journal datasets.  相似文献   

12.
利用引用信息的关键词提取   总被引:1,自引:0,他引:1  
提出一种利用引用信息提取关键词的新方法,将候选词项与引用文献之间的关系抽象为二部图,使用Co-HITS方法迭代计算词项重要性得分至收敛,选出得分最高的词项作为关键词。用ACM数据库中主分类为“信息系统”的论文摘要作为数据集进行评测,结果显示本文所提出的方法优于同类基于图模型计算词项重要度的方法,适用于科学文献和其他具有链接关系的文本集合。在考虑引用信息的情况下,所提取的关键词不但概括原文还能体现原文受到外界关注的内容要点。  相似文献   

13.
传统的文献计量学主要基于题录数据展开研究,随着开放获取运动的推进,基于全文数据的文献计量学分析悄然兴起,出现全文引文分析、知识实体抽取、语篇结构功能分析等研究热点。文章从数据基础、研究内容、流程方法3个角度系统阐述全文计量分析的范式和框架。在数据方面,通过回顾分析对象从题录数据到全文数据的变化,展现文献计量学由外在关联到内在本体的演化。在内容方面,选取语词、语句和语篇等不同层面的研究热点,对近年该领域的国内外研究进展和前沿问题进行综述。在方法方面,总结文本分析(包括计算语言学、社会语言学)和计量分析(包括加权分析、序列分析)两类主要的分析范式。  相似文献   

14.
为揭示不同领域历史研究对档案的利用需求差异,分析不同类型档案对历史研究的支持力度,本文基于《历史研究》期刊2013—2017年发表的史学论文中的档案引用记录,采用引文分析法,从施引文献和被引档案分析角度探讨了我国历史学者利用档案的主题、年代、类型、载体、地区和机构分布等特征,并基于此从档案文献编纂、档案全文数据库建设和平衡档案利用需求等方面为档案机构面向历史学者开展馆藏建设与利用服务提供对策。  相似文献   

15.
[目的/意义] 为探索图书的老化速度与引文特征,更客观地评价图书的学术价值和利用规律。[方法/过程] 对汤森路透WoS平台中图书引文索引(Book Citation Index)中2012-2014年间的图书情报学学科图书的引文数据进行引用半衰期、被引半衰期的计量,并与WoS中该学科的期刊引文半衰期、被引半衰期做分析比较。[结果/结论] 对比结果显示,该学科图书引用半衰期大于期刊引用半衰期,图书被引半衰期要小于期刊被引半衰期,并从图书的引文和被引规律分析造成这种差异的原因。  相似文献   

16.
In citation network analysis, complex behavior is reduced to a simple edge, namely, node A cites node B. The implicit assumption is that A is giving credit to, or acknowledging, B. It is also the case that the contributions of all citations are treated equally, even though some citations appear multiply in a text and others appear only once. In this study, we apply text-mining algorithms to a relatively large dataset (866 information science articles containing 32,496 bibliographic references) to demonstrate the differential contributions made by references. We (1) look at the placement of citations across the different sections of a journal article, and (2) identify highly cited works using two different counting methods (CountOne and CountX). We find that (1) the most highly cited works appear in the Introduction and Literature Review sections of citing papers, and (2) the citation rankings produced by CountOne and CountX differ. That is to say, counting the number of times a bibliographic reference is cited in a paper rather than treating all references the same no matter how many times they are invoked in the citing article reveals the differential contributions made by the cited works to the citing paper.  相似文献   

17.
Objective:This study compares two maps of biomedical sciences using Medical Subject Headings (MeSH) term co-assignments versus MeSH terms of citing/cited articles and reveals similarities and differences between the two approaches.Methods:MeSH terms assigned to 397,475 journal articles published in 2015, as well as their 4,632,992 cited references, were retrieved from Web of Science and MEDLINE databases, respectively, which formed over 7 million MeSH co-assignments and nearly 18 million direct citation pairs. We generated six network visualizations of biomedical science at three levels using Gephi software based on these MeSH co-assignments and citation pairs.Results:The MeSH co-assignment map contained more nodes and edges, as MeSH co-assignments cover all medical topics discussed in articles. By contrast, the MeSH citation map contained fewer but larger nodes and wider edges, as citation links indicate connections to two similar medical topics.Conclusion:These two types of maps emphasize different aspects of biomedical sciences, with MeSH co-assignment maps focusing on the relationship between topics in different categories and MeSH direct citation maps providing insights into relationships between topics in the same or similar category.  相似文献   

18.
Author co-citation analysis (ACA) has long been used as an effective method for identifying the intellectual structure of a research domain, but it relies on simple co-citation counting, which does not take the citation content into consideration. The present study proposes a new method for measuring the similarity between co-cited authors by considering author's citation content. We collected the full-text journal articles in the information science domain and extracted the citing sentences to calculate their similarity distances. We compared our method with traditional ACA and found out that our approach, while displaying a similar intellectual structure for the information science domain as the other baseline methods, also provides more details about the sub-disciplines in the domain than with traditional ACA.  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号