首页 | 本学科首页   官方微博 | 高级检索  
     检索      

LDA与BTM概率主题模型抽取科学主题效果比较研究
引用本文:张文伟,赵辉.LDA与BTM概率主题模型抽取科学主题效果比较研究[J].情报工程,2020,6(2):66-77.
作者姓名:张文伟  赵辉
作者单位:中国科学技术信息研究所 北京 100038;中国科学技术信息研究所 北京 100038
基金项目:中国科学技术信息研究所创新研究基金
摘    要:分析文献主题是挖掘科学脉络的基础,目前存在多种提取文献主题的方法,被学者广泛使用的方法是使用概率主题模型抽取文献的主题。使用不同的算法和不同的语料提取出的主题结果也不同,本文通过计算查全率、查准率和定性分析方法分别比较利用了LDA抽取标题、LDA抽取摘要、BTM抽取标题、BTM抽取摘要的主题效果。本文以纳米材料领域数据为例进行分析,实验结果表明使用摘要做语料提取出的主题颗粒度较小且能够反应文献研究内容的细节,LDA算法在提取摘要主题方面优于BTM算法,BTM算法在提取标题主题方面优于LDA算法。

关 键 词:LDA  BTM  主题抽取  对比分析

Comparative Study on the Effect of LDA and BTM Probabilistic Subject Model in Extracting Scientific Subject
Authors:ZHANG Wenwei  ZHAO Hui
Institution:(Institute of science and technology of China,Beijing 100038,China)
Abstract:Analyzing the subjects of the literature is the foundation for exploring the scientific context. There are several ways to extract the subjects of the literature, the most common way to extract the subjects of the literature is probabilistic topic models. The results of using different algorithms and different corpora to extract the topic are different. This paper compares the subject effects of using LDA and BTM to extract the title and abstract by calculating the recall rate, precision rate, etc. Taking nanomaterials data as an example, the result shows that the topic particle size of abstract corpus extraction is smaller than that of title, which can reflect the specific content of literature research. Compared to the BTM algorithm, the algorithm of LDA is better in extracting an abstract subject. In contrast, the BTM algorithm is prefered than LDA algorithm in extracting the title subject.
Keywords:LDA  BTM  subject extraction  comparative analysis
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《情报工程》浏览原始摘要信息
点击此处可从《情报工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号