首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于潜在语义分析的微博主题挖掘模型研究
引用本文:唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119.
作者姓名:唐晓波  王洪艳
作者单位:武汉大学信息资源研究中心 武汉 430072
基金项目:国家自然科学基金资助项目“社会化媒体集成检索与语义分析方法研究”,教育部人文社会科学重点研究基地重大项目“面向决策的企业信息资源集成研究”
摘    要:为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。

关 键 词:微博  短文本  主题挖掘  LDA模型  增量聚类  
收稿时间:2012-08-06

Microblog Topic Mining Model Based on Latent Semantic Analysis
Tang Xiaobo Wang Hongyan.Microblog Topic Mining Model Based on Latent Semantic Analysis[J].Library and Information Service,2012,56(24):114-119.
Authors:Tang Xiaobo Wang Hongyan
Institution:Center for Studies of Information Resources of Wuhan University, Wuhan 430072
Abstract:Microblog platforms have deficiencies in topic mining method currently, and the microblog information is sparse, multidimensional and mass. This paper proposes to apply prior probability-based LAD (Latent Dirichlet Allocation) model on microblog topic mining after preprocessing the dataset in light of the characteristic of information. On the basis of the LDA modeling,this paper designs an incremental clustering algorithm to identify the topic structure,so that the user could better understand the topic and its structure. Through experiment in real microblog dataset, it proves that the model can mine the topic and give the topic structure efficiently and comprehensively.
Keywords:I microblog short text topic mining LDA model incremental clustering
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号