首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 303 毫秒
1.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

2.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

3.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

4.
基于微博舆论传播的网络集群行为执行意向的规律与感知探索已成为预警与舆情研究的热点。通过三个在线微博实验,从话题热度及走势、情绪热度、语义网络及微博影响力方面对微博舆论传播集群行为规律进行探索。结果发现:微博集群行为执行意向受到话题热度及走势、情绪热度、网络中心性、粉丝数、关注数和原创数的影响;微博集群行为的可控性、安全性和价值性执行意向规律在话题走势、情绪变化、微博影响力、语义网络等方面均存在差异性。本实验研究结果对于微博热点事件引导策略的制定有一定的启示意义,同时能够对于加强社会管理和危机应对提供实践指引。  相似文献   

5.
[目的/意义]数据获取是网络舆情研究的第一个阶段,在大量数据面前,构建网络舆情推文热度测度模型能够快速筛选出能为网络舆情研究所用的数据。[方法/过程]借鉴信息论中平均自信息量的定义,使用层次分析法与Haker News排名算法构建网络舆情热度测度模型。[结果/结论]通过在微博抓取数据,计算得出针对该数据集的热度阈值,验证该热度测度模型的准确度。事实证明,网络舆情推文热度测度模型能够很好地完成推文热度的计算,并且能够达到较高的计算准确率。  相似文献   

6.
本文探究网络舆论对伊朗突发新闻的关注热点,进而透过社交媒体分析网络舆论对国际热点事件的关注倾向。以含有关键词"伊朗少将遇袭"、"伊朗导弹袭击"和"伊朗"的所有微博作为研究数据,基于词频统计和LDA主题模型提取主题,从文本特征角度分析网络舆论对伊朗局势的关注热点。本研究对基于新浪微博数据检索到的文本内容进行分析发现,网络舆论对于微博关键词"伊朗少将遇袭"和"伊朗导弹袭击"的关注集中于事件本身,并持续关注事件发展态势。对于含有关键词"伊朗"的微博文本分析发现,2020年1月3日-16日网络舆论对伊朗的关注主要集中于政治、战争方面,同时,也关注经济、体育方面的信息。  相似文献   

7.
微博机制和转发预测研究   总被引:1,自引:0,他引:1  
微博机制和转发预测是当前学术研究的一个热点,具有重要的科学研究意义和经济社会价值.本文总结了基于图论的微博机制,对微博转发优化查询算法和预测技术的最新进展进行了系统归纳,明确指出了微博转发预测中用户特征所涉及的用户关系、用户影响力和用户兴趣算法等关键问题;以微博内容特征为切入点,分析了统计学方法、机器学习方法和网络拓扑分析方法的最新模型和技术应用框架;最后,提出了"六度分隔"理论范式、多层耦合网络中的微博用户行为预测、面向微博的"大数据"算法创新与知识挖掘等微博转发预测亟待突破的前沿性研究课题.  相似文献   

8.
[目的/意义]基于健康码的社会治理模式引发了不少社会治理问题。为了帮助健康码设计者和相关政府部门了解基于健康码的社会治理模式存在的实际问题以及用户对于该社会治理模式的迫切需求,并且为今后健康码的优化以及其他以数据为基础的社会治理模式提供参考,本文针对健康码的相关社会治理问题展开了研究。[方法/过程]本文选取新浪微博平台为实验对象,通过采集新浪微博上有关健康码话题的文本数据,利用利益相关者理论、基于聚集策略的LDA模型对微博数据进行了利益相关者划分和健康码主题建模。[结果/结论]本文借鉴利益相关者理论识别划分了8类利益相关者群体,同时采用基于聚集策略的LDA模型对不同类型的利益相关者的微博推文进行主题建模,总结出4类基于健康码的社会治理问题,并挖掘了不同利益相关者对基于健康码的社会治理关注差异及其随时间的变化趋势,针对重点问题提出一些健康码优化的对策建议。  相似文献   

9.
朱芷瑶 《新闻前哨》2023,(10):57-59
本研究以《乘风破浪的姐姐》第三季视频微博评论区文本为研究对象,利用网络爬虫技术获取该条微博评论区评论文本数据,基于LDA主题模型和词频分析法对微博用户的评论文本特征进行挖掘,意图探索微博用户关注焦点和情感倾向。分析结果显示受众对《乘风破浪的姐姐》第三季的讨论主要集中在表达喜爱、回忆青春等方面,这种现象的背后是唱跳节目触发了受众的集体记忆,引发了一场以回忆青春为主题的媒介狂欢。  相似文献   

10.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

11.
依据微博信息资源对企业产品信息进行监测,可以使企业更好地了解用户的相关信息。监测的基本步骤为:采集相关用户的描述标签与相关博文,对标签和博文分别进行聚类,从而发现兴趣社区与相关热门话题。其后以某一知名微博系统为平台,以某一品牌为例,进行相应的实证研究,结果表明所提方法具有一定的实践价值。  相似文献   

12.
微博信息可信度分析研究综述   总被引:7,自引:0,他引:7  
简述微博信息可信度研究的背景和意义,并对微博信息可信度分析等相关概念进行界定;对微博信息可信度的研究成果进行梳理,指出这些研究的不足,并认为微博信息可信度分析的关键问题是微博信息特征的提取和可信度分析方法的设计;结合微博信息的特点及已有研究成果,指出微博信息可信度分析的核心技术包括自然语言处理、社会网络分析、机器学习与数据挖掘等;最后总结全文,对微博信息可信度分析的未来发展方向进行展望,为进一步研究提供参考。  相似文献   

13.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

14.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

15.
越来越多的政府机构开设了政务微博,通过政务微博发布信息、营销公关,但是政务微博中一些有保存价值的信息却没有存档。文章分析了政务微博的档案价值以及影响微博信息存档的因素,如信息量大、互动性、超媒体、即时性等。针对这些问题,提出要重视政务微博档案,建立健全保管机制,将有价值的政务微博进行档案化保存。  相似文献   

16.
[目的/意义]微博评论情感分类模型可以为相关舆情监管部门正确管控话题事件的发展状况和舆情提供一定的指导作用。[方法/过程]基于字词向量的多尺度卷积神经网络,运用多尺度卷积核改善微博评论中上下文信息有限的条件制约,构建基于字词向量的多尺度卷积神经网络微博评论情感分类模型;通过爬取"微博热搜整改"数据,对模型的可行性和优越性进行验证。[结果/结论]验证结果表明基于字词向量的多尺度卷积神经网络在微博舆情等上下文信息有限的短文本分类任务中表现良好。本文在理论层面为微博舆情情感分类提供了更为准确的情感分类理论模型及分类方法,在实践层面可以更好地指导舆情监管部门对舆情的情感倾向进行更好的引导和监管。  相似文献   

17.
基于概率主题模型的文献知识挖掘   总被引:1,自引:0,他引:1  
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。  相似文献   

18.
[目的/意义]移动健康信息服务的发展可以为医疗行业创造巨大的潜在价值,但整体应用滞后于金融服务等行业,其源于转移过程中存在诸多的影响因素。对用户健康信息行为研究成果进行文本挖掘能够有效揭示潜在的主要影响因素,进而总结这些因素对转移行为的影响。[方法/过程]利用LDA模型进行文本分析,结合社会认同理论,将相对感知价值、相对忠诚度作为关键影响因素,转移成本作为调节因素,构建用户转移行为影响因素的研究模型并进行实证分析。[结果/结论]研究结果显示,LDA模型分析结果可以获取较为具体的特征词,通过分析特征词能够获取有效的影响因素,同时,这些因素与实际理论具有较高契合度,基于社会认同理论与相关因素理论提出的模型对用户转移行为具有较好的解释效果。  相似文献   

19.
微博谣言识别研究   总被引:3,自引:0,他引:3  
指出微博在传播信息的同时,也夹杂着谣言等虚假消息、不实言论。针对微博谣言传播速度快、影响范围广等特点,深层挖掘微博中的隐含信息,提出符号特征、链接特征、关键词分布特征和时间差等新特征,将微博谣言识别形式化为分类问题,综合新提取的特征与微博文本特征、用户特征和传播特征构建多个特征模板,利用SVM分类学习方法对微博进行分类,识别结果可有效辅助人们更好、更快地识别谣言。实验结果表明,在基本特征的基础之上,新提出的特征能有效提高微博谣言识别的正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号