首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 625 毫秒
1.
推动微博舆情事件演化是众多意见领袖共同作用的结果,因此识别意见领袖群对于舆情事件的监管具有重要作用。提出微博舆情话题下的意见领袖群识别模型,综合考虑用户属性特征、交互特征和网络结构,设计微博舆情下用户影响力评估算法MUR,并结合K-means算法形成MUK-means算法,实现对意见领袖群的识别。以新浪微博数据进行实验,MUK-means算法的聚类时间(14s)远远少于传统K-means算法(32s),而且基于MUK-means算法得到的意见领袖群的用户覆盖率高达86.3%。实验结果表明,MUK-means算法改进了K-means算法初始聚类中心不确定的缺点,不仅提高了聚类效率,而且实现了对意见领袖群的有效识别。  相似文献   

2.
针对协同过滤算法中存在数据稀疏的问题,提出一种基于融合用户标签和蚁群的协同过滤微博推荐算法。将表示用户兴趣的标签引入推荐模型中,利用标签和用户以及标签和微博的关联度,建立用户对微博的兴趣度模型。另外结合蚁群聚类和协同过滤为目标用户进行用户聚类,计算出对目标用户的待推荐微博集。最后利用用户对微博的兴趣度模型从待推荐微博集中选出Top-N为目标用户进行推荐。实验引入标签和蚁群算法的有效性,将测试结果与传统协同过滤推荐算法和纯基于标签的微博推荐算法进行比较,该算法不仅改善了协同过滤算法中数据稀疏和冷启动的问题,而且推荐准确度有明显提高。  相似文献   

3.
互联网时代,网络焦点话题讨论对当代高校学生的思想有很大影响,因此对高校舆情进行监测具有十分重要的意义。通过改进的K-means算法对高校舆情进行聚类,获取舆情热点。通过聚类算法获取热点话题,进而对热点舆情话题进行引导,对改进高校学生思想政治工作作用显著。对改进算法进行实验,结果表明该算法准确率达到75%,比传统算法高出8%,改善了传统算法的聚类效果。  相似文献   

4.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

5.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

6.
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。  相似文献   

7.
话题发现中最常用的方法是基于增量式的Single Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层次话题发现基础上,基于Spark平台的算法并行化,将传统的Kernel K means算法进行并行化处理,以并行化的方式对数据进行初步聚类,并对后续数据进行增量式聚类。实验表明,多层次处理提高了话题的准确性;同时,并行化方式相比传统的话题发现方法,其效率有较大提高。  相似文献   

8.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

9.
传统的舆情分析多采用文本聚类和分类技术,但是由于自然语言自身表达的复杂性和灵活性,文本聚类和分类技术很难从根本上反映话题评论人员对待话题的真实态度。针对文本聚类和分类技术的局限性,设计了应用于公司舆情分析的改进概念图算法。改进的概念图能表示部分概念节点的倾向性,利用改进的概念图计算每条评论的健康度,可有效地从语义分析角度计算评论语句的健康度。研究结果表明,应用于公司舆情分析的改进概念图算法,其正确率普遍高于基于文本聚类和分类技术的舆情分析方法。  相似文献   

10.
一种基于向量空间模型的文本聚类方法   总被引:3,自引:0,他引:3  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

11.
在大数据时代,社交网络数据日益剧增,有效分析社交网络信息将对政府的合理决策起到促进作用.在海量的社交网络信息中,用户行为的数据分析是近些年来研究的热点问题.利用社交网络,用户可以关注当前的热点话题,并进行评论或者发布其他信息.这一系列行为反映出用户对于不同话题的偏好性和情感的倾向性,进而提供出有价值的潜在信息.本文设计了一种并行算法,实现了在Twitter和新浪微博数据上识别热点话题,并对用户情感进行分析.实验结果表明,该方法可以有效地监控热点话题及用户情感,具有重要的现实意义.  相似文献   

12.
基于主题概念空间的文本模糊c-均值聚类方法   总被引:2,自引:0,他引:2  
为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.  相似文献   

13.
新型冠状病毒(COVID-19)疫情爆发期间,涌现出了众多的抗疫意见领袖。通过对意见领袖话题传播和演化进行分析研究,可以为网络舆情治理和疫情防控提供理论和知识支撑。采用N-Gram语言模型和Shingling相似度算法相结合的方式进行话题检测,再通过Neo4j图数据库存储与检索意见领袖、话题、事件等多维实体特征,构建以意见领袖为核心的话题图谱。实验结果表明,话题准确率达82.3%,召回率达81.6%,与传统Single-Pass聚类相似度算法相比均有所提高。通过对图谱分析,能够简单直观地展示出不同实体间多维舆情关系。同时,可以提高检索速度和分析效率,符合舆情传播客观规律。  相似文献   

14.
田娜  周驿  严蓉 《教育技术导刊》2020,19(5):168-172
为深入挖掘和分析在线课程讨论区中的文本数据,有效识别出参与该课程学习者关注的话题,改进在线课程教学效果,通过对学习者讨论文本进行高频词汇分析,得到词云图,形成对学习者关注内容的整体认识;利用 LDA 话题模型对学习者的讨论文本数据进行话题挖掘,得到 9 个热点话题。实验结果表明,学习者在线讨论关注话题主要涉及 Python 语言编程基础知识、课程证书、作业测试、开发环境配置以及第三方库的安装等。利用 LDA 模型可以从大量课程讨论文本数据中有效识别出学习者关注话题,进而改进在线课程。  相似文献   

15.
针对web社区的发现和链接分析技术的一些关键问题,基于面向主题的技术,重点研究了二分图的特征,引入了Х二分核集来更为明确地定义抽取的方法.通过扫描主题子图构造Х二分图,对该子图的(i,j)裁剪后得到Х二分核集,这也是社区的最小元素.最后,对所抽取的所有Х二分核集应用层次聚类的方法得到社区内部结构的树状图,证明了构造和裁剪方法的正确性并设计了算法.实验采用HITS(hyperlink-induced topic search)算法中的典型数据集获取方法,选择了10个主题和4个搜索引擎并综合返回的结果.采用社会网中测量社区结构强度的模块化度量来验证所提方法的有效性,实验结果表明所提方法是有效并可行的.  相似文献   

16.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。  相似文献   

17.
提出了潜在狄利赫雷分布模型与自然语言信息处理相关技术相结合的一种挖掘Twitter中中文微博的热点主题词组的方法.选取了20923条中文Tweets作为样本,获取了相关热点的主题词组,与预期的效果基本吻合,表明该模型具有较好的热点识别效果和对主题进行描述的能力.  相似文献   

18.
随着人口老龄化进程的加快,老年教育显得日益迫切,准确把握当前研究现状及趋势成为从事相关研究的必要前提.以中国知网(CNKI)1992—2017年收录的450篇老年教育研究文献为样本,运用科学计量学方法及可视化技术,进行可视化分析,总结和梳理近二十五年来我国老年教育研究的现状及结构,通过主题聚类挖掘出五大热点领域,利用战略地图分析研究的发展趋势,以期为后续相关研究提供参考.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号